Elasticsearch7.3教程第十五章有哪些重点内容?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2319个文字,预计阅读时间需要10分钟。
1、中文分词器 1.1、默认分词器首先来看ElasticSearch中默认的standard分词器。standard分词器对英文效果较好,但对于中文来说,它只是按照字符进行分割,并不是真正的中文分词,因此效果不佳。
2、GET /_analyze使用GET /_analyze API可以测试不同的分词器对文本的处理效果。
示例请求:jsonGET /_analyze{ analyzer: standard, text: 你好,世界}结果:json[ { token: 你好, start_offset: 0, end_offset: 2, type: word, position: 0 }, { token: 世界, start_offset: 3, end_offset: 5, type: word, position: 1 }]从结果可以看出,standard分词器将中文文本按照字符分割,并没有进行有效的分词。
1、 中文分词器 1.1 默认分词器先来看看ElasticSearch中默认的standard 分词器,对英文比较友好,但是对于中文来说就是按照字符拆分,不是那么友好。
GET /_analyze
{
"analyzer": "standard",
"text": "中华人民共和国"
}
我们想要的效果是什么:“中华人民共和国”作为一整个词语。
本文共计2319个文字,预计阅读时间需要10分钟。
1、中文分词器 1.1、默认分词器首先来看ElasticSearch中默认的standard分词器。standard分词器对英文效果较好,但对于中文来说,它只是按照字符进行分割,并不是真正的中文分词,因此效果不佳。
2、GET /_analyze使用GET /_analyze API可以测试不同的分词器对文本的处理效果。
示例请求:jsonGET /_analyze{ analyzer: standard, text: 你好,世界}结果:json[ { token: 你好, start_offset: 0, end_offset: 2, type: word, position: 0 }, { token: 世界, start_offset: 3, end_offset: 5, type: word, position: 1 }]从结果可以看出,standard分词器将中文文本按照字符分割,并没有进行有效的分词。
1、 中文分词器 1.1 默认分词器先来看看ElasticSearch中默认的standard 分词器,对英文比较友好,但是对于中文来说就是按照字符拆分,不是那么友好。
GET /_analyze
{
"analyzer": "standard",
"text": "中华人民共和国"
}
我们想要的效果是什么:“中华人民共和国”作为一整个词语。

