ElasticSearch入门实战对初学者来说是否容易掌握?
- 内容介绍
- 文章标签
- 相关推荐
本文共计3700个文字,预计阅读时间需要15分钟。
家好,我是小助手。不期速成,日拱一卒,项目中准备使用ElasticSearch。此前,对ElasticSearch只有初步了解,未系统学习。本系列文章将从基础学起,深入ElasticSearch的实用应用。
大家好,我是咔咔 不期速成,日拱一卒
项目中准备使用ElasticSearch,之前只是对ElasticSearch有过简单的了解没有系统的学习,本系列文章将从基础的学习再到深入的使用。
咔咔之前写了一份死磕MySQL文章,如今再入一个系列玩转ElasticSearch。
本期文章会带给大家学习ElasticSearch的基础入门,先把基础学会再深入学习更多的知识点。
一、基本概念文档(Document)
ElasticSearch是面向文档的,文档是所有可搜索数据的最小单位,例如MySQL的一条数据记录
文档会被序列化成为json格式,保存在ElasticSearch中
每个文档都有一个唯一ID,例如MySQL中的主键ID
JSON文档
一篇文档包括了一系列的字段,例如数据中的一条记录
json文档,格式灵活,不需要预先定义格式
在上期文章中把csv文件格式文件通过Logstash转化为json存储到ElasticSearch中
文档的元数据
index :文档所属的索引名
type:文档所属类型名
id:文档唯一ID
source:文档的原始JSON数据
version:文档的版本信息
score:相关性分数
索引
索引是文档的容器,是一类文档的结合,每个索引都有自己的mapping定义,用于定义包含的文档的字段和类型
每个索引都可以定义mapping,setting,mapping是定义字段类型,setting定义不同的数据分布
{
"movies":{
"aliases":{},
"mappings":{
"properties":{
"@version":{
"type":"text",
"fields":{
"keyword":{
"type":"keyword",
"ignore_above":256
}
}
},
"genre":{
"type":"text",
"fields":{
"keyword":{
"type":"keyword",
"ignore_above":256
}
}
},
"id":{
"type":"text",
"fields":{
"keyword":{
"type":"keyword",
"ignore_above":256
}
}
},
"title":{
"type":"text",
"fields":{
"keyword":{
"type":"keyword",
"ignore_above":256
}
}
},
"year":{
"type":"long"
}
}
},
"settings":{
"index":{
"creation_date":"1641637408626",
"number_of_shards":"1",
"number_of_replicas":"1",
"uuid":"gf0M2BgnStGZZHsIJD6otQ",
"version":{
"created":"7010099"
},
"provided_name":"movies"
}
}
}
}
Type
7.0之前,一个Index可以设置多个type,所以当时大多数资料显示的都是type类型与数据库的表
7.0之后,一个索引只能创建一个type“_doc”
若不好理解,可以对比MySQL类比一下
节点
节点是一个ElasticSearch的实例,本质上就是java的一个进程,一台机器可以运行多个ElasticSearch进程,但生产环境下还是建议一台服务器运行一个ElasticSearch实例
每个节点都有名字,通过配置文件配置,或者启动时 -E node.name=node1
每个节点在启动后,会分配一个UID,保存在data目录下
主节点:master
默认情况下任何一个集群中的节点都有可能被选为主节点,职责是创建索引、删除索引、跟踪集群中的节点、决定分片分配给相应的节点。索引数据和搜索查询操作会占用大量的内存、cpu、io资源。因此,为了保证一个集群的稳定性,应该主动分离主节点跟数据节点。
数据节点:data
看名字就知道是存储索引数据的节点,主要用来增删改查、聚合操作等。数据节点对内存、cpu、io要求比较高,在优化的时候需要注意监控数据节点的状态,当资源不够的时候,需要在集群中添加新的节点。
负载均衡节点:client
该节点只能处理路由请求,处理搜索,分发索引等操作,该节点类似于Nginx的负载均衡处理,独立的客户端节点在一个比较大的集群中是非常有用的,它会协调主节点、数据节点、客户端节点加入集群的状态,根据集群的状态可以直接路由请求。
预处理节点:ingest
在索引数据之前可以先对数据做预处理操作,所有节点其实默认都是支持ingest操作的,也可以专门将某个节点配置为ingest节点。
分片
分片分为主分片,副本分片
主分片:用以解决数据水平扩展的问题,将数据分布到集群内的所有节点上,一个分片是一个运行的Lucene(搜索引擎)实例,主分片数在创建时指定,后续不允许修改,除非Reindex
副本:用以解决数据高可用的问题,可以理解为主分片的拷贝,增加副本数,还可以在一定程度上提高服务的可用性。
在生产环境中分片的设置有何影响
分片数设置过小会导致无法增加节点实现水平扩展,单个分片数据量太大,导致数据重新分配耗时。假设你给索引设置了三个主分片 ,这时你给集群加了几个实例,索引也只能在三台服务器上
分片数设置过大导致搜索结果相关性打分,影响统计结果的准确性,单个节点上过多的分片,会导致资源浪费,同时也会影响性能
从ElasticSearch7.0开始,默认的主分片设置为1,解决了over-sharding的问题
查看集群健康状态
执行接口
get_cluster/health
green:主分片与副本都正常分配
yellow:主分片全部正常分配,有副本分片未能正常分配
red:有主分片未能分配,当服务器的磁盘容量超过85%时创建了一个索引
二、Result Apicreate 一个文档
支持自动生成文档ID和指定文档ID两种方式
通过调用post /movies/_doc 系统会自动生成文档ID
使用(.*)",
"replacement":"$1"
}
],
"text":"www.kakaxiantan.com"
}
自定义Token Filters
现在用的分词器是whitespace,这个分词器是把词使用空格 隔开,但是现在还想让词变小写并过滤修饰词,应该怎么做呢?
post/_analyze
{
"tokenizer":"whitespace",
"filter":["stop","lowercase"],
"text":"Ifonyoudon'texpectquicksuccess,you'llgetapawneveryday"
}
为了不占地方,只复制出了代表性的返回结果
{
实战自定义分词
"tokens":[
{
"token":"if",
"start_offset":0,
"end_offset":2,
"type":"word",
"position":0
},
{
"token":"you",
"start_offset":6,
"end_offset":9,
"type":"word",
"position":2
}
]
}
本节开篇就知道analyze是通过Character Fiters、Tokenizer、Token Filter组成的,那么在自定义时这三个都是可以自定义的
自定义分词必存在analyzer、tokenizer、char_filter、filter
这部分的定义都是需要在下面定义好规则,否则无法使用,详细定义代码往下拉看完整版本即可
对这个配置不要死记硬背使用的多了自然就会记住
#实战自定义analyze
十一、Index Template
putkaka
{
"settings":{
"analysis":{
"analyzer":{
"my_custom_analyzer":{
"type":"custom",
"char_filter":[
"emoticons"
],
"tokenizer":"punctuation",
"filter":[
"lowercase",
"englist_stop"
]
}
},
"tokenizer":{
"punctuation":{
"type":"keyword"
}
},
"char_filter":{
"emoticons":{
"type":"mapping",
"mappings":[
"123=>Kaka",
"456=>xiantan"
]
}
},
"filter":{
"englist_stop":{
"type":"stop",
"stopwords":"_english_"
}
}
}
}
}
#执行自定义的分词
post/kaka/_analyze
{
"analyzer":"my_custom_analyzer",
"text":"123456"
}
#返回结果,把字母大写转为小写不做分词
{
"tokens":[
{
"token":"kakaxiantan",
"start_offset":0,
"end_offset":8,
"type":"word",
"position":0
}
]
}
在一个新索引新建并插入文档后,会使用默认的setting、mapping,如果你有设定settings、mappings会覆盖默认的settings、mappings配置
#创建索引并插入文档
post/kaka/_doc/1
{
"gongzhonghao":"123"
}
#获取settings、mappings
get/kaka
以下这个配置,就是默认配置
#返回的settings、mappings
{
"kaka":{
"aliases":{},
"mappings":{
"properties":{
"gongzhonghao":{
"type":"text",
"fields":{
"keyword":{
"type":"keyword",
"ignore_above":256
}
}
}
}
},
"settings":{
"index":{
"creation_date":"1642080577305",
"number_of_shards":"1",
"number_of_replicas":"1",
"uuid":"JJWsGYcrTam0foEQxuZqGQ",
"version":{
"created":"7010099"
},
"provided_name":"kaka"
}
}
}
}
接下来创建一个自己的模板
#设置一个只要是test开头的索引都能使用的模板,在这个模板中我们将字符串中得数字也转为了long类型,而非text
put/_template/kaka_tmp
{
"index_patterns":["test*"],
"order":1,
"settings":{
"number_of_shards":1,
"number_of_replicas":2
},
"mappings":{
#让时间不解析为date类型,返回是text类型
"date_detection":false,
#让双引号下的数字解析为long类型,而非text类型
"numeric_detection":true
}
}
创建索引
post/test_kaka/_doc/1
{
"name":"123",
"date":"2022/01/13"
}
get/test_kaka
返回结果
{
"test_kaka":{
"aliases":{},
"mappings":{
"date_detection":false,
"numeric_detection":true,
"properties":{
"date":{
"type":"text",
"fields":{
"keyword":{
"type":"keyword",
"ignore_above":256
}
}
},
"name":{
"type":"long"
}
}
},
"settings":{
"index":{
"creation_date":"1642081053006",
"number_of_shards":"1",
"number_of_replicas":"2",
"uuid":"iCcaa_8-TXuymhfzQi31yA",
"version":{
"created":"7010099"
},
"provided_name":"test_kaka"
}
}
}
}
“坚持学习、坚持写作、坚持分享是咔咔从业以来所秉持的信念。愿文章在偌大的互联网上能给你带来一点帮助,我是咔咔,下期见。
”
本文共计3700个文字,预计阅读时间需要15分钟。
家好,我是小助手。不期速成,日拱一卒,项目中准备使用ElasticSearch。此前,对ElasticSearch只有初步了解,未系统学习。本系列文章将从基础学起,深入ElasticSearch的实用应用。
大家好,我是咔咔 不期速成,日拱一卒
项目中准备使用ElasticSearch,之前只是对ElasticSearch有过简单的了解没有系统的学习,本系列文章将从基础的学习再到深入的使用。
咔咔之前写了一份死磕MySQL文章,如今再入一个系列玩转ElasticSearch。
本期文章会带给大家学习ElasticSearch的基础入门,先把基础学会再深入学习更多的知识点。
一、基本概念文档(Document)
ElasticSearch是面向文档的,文档是所有可搜索数据的最小单位,例如MySQL的一条数据记录
文档会被序列化成为json格式,保存在ElasticSearch中
每个文档都有一个唯一ID,例如MySQL中的主键ID
JSON文档
一篇文档包括了一系列的字段,例如数据中的一条记录
json文档,格式灵活,不需要预先定义格式
在上期文章中把csv文件格式文件通过Logstash转化为json存储到ElasticSearch中
文档的元数据
index :文档所属的索引名
type:文档所属类型名
id:文档唯一ID
source:文档的原始JSON数据
version:文档的版本信息
score:相关性分数
索引
索引是文档的容器,是一类文档的结合,每个索引都有自己的mapping定义,用于定义包含的文档的字段和类型
每个索引都可以定义mapping,setting,mapping是定义字段类型,setting定义不同的数据分布
{
"movies":{
"aliases":{},
"mappings":{
"properties":{
"@version":{
"type":"text",
"fields":{
"keyword":{
"type":"keyword",
"ignore_above":256
}
}
},
"genre":{
"type":"text",
"fields":{
"keyword":{
"type":"keyword",
"ignore_above":256
}
}
},
"id":{
"type":"text",
"fields":{
"keyword":{
"type":"keyword",
"ignore_above":256
}
}
},
"title":{
"type":"text",
"fields":{
"keyword":{
"type":"keyword",
"ignore_above":256
}
}
},
"year":{
"type":"long"
}
}
},
"settings":{
"index":{
"creation_date":"1641637408626",
"number_of_shards":"1",
"number_of_replicas":"1",
"uuid":"gf0M2BgnStGZZHsIJD6otQ",
"version":{
"created":"7010099"
},
"provided_name":"movies"
}
}
}
}
Type
7.0之前,一个Index可以设置多个type,所以当时大多数资料显示的都是type类型与数据库的表
7.0之后,一个索引只能创建一个type“_doc”
若不好理解,可以对比MySQL类比一下
节点
节点是一个ElasticSearch的实例,本质上就是java的一个进程,一台机器可以运行多个ElasticSearch进程,但生产环境下还是建议一台服务器运行一个ElasticSearch实例
每个节点都有名字,通过配置文件配置,或者启动时 -E node.name=node1
每个节点在启动后,会分配一个UID,保存在data目录下
主节点:master
默认情况下任何一个集群中的节点都有可能被选为主节点,职责是创建索引、删除索引、跟踪集群中的节点、决定分片分配给相应的节点。索引数据和搜索查询操作会占用大量的内存、cpu、io资源。因此,为了保证一个集群的稳定性,应该主动分离主节点跟数据节点。
数据节点:data
看名字就知道是存储索引数据的节点,主要用来增删改查、聚合操作等。数据节点对内存、cpu、io要求比较高,在优化的时候需要注意监控数据节点的状态,当资源不够的时候,需要在集群中添加新的节点。
负载均衡节点:client
该节点只能处理路由请求,处理搜索,分发索引等操作,该节点类似于Nginx的负载均衡处理,独立的客户端节点在一个比较大的集群中是非常有用的,它会协调主节点、数据节点、客户端节点加入集群的状态,根据集群的状态可以直接路由请求。
预处理节点:ingest
在索引数据之前可以先对数据做预处理操作,所有节点其实默认都是支持ingest操作的,也可以专门将某个节点配置为ingest节点。
分片
分片分为主分片,副本分片
主分片:用以解决数据水平扩展的问题,将数据分布到集群内的所有节点上,一个分片是一个运行的Lucene(搜索引擎)实例,主分片数在创建时指定,后续不允许修改,除非Reindex
副本:用以解决数据高可用的问题,可以理解为主分片的拷贝,增加副本数,还可以在一定程度上提高服务的可用性。
在生产环境中分片的设置有何影响
分片数设置过小会导致无法增加节点实现水平扩展,单个分片数据量太大,导致数据重新分配耗时。假设你给索引设置了三个主分片 ,这时你给集群加了几个实例,索引也只能在三台服务器上
分片数设置过大导致搜索结果相关性打分,影响统计结果的准确性,单个节点上过多的分片,会导致资源浪费,同时也会影响性能
从ElasticSearch7.0开始,默认的主分片设置为1,解决了over-sharding的问题
查看集群健康状态
执行接口
get_cluster/health
green:主分片与副本都正常分配
yellow:主分片全部正常分配,有副本分片未能正常分配
red:有主分片未能分配,当服务器的磁盘容量超过85%时创建了一个索引
二、Result Apicreate 一个文档
支持自动生成文档ID和指定文档ID两种方式
通过调用post /movies/_doc 系统会自动生成文档ID
使用(.*)",
"replacement":"$1"
}
],
"text":"www.kakaxiantan.com"
}
自定义Token Filters
现在用的分词器是whitespace,这个分词器是把词使用空格 隔开,但是现在还想让词变小写并过滤修饰词,应该怎么做呢?
post/_analyze
{
"tokenizer":"whitespace",
"filter":["stop","lowercase"],
"text":"Ifonyoudon'texpectquicksuccess,you'llgetapawneveryday"
}
为了不占地方,只复制出了代表性的返回结果
{
实战自定义分词
"tokens":[
{
"token":"if",
"start_offset":0,
"end_offset":2,
"type":"word",
"position":0
},
{
"token":"you",
"start_offset":6,
"end_offset":9,
"type":"word",
"position":2
}
]
}
本节开篇就知道analyze是通过Character Fiters、Tokenizer、Token Filter组成的,那么在自定义时这三个都是可以自定义的
自定义分词必存在analyzer、tokenizer、char_filter、filter
这部分的定义都是需要在下面定义好规则,否则无法使用,详细定义代码往下拉看完整版本即可
对这个配置不要死记硬背使用的多了自然就会记住
#实战自定义analyze
十一、Index Template
putkaka
{
"settings":{
"analysis":{
"analyzer":{
"my_custom_analyzer":{
"type":"custom",
"char_filter":[
"emoticons"
],
"tokenizer":"punctuation",
"filter":[
"lowercase",
"englist_stop"
]
}
},
"tokenizer":{
"punctuation":{
"type":"keyword"
}
},
"char_filter":{
"emoticons":{
"type":"mapping",
"mappings":[
"123=>Kaka",
"456=>xiantan"
]
}
},
"filter":{
"englist_stop":{
"type":"stop",
"stopwords":"_english_"
}
}
}
}
}
#执行自定义的分词
post/kaka/_analyze
{
"analyzer":"my_custom_analyzer",
"text":"123456"
}
#返回结果,把字母大写转为小写不做分词
{
"tokens":[
{
"token":"kakaxiantan",
"start_offset":0,
"end_offset":8,
"type":"word",
"position":0
}
]
}
在一个新索引新建并插入文档后,会使用默认的setting、mapping,如果你有设定settings、mappings会覆盖默认的settings、mappings配置
#创建索引并插入文档
post/kaka/_doc/1
{
"gongzhonghao":"123"
}
#获取settings、mappings
get/kaka
以下这个配置,就是默认配置
#返回的settings、mappings
{
"kaka":{
"aliases":{},
"mappings":{
"properties":{
"gongzhonghao":{
"type":"text",
"fields":{
"keyword":{
"type":"keyword",
"ignore_above":256
}
}
}
}
},
"settings":{
"index":{
"creation_date":"1642080577305",
"number_of_shards":"1",
"number_of_replicas":"1",
"uuid":"JJWsGYcrTam0foEQxuZqGQ",
"version":{
"created":"7010099"
},
"provided_name":"kaka"
}
}
}
}
接下来创建一个自己的模板
#设置一个只要是test开头的索引都能使用的模板,在这个模板中我们将字符串中得数字也转为了long类型,而非text
put/_template/kaka_tmp
{
"index_patterns":["test*"],
"order":1,
"settings":{
"number_of_shards":1,
"number_of_replicas":2
},
"mappings":{
#让时间不解析为date类型,返回是text类型
"date_detection":false,
#让双引号下的数字解析为long类型,而非text类型
"numeric_detection":true
}
}
创建索引
post/test_kaka/_doc/1
{
"name":"123",
"date":"2022/01/13"
}
get/test_kaka
返回结果
{
"test_kaka":{
"aliases":{},
"mappings":{
"date_detection":false,
"numeric_detection":true,
"properties":{
"date":{
"type":"text",
"fields":{
"keyword":{
"type":"keyword",
"ignore_above":256
}
}
},
"name":{
"type":"long"
}
}
},
"settings":{
"index":{
"creation_date":"1642081053006",
"number_of_shards":"1",
"number_of_replicas":"2",
"uuid":"iCcaa_8-TXuymhfzQi31yA",
"version":{
"created":"7010099"
},
"provided_name":"test_kaka"
}
}
}
}
“坚持学习、坚持写作、坚持分享是咔咔从业以来所秉持的信念。愿文章在偌大的互联网上能给你带来一点帮助,我是咔咔,下期见。
”

