Elasticsearch这款分布式全文检索引擎,如何高效应对长尾词查询挑战?
- 内容介绍
- 文章标签
- 相关推荐
本文共计899个文字,预计阅读时间需要4分钟。
Elasticsearch,简称es,是一款开源的高扩展性分布式全文搜索引擎。它能够近乎实时地存储和检索大量数据;具有优异的扩展性,可扩展至数百台服务器;适用于处理PB级数据。
什么是ElasticSearch
Elaticsearch,简称为es, es是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。es也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。
什么是全文检索
我们生活中有两种数据 ①结构化数据,这类数据通常有一定的格式,长度,例如MySQL ,Oracle等关系型数据库 ②非结构化数据,这类数据通常没有固定的格式,也没有特定的长度,如word 文档,文章等。
什么是全文检索 将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。
例如:字典。字典的拼音表和部首检字表就相当于字典的索引,对每一个字的解释是非结构化的,如果字典没有音节表和部首检字表,在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理,比如读音,就比较结构化,分声母和韵母,于是将读音拿出来按一定的顺序排列,每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音,然后按其指向的页数,便可找到我们的非结构化数据——也即对字的解释。
本文共计899个文字,预计阅读时间需要4分钟。
Elasticsearch,简称es,是一款开源的高扩展性分布式全文搜索引擎。它能够近乎实时地存储和检索大量数据;具有优异的扩展性,可扩展至数百台服务器;适用于处理PB级数据。
什么是ElasticSearch
Elaticsearch,简称为es, es是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。es也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。
什么是全文检索
我们生活中有两种数据 ①结构化数据,这类数据通常有一定的格式,长度,例如MySQL ,Oracle等关系型数据库 ②非结构化数据,这类数据通常没有固定的格式,也没有特定的长度,如word 文档,文章等。
什么是全文检索 将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。
例如:字典。字典的拼音表和部首检字表就相当于字典的索引,对每一个字的解释是非结构化的,如果字典没有音节表和部首检字表,在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理,比如读音,就比较结构化,分声母和韵母,于是将读音拿出来按一定的顺序排列,每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音,然后按其指向的页数,便可找到我们的非结构化数据——也即对字的解释。

