初识Lucene,有哪些长尾关键词可以深入探索?
- 内容介绍
- 文章标签
- 相关推荐
本文共计4280个文字,预计阅读时间需要18分钟。
Lucene简介1.1 什么是Lucene?Lucene是一个全文搜索引擎框架,而非具体的应用产品。它不像百度或谷歌桌面搜索那样直接面向用户。
1lucene简介1.1什么是luceneLucene是一个全文搜索框架而不是应用产品。因此它并不像www.baidu.com或者googleDesktop那么拿来 1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用它只是提供了一种工具让你能实现这些产品。 1.2 lucene能做什么 要回答这个问题先要了解lucene的本质。实际上lucene的功能很单一说到底就是你给它若干个字符串然后它为你提供一个全文搜索服务告诉你你要搜索的关键词出现在哪里。知道了这个本质你就可以发挥想象做任何符合这个条件的事情了。你可以把站内新闻都索引了做个资料库你可以把一个数据库表的若干个字段索引起来那就不用再担心因为“%like%”而锁表了你也可以写个自己的搜索引擎…… 1.3 你该不该选择lucene 下面给出一些测试数据如果你觉得可以接受那么可以选择。 测试一250万记录300M左右文本生成索引380M左右800线程下平均处理时间300ms。 测试二37000记录索引数据库中的两个varchar字段索引文件2.6M800线程下平均处理时间1.5ms。 2 lucene的工作方式 lucene提供的服务实际包含两部分一入一出。所谓入是写入即将你提供的源本质是字符串写入索引或者将其从索引中删除所谓出是读出即向用户提供全文搜索服务让用户可以通过关键词定位源。 2.1写入流程 源字符串首先经过analyzer处理包括分词分成一个个单词去除stopword可选。本文共计4280个文字,预计阅读时间需要18分钟。
Lucene简介1.1 什么是Lucene?Lucene是一个全文搜索引擎框架,而非具体的应用产品。它不像百度或谷歌桌面搜索那样直接面向用户。
1lucene简介1.1什么是luceneLucene是一个全文搜索框架而不是应用产品。因此它并不像www.baidu.com或者googleDesktop那么拿来 1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用它只是提供了一种工具让你能实现这些产品。 1.2 lucene能做什么 要回答这个问题先要了解lucene的本质。实际上lucene的功能很单一说到底就是你给它若干个字符串然后它为你提供一个全文搜索服务告诉你你要搜索的关键词出现在哪里。知道了这个本质你就可以发挥想象做任何符合这个条件的事情了。你可以把站内新闻都索引了做个资料库你可以把一个数据库表的若干个字段索引起来那就不用再担心因为“%like%”而锁表了你也可以写个自己的搜索引擎…… 1.3 你该不该选择lucene 下面给出一些测试数据如果你觉得可以接受那么可以选择。 测试一250万记录300M左右文本生成索引380M左右800线程下平均处理时间300ms。 测试二37000记录索引数据库中的两个varchar字段索引文件2.6M800线程下平均处理时间1.5ms。 2 lucene的工作方式 lucene提供的服务实际包含两部分一入一出。所谓入是写入即将你提供的源本质是字符串写入索引或者将其从索引中删除所谓出是读出即向用户提供全文搜索服务让用户可以通过关键词定位源。 2.1写入流程 源字符串首先经过analyzer处理包括分词分成一个个单词去除stopword可选。
