搜索引擎是如何在四步中完成对探索SEO:搜索引擎工作四步骤揭秘这一内容的检索和展示的?
- 内容介绍
- 文章标签
- 相关推荐
第一步:爬行——蜘蛛撒网
先说说那帮小蜘蛛,别怕,它们是程序不是昆虫,正宗。。
用户敲键盘,搜索引擎得先把全网的网页装进自己的仓库。
与君共勉。 于是爬虫从一堆种子URL出发,像闯关一样一路跳。
它们会抓取页面的HTML,还会顺手抽出页面里所有链接,反思一下。。
抽出来的链接又塞回待抓队列,循环往复。
这过程可不是随便抓,搜索引擎会给不同站点打不同的优先级。
我是深有体会。 大站、权威站、更新频繁的站点,往往先被“喂”进来。
我爱我家。 还有暗网那点子资源,需要特殊手段才能撬开门。
网站管理员也能主动递交URL,这叫“提交加速”,省得等蜘蛛慢慢跑,我满足了。。
哈哈,这一步其实就是把全世界的信息搬进自家仓库,速度要快,要全,要准。
第二步:索引——把信息装进抽屉
好不容易把网页抓下来接下来得给它们贴标签,境界没到。。
搜索引擎会解析HTML,把标题、正文、图片Alt、meta都拆出来,研究研究。。
关键词不只是出现次数,还看它们在文档里的位置和密度,容我插一句...。
然后把这些词和对应的文档ID写进倒排索引,就像图书馆的目录卡片一样,整一个...。
这个过程还会剔除噪音词,比如“的”“了”等常用字。
一边,对页面做分词、同义词 ,让后面查找更灵活,YYDS...。
为了提升检索效率,还会对热门查询提前生成缓存列表,痛并快乐着。。
第一步:爬行——蜘蛛撒网
先说说那帮小蜘蛛,别怕,它们是程序不是昆虫,正宗。。
用户敲键盘,搜索引擎得先把全网的网页装进自己的仓库。
与君共勉。 于是爬虫从一堆种子URL出发,像闯关一样一路跳。
它们会抓取页面的HTML,还会顺手抽出页面里所有链接,反思一下。。
抽出来的链接又塞回待抓队列,循环往复。
这过程可不是随便抓,搜索引擎会给不同站点打不同的优先级。
我是深有体会。 大站、权威站、更新频繁的站点,往往先被“喂”进来。
我爱我家。 还有暗网那点子资源,需要特殊手段才能撬开门。
网站管理员也能主动递交URL,这叫“提交加速”,省得等蜘蛛慢慢跑,我满足了。。
哈哈,这一步其实就是把全世界的信息搬进自家仓库,速度要快,要全,要准。
第二步:索引——把信息装进抽屉
好不容易把网页抓下来接下来得给它们贴标签,境界没到。。
搜索引擎会解析HTML,把标题、正文、图片Alt、meta都拆出来,研究研究。。
关键词不只是出现次数,还看它们在文档里的位置和密度,容我插一句...。
然后把这些词和对应的文档ID写进倒排索引,就像图书馆的目录卡片一样,整一个...。
这个过程还会剔除噪音词,比如“的”“了”等常用字。
一边,对页面做分词、同义词 ,让后面查找更灵活,YYDS...。
为了提升检索效率,还会对热门查询提前生成缓存列表,痛并快乐着。。

