采集->AI识别->整理这个活除了小龙虾有其他现成的方案吗?

2026-04-11 13:591阅读0评论SEO基础

内容介绍
文章标签
相关推荐

问题描述：

我现在有一个活,需要从多个网站上采集信息(爬虫),然后AI识别后整理结构化的内容,最后生成markdown.
哪个AI应用可以一次性完成任务? 是不是得上龙虾了?

大概能想到的就是这三步骤
1.基于不同的网站定制不同的采集策略
2.AI 识别采集的信息,生成筛选字段
3.整理成结构化的markdown

网友解答：

--【壹】--：

我正在做这个项目。

--【贰】--：

感觉还是得专门写个程序

--【叁】--：

我也是在做类似的项目，方便交流一下吗

--【肆】--：

雇佣一个研究生

--【伍】--：

那就用n8n

--【陆】--： jsjcjsjc:

大概能想到的就是这三步骤
1.基于不同的网站定制不同的采集策略
2.AI 识别采集的信息,生成筛选字段
3.整理成结构化的markdown

我有一个别的解决方案但是要你自己去整合，Scrapling爬取爬完以后自己整合资源用工作流或者别的都一样啊

--【柒】--：

正解

--【捌】--：

能工智人

--【玖】--：

流程这么固定的话没必要用小龙虾啊，它烧token又多效果还不一定好，用n8n，或者你自己定义好需求再试一下用codex生成代码

--【拾】--：

感觉需要让AI对逐个网站的内容进行分析，不同的网站写不同的代码，自己再优化

--【拾壹】--：

就算是龙虾也是得自己先养好龙虾才能跑好像，还有很多不确定性，可以先用claude code 或codex先给你出个计划，就有思路了

--【拾贰】--：

龙虾跑是可以跑，但是问题很多，需要不停的用prompt调，而且最后效果也不是很好

--【拾叁】--：

用crawl4ai，它就是解决这个问题的。给个网址就可以将网页结果转成markdown，采集需求告诉接入的LLM就行，这就是专门写给LLM用的爬虫工具。

github.com

GitHub - unclecode/crawl4ai: 🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler...

🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper. Don't be shy, join here: https://discord.gg/jP8KfhDhyN

标签：快问快答

问题描述：

我现在有一个活,需要从多个网站上采集信息(爬虫),然后AI识别后整理结构化的内容,最后生成markdown.
哪个AI应用可以一次性完成任务? 是不是得上龙虾了?

大概能想到的就是这三步骤
1.基于不同的网站定制不同的采集策略
2.AI 识别采集的信息,生成筛选字段
3.整理成结构化的markdown

网友解答：

--【壹】--：

我正在做这个项目。

--【贰】--：

感觉还是得专门写个程序

--【叁】--：

我也是在做类似的项目，方便交流一下吗

--【肆】--：

雇佣一个研究生

--【伍】--：

那就用n8n

--【陆】--： jsjcjsjc:

大概能想到的就是这三步骤
1.基于不同的网站定制不同的采集策略
2.AI 识别采集的信息,生成筛选字段
3.整理成结构化的markdown

我有一个别的解决方案但是要你自己去整合，Scrapling爬取爬完以后自己整合资源用工作流或者别的都一样啊

--【柒】--：

正解

--【捌】--：

能工智人

--【玖】--：

流程这么固定的话没必要用小龙虾啊，它烧token又多效果还不一定好，用n8n，或者你自己定义好需求再试一下用codex生成代码

--【拾】--：

感觉需要让AI对逐个网站的内容进行分析，不同的网站写不同的代码，自己再优化

--【拾壹】--：

就算是龙虾也是得自己先养好龙虾才能跑好像，还有很多不确定性，可以先用claude code 或codex先给你出个计划，就有思路了

--【拾贰】--：

龙虾跑是可以跑，但是问题很多，需要不停的用prompt调，而且最后效果也不是很好

--【拾叁】--：

用crawl4ai，它就是解决这个问题的。给个网址就可以将网页结果转成markdown，采集需求告诉接入的LLM就行，这就是专门写给LLM用的爬虫工具。

github.com

GitHub - unclecode/crawl4ai: 🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler...

🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper. Don't be shy, join here: https://discord.gg/jP8KfhDhyN

标签：快问快答

GitHub - unclecode/crawl4ai: 🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler...

相关推荐

GitHub - unclecode/crawl4ai: 🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler...

相关推荐