采集->AI识别->整理这个活除了小龙虾有其他现成的方案吗?

2026-04-11 13:591阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

我现在有一个活,需要从多个网站上采集信息(爬虫),然后AI识别后整理结构化的内容,最后生成markdown.
哪个AI应用可以一次性完成任务? 是不是得上龙虾了?

大概能想到的就是这三步骤
1.基于不同的网站定制不同的采集策略
2.AI 识别采集的信息,生成筛选字段
3.整理成结构化的markdown

网友解答:
--【壹】--:

我正在做这个项目。


--【贰】--:

感觉还是得专门写个程序


--【叁】--:

我也是在做类似的项目,方便交流一下吗


--【肆】--:

雇佣一个研究生


--【伍】--:

那就用n8n


--【陆】--: jsjcjsjc:

大概能想到的就是这三步骤
1.基于不同的网站定制不同的采集策略
2.AI 识别采集的信息,生成筛选字段
3.整理成结构化的markdown

我有一个别的解决方案 但是要你自己去整合,Scrapling爬取 爬完以后自己整合资源 用工作流 或者别的都一样啊


--【柒】--:

正解


--【捌】--:

能工智人


--【玖】--:

流程这么固定的话没必要用小龙虾啊,它烧token又多效果还不一定好,用n8n,或者你自己定义好需求再试一下用codex生成代码


--【拾】--:

感觉需要让AI对逐个网站的内容进行分析,不同的网站写不同的代码,自己再优化


--【拾壹】--:

就算是龙虾也是得自己先养好龙虾才能跑好像,还有很多不确定性,可以先用claude code 或codex先给你出个计划,就有思路了


--【拾贰】--:

龙虾跑是可以跑,但是问题很多,需要不停的用prompt调,而且最后效果也不是很好


--【拾叁】--:

用crawl4ai,它就是解决这个问题的。给个网址就可以将网页结果转成markdown,采集需求告诉接入的LLM就行,这就是专门写给LLM用的爬虫工具。

github.com

GitHub - unclecode/crawl4ai: 🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler...

🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper. Don't be shy, join here: https://discord.gg/jP8KfhDhyN