采集->AI识别->整理这个活除了小龙虾有其他现成的方案吗?
- 内容介绍
- 文章标签
- 相关推荐
我现在有一个活,需要从多个网站上采集信息(爬虫),然后AI识别后整理结构化的内容,最后生成markdown.
哪个AI应用可以一次性完成任务? 是不是得上龙虾了?
大概能想到的就是这三步骤
1.基于不同的网站定制不同的采集策略
2.AI 识别采集的信息,生成筛选字段
3.整理成结构化的markdown
--【壹】--:
我正在做这个项目。
--【贰】--:
感觉还是得专门写个程序
--【叁】--:
我也是在做类似的项目,方便交流一下吗
--【肆】--:
雇佣一个研究生
--【伍】--:
那就用n8n
--【陆】--: jsjcjsjc:
大概能想到的就是这三步骤
1.基于不同的网站定制不同的采集策略
2.AI 识别采集的信息,生成筛选字段
3.整理成结构化的markdown
我有一个别的解决方案 但是要你自己去整合,Scrapling爬取 爬完以后自己整合资源 用工作流 或者别的都一样啊
--【柒】--:
正解
--【捌】--:
能工智人
--【玖】--:
流程这么固定的话没必要用小龙虾啊,它烧token又多效果还不一定好,用n8n,或者你自己定义好需求再试一下用codex生成代码
--【拾】--:
感觉需要让AI对逐个网站的内容进行分析,不同的网站写不同的代码,自己再优化
--【拾壹】--:
就算是龙虾也是得自己先养好龙虾才能跑好像,还有很多不确定性,可以先用claude code 或codex先给你出个计划,就有思路了
--【拾贰】--:
龙虾跑是可以跑,但是问题很多,需要不停的用prompt调,而且最后效果也不是很好
--【拾叁】--:
用crawl4ai,它就是解决这个问题的。给个网址就可以将网页结果转成markdown,采集需求告诉接入的LLM就行,这就是专门写给LLM用的爬虫工具。
GitHub - unclecode/crawl4ai: 🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler...
🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper. Don't be shy, join here: https://discord.gg/jP8KfhDhyN
我现在有一个活,需要从多个网站上采集信息(爬虫),然后AI识别后整理结构化的内容,最后生成markdown.
哪个AI应用可以一次性完成任务? 是不是得上龙虾了?
大概能想到的就是这三步骤
1.基于不同的网站定制不同的采集策略
2.AI 识别采集的信息,生成筛选字段
3.整理成结构化的markdown
--【壹】--:
我正在做这个项目。
--【贰】--:
感觉还是得专门写个程序
--【叁】--:
我也是在做类似的项目,方便交流一下吗
--【肆】--:
雇佣一个研究生
--【伍】--:
那就用n8n
--【陆】--: jsjcjsjc:
大概能想到的就是这三步骤
1.基于不同的网站定制不同的采集策略
2.AI 识别采集的信息,生成筛选字段
3.整理成结构化的markdown
我有一个别的解决方案 但是要你自己去整合,Scrapling爬取 爬完以后自己整合资源 用工作流 或者别的都一样啊
--【柒】--:
正解
--【捌】--:
能工智人
--【玖】--:
流程这么固定的话没必要用小龙虾啊,它烧token又多效果还不一定好,用n8n,或者你自己定义好需求再试一下用codex生成代码
--【拾】--:
感觉需要让AI对逐个网站的内容进行分析,不同的网站写不同的代码,自己再优化
--【拾壹】--:
就算是龙虾也是得自己先养好龙虾才能跑好像,还有很多不确定性,可以先用claude code 或codex先给你出个计划,就有思路了
--【拾贰】--:
龙虾跑是可以跑,但是问题很多,需要不停的用prompt调,而且最后效果也不是很好
--【拾叁】--:
用crawl4ai,它就是解决这个问题的。给个网址就可以将网页结果转成markdown,采集需求告诉接入的LLM就行,这就是专门写给LLM用的爬虫工具。
GitHub - unclecode/crawl4ai: 🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler...
🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper. Don't be shy, join here: https://discord.gg/jP8KfhDhyN

