[分享]整合各种skill达到抓取通用网站信息-可以生成shopify商品格式-数据是基础有帮助
- 内容介绍
- 文章标签
- 相关推荐
本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是
- 我的帖子已经打上 公益推广 标签: 是
- 我的项目属于个人项目,与公司或商业机构无关: 是
- 我的项目不存在QQ、TG等群组引流: 是
- 我的项目不存在非运营必要的网站引流: 是
- 我的项目不存在为他人推广、AFF: 是
- 我的项目无关联的商业项目: 是
- 我的站点存在登录,并已接入 LINUX DO Connect: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
我精心挑选了最合适的采集数据skill,打造一个适合使用的方案,感觉不错,测试很多很好效果,所以分享给佬友,一起探讨一下:
GitHub - liangdabiao/fetch-everything: Agent Skills 工具箱fetch-everything 一套面向 **Claude...
Agent Skills 工具箱fetch-everything 一套面向 **Claude Code**/openclaw 的高质量 Skills 合集,涵盖网页抓取、文档提取、电商数据处理、云端部署等场景,特别强化了对中文平台的支持。
Skills 一览:
| Skill | 用途 | 免登录 |
|---|---|---|
| markdown-proxy | URL → Markdown,支持 35+ 登录态平台 | 部分 |
| mineru-ai | PDF/图片/网页 → Markdown/HTML/DOCX | 部分 |
| web-content-fetcher-main | 网页正文提取,三级降级策略 | 是 |
| shopify-product-scraper | 品牌站商品抓取 → Shopify CSV | 是 |
| apify-ultimate-scraper | 55+ 平台通用 AI 爬虫 | 需 Apify 账号 |
| apify-actor-development | 开发/调试/部署 Apify Actor | 需 Apify 账号 |
| apify-actorization | 将现有项目转为 Apify Actor | 需 Apify 账号 |
| apify-generate-output-schema | 自动生成 Actor 输出 Schema | 需 Apify 账号 |
| skill-creator | 创建和更新 Skill 的元指南 | 是 |
基于以上skill,基本上互联网的信息读取,都变得容易起来。
skill很多都是直接从openclaw下载,有些是经过我修改,而shopify-product-scraper是我专门制作,作为任何电商网站都可以抓取提炼成shopify 格式csv,对于跨境电商的同学是有用的。
image830×223 34.7 KB
image831×497 69.3 KB
演示实战:
全自动化处理一切变化:
image829×257 67.6 KB
给ai所有工具,自己想办法搞定:
image831×227 37.4 KB
image831×154 20.9 KB
测试B站数据:
image831×444 48.9 KB
同时使用了apify:
image830×592 77.5 KB
得到结果:
image831×444 84.5 KB
各种办公文档也可以直接提取信息,pdf,doc等等:
image831×439 60.5 KB
image829×367 48.9 KB
image829×224 26.1 KB
配置和条件都是非常简单,大部分都是免费使用,我觉得这种方案对于cc,openclaw来说,还是非常有用,数据是基础。
网友解答:--【壹】--:
学习了谢谢
--【贰】--:
好像昨天看到一个搜微信,小红书什么的,是不是可以整合一下,强强联合
--【叁】--:
主贴我改不了了
--【肆】--:
太强了!
--【伍】--:
太强了!
--【陆】--:
mark了
--【柒】--:
太强了,佬。刚需
--【捌】--:
需 Apify 账号是什么意思
--【玖】--:
你应该在主贴修改 不然可能会有人举办
--【拾】--:
apify.com 申请一个免费账号, 当有些平台是被block,那么它自动去利用它
--【拾壹】--: liangdabiao:
本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是
- 我的帖子已经打上 公益推广 标签: 是
- 我的项目属于个人项目,与公司或商业机构无关: 是
- 我的项目不存在QQ、TG等群组引流: 是
- 我的项目不存在非运营必要的网站引流: 是
- 我的项目不存在为他人推广、AFF: 是
- 我的项目无关联的商业项目: 是
- 我的站点存在登录,并已接入 LINUX DO Connect: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
提醒一下 模板似乎应该用 开源推广 ?
--【拾贰】--:
低调的实力派大佬
--【拾叁】--:
佬,这个 ```
抓取 @username 的 Instagram 帖子
能不能抓取 特定栏目 最新发布的 视频,比如关键字“ai” 然后抓取出最新时间发布的视频,Instagram 自带搜素好像没有按时间排列
--【拾肆】--:
马克一下
--【拾伍】--:
开源推广
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
--【拾陆】--:
真是太好了
--【拾柒】--:
感谢分享
本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是
- 我的帖子已经打上 公益推广 标签: 是
- 我的项目属于个人项目,与公司或商业机构无关: 是
- 我的项目不存在QQ、TG等群组引流: 是
- 我的项目不存在非运营必要的网站引流: 是
- 我的项目不存在为他人推广、AFF: 是
- 我的项目无关联的商业项目: 是
- 我的站点存在登录,并已接入 LINUX DO Connect: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
我精心挑选了最合适的采集数据skill,打造一个适合使用的方案,感觉不错,测试很多很好效果,所以分享给佬友,一起探讨一下:
GitHub - liangdabiao/fetch-everything: Agent Skills 工具箱fetch-everything 一套面向 **Claude...
Agent Skills 工具箱fetch-everything 一套面向 **Claude Code**/openclaw 的高质量 Skills 合集,涵盖网页抓取、文档提取、电商数据处理、云端部署等场景,特别强化了对中文平台的支持。
Skills 一览:
| Skill | 用途 | 免登录 |
|---|---|---|
| markdown-proxy | URL → Markdown,支持 35+ 登录态平台 | 部分 |
| mineru-ai | PDF/图片/网页 → Markdown/HTML/DOCX | 部分 |
| web-content-fetcher-main | 网页正文提取,三级降级策略 | 是 |
| shopify-product-scraper | 品牌站商品抓取 → Shopify CSV | 是 |
| apify-ultimate-scraper | 55+ 平台通用 AI 爬虫 | 需 Apify 账号 |
| apify-actor-development | 开发/调试/部署 Apify Actor | 需 Apify 账号 |
| apify-actorization | 将现有项目转为 Apify Actor | 需 Apify 账号 |
| apify-generate-output-schema | 自动生成 Actor 输出 Schema | 需 Apify 账号 |
| skill-creator | 创建和更新 Skill 的元指南 | 是 |
基于以上skill,基本上互联网的信息读取,都变得容易起来。
skill很多都是直接从openclaw下载,有些是经过我修改,而shopify-product-scraper是我专门制作,作为任何电商网站都可以抓取提炼成shopify 格式csv,对于跨境电商的同学是有用的。
image830×223 34.7 KB
image831×497 69.3 KB
演示实战:
全自动化处理一切变化:
image829×257 67.6 KB
给ai所有工具,自己想办法搞定:
image831×227 37.4 KB
image831×154 20.9 KB
测试B站数据:
image831×444 48.9 KB
同时使用了apify:
image830×592 77.5 KB
得到结果:
image831×444 84.5 KB
各种办公文档也可以直接提取信息,pdf,doc等等:
image831×439 60.5 KB
image829×367 48.9 KB
image829×224 26.1 KB
配置和条件都是非常简单,大部分都是免费使用,我觉得这种方案对于cc,openclaw来说,还是非常有用,数据是基础。
网友解答:--【壹】--:
学习了谢谢
--【贰】--:
好像昨天看到一个搜微信,小红书什么的,是不是可以整合一下,强强联合
--【叁】--:
主贴我改不了了
--【肆】--:
太强了!
--【伍】--:
太强了!
--【陆】--:
mark了
--【柒】--:
太强了,佬。刚需
--【捌】--:
需 Apify 账号是什么意思
--【玖】--:
你应该在主贴修改 不然可能会有人举办
--【拾】--:
apify.com 申请一个免费账号, 当有些平台是被block,那么它自动去利用它
--【拾壹】--: liangdabiao:
本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是
- 我的帖子已经打上 公益推广 标签: 是
- 我的项目属于个人项目,与公司或商业机构无关: 是
- 我的项目不存在QQ、TG等群组引流: 是
- 我的项目不存在非运营必要的网站引流: 是
- 我的项目不存在为他人推广、AFF: 是
- 我的项目无关联的商业项目: 是
- 我的站点存在登录,并已接入 LINUX DO Connect: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
提醒一下 模板似乎应该用 开源推广 ?
--【拾贰】--:
低调的实力派大佬
--【拾叁】--:
佬,这个 ```
抓取 @username 的 Instagram 帖子
能不能抓取 特定栏目 最新发布的 视频,比如关键字“ai” 然后抓取出最新时间发布的视频,Instagram 自带搜素好像没有按时间排列
--【拾肆】--:
马克一下
--【拾伍】--:
开源推广
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
--【拾陆】--:
真是太好了
--【拾柒】--:
感谢分享

![[分享]整合各种skill达到抓取通用网站信息-可以生成shopify商品格式-数据是基础有帮助](/imgrand/qs2uwBfB.webp)