[分享]整合各种skill达到抓取通用网站信息-可以生成shopify商品格式-数据是基础有帮助

2026-04-11 13:581阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的项目是免费使用的,无收费(变相收费、赞助)部分:
  • 我的帖子已经打上 公益推广 标签:
  • 我的项目属于个人项目,与公司或商业机构无关:
  • 我的项目不存在QQ、TG等群组引流:
  • 我的项目不存在非运营必要的网站引流:
  • 我的项目不存在为他人推广、AFF:
  • 我的项目无关联的商业项目:
  • 我的站点存在登录,并已接入 LINUX DO Connect:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


我精心挑选了最合适的采集数据skill,打造一个适合使用的方案,感觉不错,测试很多很好效果,所以分享给佬友,一起探讨一下:

github.com

GitHub - liangdabiao/fetch-everything: Agent Skills 工具箱fetch-everything 一套面向 **Claude...

Agent Skills 工具箱fetch-everything 一套面向 **Claude Code**/openclaw 的高质量 Skills 合集,涵盖网页抓取、文档提取、电商数据处理、云端部署等场景,特别强化了对中文平台的支持。

Skills 一览:

Skill 用途 免登录
markdown-proxy URL → Markdown,支持 35+ 登录态平台 部分
mineru-ai PDF/图片/网页 → Markdown/HTML/DOCX 部分
web-content-fetcher-main 网页正文提取,三级降级策略
shopify-product-scraper 品牌站商品抓取 → Shopify CSV
apify-ultimate-scraper 55+ 平台通用 AI 爬虫 需 Apify 账号
apify-actor-development 开发/调试/部署 Apify Actor 需 Apify 账号
apify-actorization 将现有项目转为 Apify Actor 需 Apify 账号
apify-generate-output-schema 自动生成 Actor 输出 Schema 需 Apify 账号
skill-creator 创建和更新 Skill 的元指南

基于以上skill,基本上互联网的信息读取,都变得容易起来。
skill很多都是直接从openclaw下载,有些是经过我修改,而shopify-product-scraper是我专门制作,作为任何电商网站都可以抓取提炼成shopify 格式csv,对于跨境电商的同学是有用的。
image830×223 34.7 KB
image831×497 69.3 KB

演示实战:

全自动化处理一切变化:
image829×257 67.6 KB
给ai所有工具,自己想办法搞定:
image831×227 37.4 KB
image831×154 20.9 KB
测试B站数据:
image831×444 48.9 KB
同时使用了apify:
image830×592 77.5 KB
得到结果:
image831×444 84.5 KB
各种办公文档也可以直接提取信息,pdf,doc等等:
image831×439 60.5 KB

image829×367 48.9 KB
image829×224 26.1 KB

配置和条件都是非常简单,大部分都是免费使用,我觉得这种方案对于cc,openclaw来说,还是非常有用,数据是基础。

网友解答:
--【壹】--:

学习了谢谢


--【贰】--:

好像昨天看到一个搜微信,小红书什么的,是不是可以整合一下,强强联合


--【叁】--:

主贴我改不了了


--【肆】--:

太强了!


--【伍】--:

太强了!


--【陆】--:

mark了


--【柒】--:

太强了,佬。刚需


--【捌】--:

需 Apify 账号是什么意思


--【玖】--:

你应该在主贴修改 不然可能会有人举办


--【拾】--:

apify.com 申请一个免费账号, 当有些平台是被block,那么它自动去利用它


--【拾壹】--: liangdabiao:

本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的项目是免费使用的,无收费(变相收费、赞助)部分:
  • 我的帖子已经打上 公益推广 标签:
  • 我的项目属于个人项目,与公司或商业机构无关:
  • 我的项目不存在QQ、TG等群组引流:
  • 我的项目不存在非运营必要的网站引流:
  • 我的项目不存在为他人推广、AFF:
  • 我的项目无关联的商业项目:
  • 我的站点存在登录,并已接入 LINUX DO Connect:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

提醒一下 模板似乎应该用 开源推广 ?


--【拾贰】--:

低调的实力派大佬


--【拾叁】--:

佬,这个 ```
抓取 @username 的 Instagram 帖子

能不能抓取 特定栏目 最新发布的 视频,比如关键字“ai” 然后抓取出最新时间发布的视频,Instagram 自带搜素好像没有按时间排列


--【拾肆】--:

马克一下


--【拾伍】--:

开源推广

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出



--【拾陆】--:

真是太好了


--【拾柒】--:

感谢分享