佬友们,求浏览器自动化和文献下载器
- 内容介绍
- 文章标签
- 相关推荐
首先十分感谢佬友们一直以来的热心帮助,作为一个人工智能的未入门者,我真的很喜欢这里的社区氛围,但是目前以来还没什么贡献,一直在求助。我会加油努力的。
我最近用Trae在整智能的文献下载器,因为本身网络环境可以获取到大多论文,所以我希望它可以模拟人类去批量下载文献,并且赋予它学习策略,可以自我进化,但是这仿佛有一些困难,ai的代码出现大大小小的问题,比如绕过Cloudflare验证和ocr识别没有很好的交互。目前已经用完Trae额度,且Qwen Code也花了将近160RMB了。本人又是代码小白,且程序设计过于复杂,因为要保证成功率,试图弹出浏览器让用户自己操作然后识别下载的文件,PDF完整性验证,以及根据DOI自动补全相关元数据。因为还要集成文献统计图表、文献数据提取、神经网络学习等整个流程,所以后续还得另想他法继续搞。其实就是文献下载到数据分析的一套流程。
佬友们,关于浏览器自动化和文献下载器有没有推荐呢,还有如何在不同的软件之间搭建自动工作流。现在已经不知道怎么下手了。
PubMed仿佛屏蔽了我的网络,现在显示misuse界面。
网友解答:--【壹】--:
可以用codex+playwright-mcp,让gpt帮你操作下载 playwright+扩展新手贴
--【贰】--:
唉,我至少需要500篇(还是英文数据库)吧;还要批量提取数据呢(整个工作流还没搞定检索和收集)。
--【叁】--:
前两天才用过这个工具,体验一般……几乎每下载30个都要进行人机验证,不然就会下载失败。另外总下载到300个知网就强制下线不让下载了
--【肆】--:
我建议佬先把需求整理清楚,到底是为了下载还是为了检索收集?Zotero是有批量获取原文的功能的,也有浏览器插件实现文献/附件保存,如果有一个大致的文献列表是可以批量浏览器访问+插件保存的。
--【伍】--:
佬友我们应该是一样的问题。但是我的工作不能走机构下载文献(之前有人一天下载千百篇然后被请去喝茶了),所以只能硬过cloudfare去下elsiver等服务商的文献。
然后你现在想要的是不知到是检索文献还是下载文献,我只有搜索文献的工作是做好了 飞升三级第一帖:我对于论文搜索的解决方案 - 搞七捻三 / 搞七捻三, Lv1 - LINUX DO
具体下载的话因为是开放的服务我并不能提供对应的方案,佬友可以自己考虑接着我的搜索方案然后跳转(我下一步改进更新),下载我就不考虑了。
具体绕过cf盾的话参考求教,如何过turnstile? - 开发调优 / 开发调优, Lv1 - LINUX DO 这个方案我是走通了,你也可以参考其他佬的解决方法看看能不能有启发。
还有pubmed应该是你没设置并发限制短时间访问太多会拉黑ip,第一次的短时封禁429,第二次就是直接拉黑屏蔽,这个没办法只能套代理。
--【陆】--:
Cloudflare验证是因为代理ip纯净度的问题;插件就是zotero官方的 Zotero | Connectors
--【柒】--:
主要是文献下载(还是工作流第一步),有很多文献scihub插件无法下载,然后我这边经常有cloudflare验证,我希望实现自动化模拟人类下载的程序。关于佬友建议的浏览器插件,我再去搜索一下。
--【捌】--:
我有一个爬取知网的 你要吗?能下载下来论文名称,作者、发布时间、摘要、关键词这些
首先十分感谢佬友们一直以来的热心帮助,作为一个人工智能的未入门者,我真的很喜欢这里的社区氛围,但是目前以来还没什么贡献,一直在求助。我会加油努力的。
我最近用Trae在整智能的文献下载器,因为本身网络环境可以获取到大多论文,所以我希望它可以模拟人类去批量下载文献,并且赋予它学习策略,可以自我进化,但是这仿佛有一些困难,ai的代码出现大大小小的问题,比如绕过Cloudflare验证和ocr识别没有很好的交互。目前已经用完Trae额度,且Qwen Code也花了将近160RMB了。本人又是代码小白,且程序设计过于复杂,因为要保证成功率,试图弹出浏览器让用户自己操作然后识别下载的文件,PDF完整性验证,以及根据DOI自动补全相关元数据。因为还要集成文献统计图表、文献数据提取、神经网络学习等整个流程,所以后续还得另想他法继续搞。其实就是文献下载到数据分析的一套流程。
佬友们,关于浏览器自动化和文献下载器有没有推荐呢,还有如何在不同的软件之间搭建自动工作流。现在已经不知道怎么下手了。
PubMed仿佛屏蔽了我的网络,现在显示misuse界面。
网友解答:--【壹】--:
可以用codex+playwright-mcp,让gpt帮你操作下载 playwright+扩展新手贴
--【贰】--:
唉,我至少需要500篇(还是英文数据库)吧;还要批量提取数据呢(整个工作流还没搞定检索和收集)。
--【叁】--:
前两天才用过这个工具,体验一般……几乎每下载30个都要进行人机验证,不然就会下载失败。另外总下载到300个知网就强制下线不让下载了
--【肆】--:
我建议佬先把需求整理清楚,到底是为了下载还是为了检索收集?Zotero是有批量获取原文的功能的,也有浏览器插件实现文献/附件保存,如果有一个大致的文献列表是可以批量浏览器访问+插件保存的。
--【伍】--:
佬友我们应该是一样的问题。但是我的工作不能走机构下载文献(之前有人一天下载千百篇然后被请去喝茶了),所以只能硬过cloudfare去下elsiver等服务商的文献。
然后你现在想要的是不知到是检索文献还是下载文献,我只有搜索文献的工作是做好了 飞升三级第一帖:我对于论文搜索的解决方案 - 搞七捻三 / 搞七捻三, Lv1 - LINUX DO
具体下载的话因为是开放的服务我并不能提供对应的方案,佬友可以自己考虑接着我的搜索方案然后跳转(我下一步改进更新),下载我就不考虑了。
具体绕过cf盾的话参考求教,如何过turnstile? - 开发调优 / 开发调优, Lv1 - LINUX DO 这个方案我是走通了,你也可以参考其他佬的解决方法看看能不能有启发。
还有pubmed应该是你没设置并发限制短时间访问太多会拉黑ip,第一次的短时封禁429,第二次就是直接拉黑屏蔽,这个没办法只能套代理。
--【陆】--:
Cloudflare验证是因为代理ip纯净度的问题;插件就是zotero官方的 Zotero | Connectors
--【柒】--:
主要是文献下载(还是工作流第一步),有很多文献scihub插件无法下载,然后我这边经常有cloudflare验证,我希望实现自动化模拟人类下载的程序。关于佬友建议的浏览器插件,我再去搜索一下。
--【捌】--:
我有一个爬取知网的 你要吗?能下载下来论文名称,作者、发布时间、摘要、关键词这些

