【公司研报】我有个抓取数据想法

2026-04-11 13:411阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

想做一个自己的研报看板

此项目仅对自己学习使用 想请教下各位大神,还有什么建议,还有需要考虑的点,麻烦大家指点一二,不喜勿喷,谢谢
对于数据来源这件事情,想了几种方案:

  • 从巨潮资讯抓取公司公告,但这涉及到从公告提取数据,每家公司的公告格式都不一样,这实现起来无法保证数据的准确性(解析 + LLM 校验)所以目前这个方案我只抓取了公司的公告,并保存到本地数据库(可作为公司发布预报或者季报的第一时间通知)

  • 从AkShare抓取数据,我搭建了,也请求了,但东财的接口请求第二次就不能用了,可能是我姿势错误,我放弃了

  • 从东财抓取准确的数据

但东财的反爬加强了很多…

我想出了这么一个方案

用最愚蠢、原始的办法来实现,这样东财应该就无法识别到我在抓取数据了吧…

我用 chrome 插件,来实现对东财接口的数据拦截和获取
初步实现:

jietu2175×1279 284 KB

网友解答:
--【壹】--:

目前不打算抓取日K 数据,我只要做研报,例如:季报、预告、公司的重大事件 等等 …


--【贰】--:

插件的设计,有两个模式:

  1. 自动流水式抓取,通过设置一个股票代码的列表,自动循环的跑这一整个列表
  2. 静默抓取,适合我自己在东财查看资料的时候,通过我浏览的页面自动抓取数据

--【叁】--:

TuShare Pro、AKShare、巨潮资讯、东方财富 Choice,都有API,这么多炒股软件,你以为大家都是抓得数据呀,都是统一的数据源


--【肆】--:

AkShare 抓取的都是公开渠道的数据,也受限于目标网站的限制(vip服务等)和反爬限制,很多数据都抓不到. 最近实现akshare mcp给agent用时,发现这个库功能够多,但是因上述原因数据常常不全. 不得不自己搞黑科技.

包括 多点部署,代理池,指纹算法逆向等,我仅仅做测试用. 正规公司尽量使用vip服务吧.


--【伍】--:

前排支持一下


--【陆】--:

哇,大佬,大佬,目前我是要自己用,来释放一下自己每天都要去找资料,填写自己的研报
多点部署,代理池,指纹算法逆向等 这些第一版我目前还不打算投入,所以我才想到用 chrome 插件,通过拦截网页后端的数据请求,来获取到内容,这应该是最 轻量、安全 的数据获取,当然,如果数据量很大的话,这个方法肯定是不适用的


--【柒】--:

希望能有大佬一起探讨,指点指点,之前对抓取数据了解不多


--【捌】--:

我并没有去解析页面的数据,数据不是从页面获取,而是拦截东财请求后端的接口,获取到接口返回的数据,然后再上报给我自己的数据后端,再进行数据的处理和落库(后端的部分还在设计)


--【玖】--:

这种数据都有API把


--【拾】--:

初步的想法是,东财是会有延迟的,巨潮可以作为第一手信息,当从巨潮抓取到公司公告的时候,可先标记这个公司的状态,然后再去东财等待抓取具体公司的财报等信息


--【拾壹】--:

抓数据我之前是的 vnpy 但是仅限于抓去日K数据


--【拾贰】--:

求指点,指的是像东财提供的 api 这种吗?

问题描述:

想做一个自己的研报看板

此项目仅对自己学习使用 想请教下各位大神,还有什么建议,还有需要考虑的点,麻烦大家指点一二,不喜勿喷,谢谢
对于数据来源这件事情,想了几种方案:

  • 从巨潮资讯抓取公司公告,但这涉及到从公告提取数据,每家公司的公告格式都不一样,这实现起来无法保证数据的准确性(解析 + LLM 校验)所以目前这个方案我只抓取了公司的公告,并保存到本地数据库(可作为公司发布预报或者季报的第一时间通知)

  • 从AkShare抓取数据,我搭建了,也请求了,但东财的接口请求第二次就不能用了,可能是我姿势错误,我放弃了

  • 从东财抓取准确的数据

但东财的反爬加强了很多…

我想出了这么一个方案

用最愚蠢、原始的办法来实现,这样东财应该就无法识别到我在抓取数据了吧…

我用 chrome 插件,来实现对东财接口的数据拦截和获取
初步实现:

jietu2175×1279 284 KB

网友解答:
--【壹】--:

目前不打算抓取日K 数据,我只要做研报,例如:季报、预告、公司的重大事件 等等 …


--【贰】--:

插件的设计,有两个模式:

  1. 自动流水式抓取,通过设置一个股票代码的列表,自动循环的跑这一整个列表
  2. 静默抓取,适合我自己在东财查看资料的时候,通过我浏览的页面自动抓取数据

--【叁】--:

TuShare Pro、AKShare、巨潮资讯、东方财富 Choice,都有API,这么多炒股软件,你以为大家都是抓得数据呀,都是统一的数据源


--【肆】--:

AkShare 抓取的都是公开渠道的数据,也受限于目标网站的限制(vip服务等)和反爬限制,很多数据都抓不到. 最近实现akshare mcp给agent用时,发现这个库功能够多,但是因上述原因数据常常不全. 不得不自己搞黑科技.

包括 多点部署,代理池,指纹算法逆向等,我仅仅做测试用. 正规公司尽量使用vip服务吧.


--【伍】--:

前排支持一下


--【陆】--:

哇,大佬,大佬,目前我是要自己用,来释放一下自己每天都要去找资料,填写自己的研报
多点部署,代理池,指纹算法逆向等 这些第一版我目前还不打算投入,所以我才想到用 chrome 插件,通过拦截网页后端的数据请求,来获取到内容,这应该是最 轻量、安全 的数据获取,当然,如果数据量很大的话,这个方法肯定是不适用的


--【柒】--:

希望能有大佬一起探讨,指点指点,之前对抓取数据了解不多


--【捌】--:

我并没有去解析页面的数据,数据不是从页面获取,而是拦截东财请求后端的接口,获取到接口返回的数据,然后再上报给我自己的数据后端,再进行数据的处理和落库(后端的部分还在设计)


--【玖】--:

这种数据都有API把


--【拾】--:

初步的想法是,东财是会有延迟的,巨潮可以作为第一手信息,当从巨潮抓取到公司公告的时候,可先标记这个公司的状态,然后再去东财等待抓取具体公司的财报等信息


--【拾壹】--:

抓数据我之前是的 vnpy 但是仅限于抓去日K数据


--【拾贰】--:

求指点,指的是像东财提供的 api 这种吗?