【公司研报】我有个抓取数据想法
- 内容介绍
- 文章标签
- 相关推荐
想做一个自己的研报看板
此项目仅对自己学习使用 想请教下各位大神,还有什么建议,还有需要考虑的点,麻烦大家指点一二,不喜勿喷,谢谢
对于数据来源这件事情,想了几种方案:
-
从巨潮资讯抓取公司公告,但这涉及到从公告提取数据,每家公司的公告格式都不一样,这实现起来无法保证数据的准确性(解析 + LLM 校验)所以目前这个方案我只抓取了公司的公告,并保存到本地数据库(可作为公司发布预报或者季报的第一时间通知)
-
从AkShare抓取数据,我搭建了,也请求了,但东财的接口请求第二次就不能用了,可能是我姿势错误,我放弃了
-
从东财抓取准确的数据
但东财的反爬加强了很多…
我想出了这么一个方案
用最愚蠢、原始的办法来实现,这样东财应该就无法识别到我在抓取数据了吧…
我用 chrome 插件,来实现对东财接口的数据拦截和获取
初步实现:
jietu2175×1279 284 KB
网友解答:--【壹】--:
目前不打算抓取日K 数据,我只要做研报,例如:季报、预告、公司的重大事件 等等 …
--【贰】--:
插件的设计,有两个模式:
- 自动流水式抓取,通过设置一个股票代码的列表,自动循环的跑这一整个列表
- 静默抓取,适合我自己在东财查看资料的时候,通过我浏览的页面自动抓取数据
--【叁】--:
TuShare Pro、AKShare、巨潮资讯、东方财富 Choice,都有API,这么多炒股软件,你以为大家都是抓得数据呀,都是统一的数据源
--【肆】--:
AkShare 抓取的都是公开渠道的数据,也受限于目标网站的限制(vip服务等)和反爬限制,很多数据都抓不到. 最近实现akshare mcp给agent用时,发现这个库功能够多,但是因上述原因数据常常不全. 不得不自己搞黑科技.
包括 多点部署,代理池,指纹算法逆向等,我仅仅做测试用. 正规公司尽量使用vip服务吧.
--【伍】--:
前排支持一下
--【陆】--:
哇,大佬,大佬,目前我是要自己用,来释放一下自己每天都要去找资料,填写自己的研报
多点部署,代理池,指纹算法逆向等 这些第一版我目前还不打算投入,所以我才想到用 chrome 插件,通过拦截网页后端的数据请求,来获取到内容,这应该是最 轻量、安全 的数据获取,当然,如果数据量很大的话,这个方法肯定是不适用的
--【柒】--:
希望能有大佬一起探讨,指点指点,之前对抓取数据了解不多
--【捌】--:
我并没有去解析页面的数据,数据不是从页面获取,而是拦截东财请求后端的接口,获取到接口返回的数据,然后再上报给我自己的数据后端,再进行数据的处理和落库(后端的部分还在设计)
--【玖】--:
这种数据都有API把
--【拾】--:
初步的想法是,东财是会有延迟的,巨潮可以作为第一手信息,当从巨潮抓取到公司公告的时候,可先标记这个公司的状态,然后再去东财等待抓取具体公司的财报等信息
--【拾壹】--:
抓数据我之前是的 vnpy 但是仅限于抓去日K数据
--【拾贰】--:
求指点,指的是像东财提供的 api 这种吗?
想做一个自己的研报看板
此项目仅对自己学习使用 想请教下各位大神,还有什么建议,还有需要考虑的点,麻烦大家指点一二,不喜勿喷,谢谢
对于数据来源这件事情,想了几种方案:
-
从巨潮资讯抓取公司公告,但这涉及到从公告提取数据,每家公司的公告格式都不一样,这实现起来无法保证数据的准确性(解析 + LLM 校验)所以目前这个方案我只抓取了公司的公告,并保存到本地数据库(可作为公司发布预报或者季报的第一时间通知)
-
从AkShare抓取数据,我搭建了,也请求了,但东财的接口请求第二次就不能用了,可能是我姿势错误,我放弃了
-
从东财抓取准确的数据
但东财的反爬加强了很多…
我想出了这么一个方案
用最愚蠢、原始的办法来实现,这样东财应该就无法识别到我在抓取数据了吧…
我用 chrome 插件,来实现对东财接口的数据拦截和获取
初步实现:
jietu2175×1279 284 KB
网友解答:--【壹】--:
目前不打算抓取日K 数据,我只要做研报,例如:季报、预告、公司的重大事件 等等 …
--【贰】--:
插件的设计,有两个模式:
- 自动流水式抓取,通过设置一个股票代码的列表,自动循环的跑这一整个列表
- 静默抓取,适合我自己在东财查看资料的时候,通过我浏览的页面自动抓取数据
--【叁】--:
TuShare Pro、AKShare、巨潮资讯、东方财富 Choice,都有API,这么多炒股软件,你以为大家都是抓得数据呀,都是统一的数据源
--【肆】--:
AkShare 抓取的都是公开渠道的数据,也受限于目标网站的限制(vip服务等)和反爬限制,很多数据都抓不到. 最近实现akshare mcp给agent用时,发现这个库功能够多,但是因上述原因数据常常不全. 不得不自己搞黑科技.
包括 多点部署,代理池,指纹算法逆向等,我仅仅做测试用. 正规公司尽量使用vip服务吧.
--【伍】--:
前排支持一下
--【陆】--:
哇,大佬,大佬,目前我是要自己用,来释放一下自己每天都要去找资料,填写自己的研报
多点部署,代理池,指纹算法逆向等 这些第一版我目前还不打算投入,所以我才想到用 chrome 插件,通过拦截网页后端的数据请求,来获取到内容,这应该是最 轻量、安全 的数据获取,当然,如果数据量很大的话,这个方法肯定是不适用的
--【柒】--:
希望能有大佬一起探讨,指点指点,之前对抓取数据了解不多
--【捌】--:
我并没有去解析页面的数据,数据不是从页面获取,而是拦截东财请求后端的接口,获取到接口返回的数据,然后再上报给我自己的数据后端,再进行数据的处理和落库(后端的部分还在设计)
--【玖】--:
这种数据都有API把
--【拾】--:
初步的想法是,东财是会有延迟的,巨潮可以作为第一手信息,当从巨潮抓取到公司公告的时候,可先标记这个公司的状态,然后再去东财等待抓取具体公司的财报等信息
--【拾壹】--:
抓数据我之前是的 vnpy 但是仅限于抓去日K数据
--【拾贰】--:
求指点,指的是像东财提供的 api 这种吗?

