分享一个免代理下载Huggingface权重和数据集的工具(教育网免流)

2026-04-29 10:251阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

先上网址:hf.rimuru.work
再上Github:HuggingfaceProxy

网站截图
image807×925 36.5 KB

通过Cloudflare的Page代理Huggingface流量,实现免代理不限速的下载。
建议使用网站提供的脚本进行下载。
支持但不建议使用环境变量的方式来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。

实测可以跑满千兆,更高的带宽我没办法测,因为只支持千兆。目前的请求开销还在免费额度内,需求量大且带宽也很大的用户可以尝试下载脚本后增加CHUNK_SIZE,不仅能够一定程度上提高每个线程的下载速度,还能够减少请求次数,让项目可以更多人用

有能力的也可以自己动手部署,直接Fork就可以。

最后,脚本支持强制ipv6和强制ipv4,教育网用户可以强制v6以实现免流量,毕竟下载数据集的流量开销还是很大的。脚本在检测到教育网运行环境也会自动开启v6作为一个保底,但这个检测并不一定会生效,所以需要免流的话最好还是加上"-6"。

更新:禁止浏览器通过代理访问hf页面,担心被举报钓鱼网站。有需要的可以自己fork部署,默认部署配置是关闭这个限制的。

网友解答:
--【壹】--:

感谢分享,还有各位佬的补充。
在下文学素养低下,只好卧槽一下


--【贰】--: RimuruTempest:

来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。

阅读全文
问题描述:

先上网址:hf.rimuru.work
再上Github:HuggingfaceProxy

网站截图
image807×925 36.5 KB

通过Cloudflare的Page代理Huggingface流量,实现免代理不限速的下载。
建议使用网站提供的脚本进行下载。
支持但不建议使用环境变量的方式来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。

实测可以跑满千兆,更高的带宽我没办法测,因为只支持千兆。目前的请求开销还在免费额度内,需求量大且带宽也很大的用户可以尝试下载脚本后增加CHUNK_SIZE,不仅能够一定程度上提高每个线程的下载速度,还能够减少请求次数,让项目可以更多人用

有能力的也可以自己动手部署,直接Fork就可以。

最后,脚本支持强制ipv6和强制ipv4,教育网用户可以强制v6以实现免流量,毕竟下载数据集的流量开销还是很大的。脚本在检测到教育网运行环境也会自动开启v6作为一个保底,但这个检测并不一定会生效,所以需要免流的话最好还是加上"-6"。

更新:禁止浏览器通过代理访问hf页面,担心被举报钓鱼网站。有需要的可以自己fork部署,默认部署配置是关闭这个限制的。

网友解答:
--【壹】--:

感谢分享,还有各位佬的补充。
在下文学素养低下,只好卧槽一下


--【贰】--: RimuruTempest:

来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。

阅读全文