分享一个免代理下载Huggingface权重和数据集的工具(教育网免流)

2026-04-29 10:252阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

先上网址:hf.rimuru.work
再上Github:HuggingfaceProxy

网站截图
image807×925 36.5 KB

通过Cloudflare的Page代理Huggingface流量,实现免代理不限速的下载。
建议使用网站提供的脚本进行下载。
支持但不建议使用环境变量的方式来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。

实测可以跑满千兆,更高的带宽我没办法测,因为只支持千兆。目前的请求开销还在免费额度内,需求量大且带宽也很大的用户可以尝试下载脚本后增加CHUNK_SIZE,不仅能够一定程度上提高每个线程的下载速度,还能够减少请求次数,让项目可以更多人用

有能力的也可以自己动手部署,直接Fork就可以。

最后,脚本支持强制ipv6和强制ipv4,教育网用户可以强制v6以实现免流量,毕竟下载数据集的流量开销还是很大的。脚本在检测到教育网运行环境也会自动开启v6作为一个保底,但这个检测并不一定会生效,所以需要免流的话最好还是加上"-6"。

更新:禁止浏览器通过代理访问hf页面,担心被举报钓鱼网站。有需要的可以自己fork部署,默认部署配置是关闭这个限制的。

网友解答:
--【壹】--:

感谢分享,还有各位佬的补充。
在下文学素养低下,只好卧槽一下


--【贰】--: RimuruTempest:

来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。

image2963×1730 212 KB
佬我这边为啥直连这么慢呀


--【叁】--:

有些怀念曾经的教育网~~~


--【肆】--:

image2963×1728 212 KB
改小后确实会快一点的


--【伍】--:

这个好像容易封号,我就搭建一个节点基本没用,坚持了一个多月还是被封了


--【陆】--:

什么网络环境?并行数可以拉高一点,你这个速度可能需要在脚本里面降一下CHUNK_SIZE保证能每个线程够在25s内下载完一片,不然连接可能会断开。

可以在这测个速https://speed.cloudflare.com/,如果同样很慢的话那就是你的网络连接到Cloudflare的速度很慢。


--【柒】--:

我没理解你要做什么,是指自建这个hf的代理吗?如果是的话可以参考Github以及我自己写的博客HuggingfaceProxy:Hugging Face 反向代理加速方案。


--【捌】--:

感谢大佬哦


--【玖】--:

哇,感谢分享


--【拾】--:

好的感谢,就是搭建代理


--【拾壹】--:

好我试试


--【拾贰】--:

封号是正向代理,反向代理不会封号的,而且我这个把登录功能禁用了


--【拾叁】--:

感谢佬,学校垃圾服务器倒腾半天下不了,用这个就妥了


--【拾肆】--:

牛的牛的,刚开始发现有点慢,关掉代理后速度能拉到 10M/s 了,感谢感谢


--【拾伍】--:

我靠牛逼, 支持一下


--【拾陆】--:

搭建节点也能这样操作吗


--【拾柒】--:

厉害了 我的老


--【拾捌】--:

thanks!

问题描述:

先上网址:hf.rimuru.work
再上Github:HuggingfaceProxy

网站截图
image807×925 36.5 KB

通过Cloudflare的Page代理Huggingface流量,实现免代理不限速的下载。
建议使用网站提供的脚本进行下载。
支持但不建议使用环境变量的方式来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。

实测可以跑满千兆,更高的带宽我没办法测,因为只支持千兆。目前的请求开销还在免费额度内,需求量大且带宽也很大的用户可以尝试下载脚本后增加CHUNK_SIZE,不仅能够一定程度上提高每个线程的下载速度,还能够减少请求次数,让项目可以更多人用

有能力的也可以自己动手部署,直接Fork就可以。

最后,脚本支持强制ipv6和强制ipv4,教育网用户可以强制v6以实现免流量,毕竟下载数据集的流量开销还是很大的。脚本在检测到教育网运行环境也会自动开启v6作为一个保底,但这个检测并不一定会生效,所以需要免流的话最好还是加上"-6"。

更新:禁止浏览器通过代理访问hf页面,担心被举报钓鱼网站。有需要的可以自己fork部署,默认部署配置是关闭这个限制的。

网友解答:
--【壹】--:

感谢分享,还有各位佬的补充。
在下文学素养低下,只好卧槽一下


--【贰】--: RimuruTempest:

来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。

image2963×1730 212 KB
佬我这边为啥直连这么慢呀


--【叁】--:

有些怀念曾经的教育网~~~


--【肆】--:

image2963×1728 212 KB
改小后确实会快一点的


--【伍】--:

这个好像容易封号,我就搭建一个节点基本没用,坚持了一个多月还是被封了


--【陆】--:

什么网络环境?并行数可以拉高一点,你这个速度可能需要在脚本里面降一下CHUNK_SIZE保证能每个线程够在25s内下载完一片,不然连接可能会断开。

可以在这测个速https://speed.cloudflare.com/,如果同样很慢的话那就是你的网络连接到Cloudflare的速度很慢。


--【柒】--:

我没理解你要做什么,是指自建这个hf的代理吗?如果是的话可以参考Github以及我自己写的博客HuggingfaceProxy:Hugging Face 反向代理加速方案。


--【捌】--:

感谢大佬哦


--【玖】--:

哇,感谢分享


--【拾】--:

好的感谢,就是搭建代理


--【拾壹】--:

好我试试


--【拾贰】--:

封号是正向代理,反向代理不会封号的,而且我这个把登录功能禁用了


--【拾叁】--:

感谢佬,学校垃圾服务器倒腾半天下不了,用这个就妥了


--【拾肆】--:

牛的牛的,刚开始发现有点慢,关掉代理后速度能拉到 10M/s 了,感谢感谢


--【拾伍】--:

我靠牛逼, 支持一下


--【拾陆】--:

搭建节点也能这样操作吗


--【拾柒】--:

厉害了 我的老


--【拾捌】--:

thanks!