分享一个免代理下载Huggingface权重和数据集的工具(教育网免流)
- 内容介绍
- 文章标签
- 相关推荐
先上网址:hf.rimuru.work
再上Github:HuggingfaceProxy
网站截图
image807×925 36.5 KB
通过Cloudflare的Page代理Huggingface流量,实现免代理不限速的下载。
建议使用网站提供的脚本进行下载。
支持但不建议使用环境变量的方式来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。
实测可以跑满千兆,更高的带宽我没办法测,因为只支持千兆。目前的请求开销还在免费额度内,需求量大且带宽也很大的用户可以尝试下载脚本后增加CHUNK_SIZE,不仅能够一定程度上提高每个线程的下载速度,还能够减少请求次数,让项目可以更多人用。
有能力的也可以自己动手部署,直接Fork就可以。
最后,脚本支持强制ipv6和强制ipv4,教育网用户可以强制v6以实现免流量,毕竟下载数据集的流量开销还是很大的。脚本在检测到教育网运行环境也会自动开启v6作为一个保底,但这个检测并不一定会生效,所以需要免流的话最好还是加上"-6"。
网友解答:更新:禁止浏览器通过代理访问hf页面,担心被举报钓鱼网站。有需要的可以自己fork部署,默认部署配置是关闭这个限制的。
--【壹】--:
感谢分享,还有各位佬的补充。
在下文学素养低下,只好卧槽一下
--【贰】--: RimuruTempest:
来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。
image2963×1730 212 KB
佬我这边为啥直连这么慢呀
--【叁】--:
有些怀念曾经的教育网~~~
--【肆】--:
image2963×1728 212 KB
改小后确实会快一点的
--【伍】--:
这个好像容易封号,我就搭建一个节点基本没用,坚持了一个多月还是被封了
--【陆】--:
什么网络环境?并行数可以拉高一点,你这个速度可能需要在脚本里面降一下CHUNK_SIZE保证能每个线程够在25s内下载完一片,不然连接可能会断开。
可以在这测个速https://speed.cloudflare.com/,如果同样很慢的话那就是你的网络连接到Cloudflare的速度很慢。
--【柒】--:
我没理解你要做什么,是指自建这个hf的代理吗?如果是的话可以参考Github以及我自己写的博客HuggingfaceProxy:Hugging Face 反向代理加速方案。
--【捌】--:
感谢大佬哦
--【玖】--:
哇,感谢分享
--【拾】--:
好的感谢,就是搭建代理
--【拾壹】--:
好我试试
--【拾贰】--:
封号是正向代理,反向代理不会封号的,而且我这个把登录功能禁用了
--【拾叁】--:
感谢佬,学校垃圾服务器倒腾半天下不了,用这个就妥了
--【拾肆】--:
牛的牛的,刚开始发现有点慢,关掉代理后速度能拉到 10M/s 了,感谢感谢
--【拾伍】--:
我靠牛逼, 支持一下
--【拾陆】--:
搭建节点也能这样操作吗
--【拾柒】--:
厉害了 我的老
--【拾捌】--:
thanks!
先上网址:hf.rimuru.work
再上Github:HuggingfaceProxy
网站截图
image807×925 36.5 KB
通过Cloudflare的Page代理Huggingface流量,实现免代理不限速的下载。
建议使用网站提供的脚本进行下载。
支持但不建议使用环境变量的方式来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。
实测可以跑满千兆,更高的带宽我没办法测,因为只支持千兆。目前的请求开销还在免费额度内,需求量大且带宽也很大的用户可以尝试下载脚本后增加CHUNK_SIZE,不仅能够一定程度上提高每个线程的下载速度,还能够减少请求次数,让项目可以更多人用。
有能力的也可以自己动手部署,直接Fork就可以。
最后,脚本支持强制ipv6和强制ipv4,教育网用户可以强制v6以实现免流量,毕竟下载数据集的流量开销还是很大的。脚本在检测到教育网运行环境也会自动开启v6作为一个保底,但这个检测并不一定会生效,所以需要免流的话最好还是加上"-6"。
网友解答:更新:禁止浏览器通过代理访问hf页面,担心被举报钓鱼网站。有需要的可以自己fork部署,默认部署配置是关闭这个限制的。
--【壹】--:
感谢分享,还有各位佬的补充。
在下文学素养低下,只好卧槽一下
--【贰】--: RimuruTempest:
来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。
image2963×1730 212 KB
佬我这边为啥直连这么慢呀
--【叁】--:
有些怀念曾经的教育网~~~
--【肆】--:
image2963×1728 212 KB
改小后确实会快一点的
--【伍】--:
这个好像容易封号,我就搭建一个节点基本没用,坚持了一个多月还是被封了
--【陆】--:
什么网络环境?并行数可以拉高一点,你这个速度可能需要在脚本里面降一下CHUNK_SIZE保证能每个线程够在25s内下载完一片,不然连接可能会断开。
可以在这测个速https://speed.cloudflare.com/,如果同样很慢的话那就是你的网络连接到Cloudflare的速度很慢。
--【柒】--:
我没理解你要做什么,是指自建这个hf的代理吗?如果是的话可以参考Github以及我自己写的博客HuggingfaceProxy:Hugging Face 反向代理加速方案。
--【捌】--:
感谢大佬哦
--【玖】--:
哇,感谢分享
--【拾】--:
好的感谢,就是搭建代理
--【拾壹】--:
好我试试
--【拾贰】--:
封号是正向代理,反向代理不会封号的,而且我这个把登录功能禁用了
--【拾叁】--:
感谢佬,学校垃圾服务器倒腾半天下不了,用这个就妥了
--【拾肆】--:
牛的牛的,刚开始发现有点慢,关掉代理后速度能拉到 10M/s 了,感谢感谢
--【拾伍】--:
我靠牛逼, 支持一下
--【拾陆】--:
搭建节点也能这样操作吗
--【拾柒】--:
厉害了 我的老
--【拾捌】--:
thanks!

