分享一个免代理下载Huggingface权重和数据集的工具(教育网免流)
- 内容介绍
- 文章标签
- 相关推荐
先上网址:hf.rimuru.work
再上Github:HuggingfaceProxy
网站截图
image807×925 36.5 KB
通过Cloudflare的Page代理Huggingface流量,实现免代理不限速的下载。
建议使用网站提供的脚本进行下载。
支持但不建议使用环境变量的方式来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。
实测可以跑满千兆,更高的带宽我没办法测,因为只支持千兆。目前的请求开销还在免费额度内,需求量大且带宽也很大的用户可以尝试下载脚本后增加CHUNK_SIZE,不仅能够一定程度上提高每个线程的下载速度,还能够减少请求次数,让项目可以更多人用。
有能力的也可以自己动手部署,直接Fork就可以。
最后,脚本支持强制ipv6和强制ipv4,教育网用户可以强制v6以实现免流量,毕竟下载数据集的流量开销还是很大的。脚本在检测到教育网运行环境也会自动开启v6作为一个保底,但这个检测并不一定会生效,所以需要免流的话最好还是加上"-6"。
网友解答:更新:禁止浏览器通过代理访问hf页面,担心被举报钓鱼网站。有需要的可以自己fork部署,默认部署配置是关闭这个限制的。
--【壹】--:
感谢分享,还有各位佬的补充。
在下文学素养低下,只好卧槽一下
--【贰】--: RimuruTempest:
来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。
先上网址:hf.rimuru.work
再上Github:HuggingfaceProxy
网站截图
image807×925 36.5 KB
通过Cloudflare的Page代理Huggingface流量,实现免代理不限速的下载。
建议使用网站提供的脚本进行下载。
支持但不建议使用环境变量的方式来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。
实测可以跑满千兆,更高的带宽我没办法测,因为只支持千兆。目前的请求开销还在免费额度内,需求量大且带宽也很大的用户可以尝试下载脚本后增加CHUNK_SIZE,不仅能够一定程度上提高每个线程的下载速度,还能够减少请求次数,让项目可以更多人用。
有能力的也可以自己动手部署,直接Fork就可以。
最后,脚本支持强制ipv6和强制ipv4,教育网用户可以强制v6以实现免流量,毕竟下载数据集的流量开销还是很大的。脚本在检测到教育网运行环境也会自动开启v6作为一个保底,但这个检测并不一定会生效,所以需要免流的话最好还是加上"-6"。
网友解答:更新:禁止浏览器通过代理访问hf页面,担心被举报钓鱼网站。有需要的可以自己fork部署,默认部署配置是关闭这个限制的。
--【壹】--:
感谢分享,还有各位佬的补充。
在下文学素养低下,只好卧槽一下
--【贰】--: RimuruTempest:
来直接下载,因为Cloudflare的缓存原因而失败,因为Cloudflare会自作主张的删掉一些关键的请求头,导致下载过程中校验失败。

