看完Jeff Dean新论文,大厂宣传还可信吗?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2777个文字,预计阅读时间需要12分钟。
使用数百万美元的TPU算力,在CIFAR-10上实现了0.03%的改进,创造了新的SOTA。但这真的值得吗?
我相信他们得到的数字是准确的,他们确实做了工作并得到了结果……但这样真的好吗?
用数万美元 TPU 算力,实现在 CIFAR-10 上 0.03% 的改进,创造了新的 SOTA,但这一切值得吗?
「我相信他们得到的数字是准确的,他们确实做了工作并得到了结果…… 但这样真的好吗?」
一名机器学习研究者的灵魂发问,今天成为了整个社区最热门的话题。
事情要从这周四说起,谷歌研究员 Andrea Gesmundo 和谷歌 AI 负责人、大牛 Jeff Dean 的论文《An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems》被提交到了预印版论文平台 arXiv 上。
Jeff Dean 等人提出了一种进化算法,可以生成大规模的多任务模型,同时也支持新任务的动态和连续添加,生成的多任务模型是稀疏激活的,并集成了基于任务的路由,该路由保证了有限的计算成本,并且随着模型的扩展,每个任务添加的参数更少。
作者表示,其提出的新方法依赖于知识划分技术,实现了对灾难性遗忘和其他常见缺陷(如梯度干扰和负迁移)的免疫。实验表明,新方法可以联合解决并在 69 个图像分类任务上取得有竞争力的结果,例如对仅在公共数据上训练的模型,在 CIFAR-10 上实现了新的业界最高识别准确度 99.43%。
本文共计2777个文字,预计阅读时间需要12分钟。
使用数百万美元的TPU算力,在CIFAR-10上实现了0.03%的改进,创造了新的SOTA。但这真的值得吗?
我相信他们得到的数字是准确的,他们确实做了工作并得到了结果……但这样真的好吗?
用数万美元 TPU 算力,实现在 CIFAR-10 上 0.03% 的改进,创造了新的 SOTA,但这一切值得吗?
「我相信他们得到的数字是准确的,他们确实做了工作并得到了结果…… 但这样真的好吗?」
一名机器学习研究者的灵魂发问,今天成为了整个社区最热门的话题。
事情要从这周四说起,谷歌研究员 Andrea Gesmundo 和谷歌 AI 负责人、大牛 Jeff Dean 的论文《An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems》被提交到了预印版论文平台 arXiv 上。
Jeff Dean 等人提出了一种进化算法,可以生成大规模的多任务模型,同时也支持新任务的动态和连续添加,生成的多任务模型是稀疏激活的,并集成了基于任务的路由,该路由保证了有限的计算成本,并且随着模型的扩展,每个任务添加的参数更少。
作者表示,其提出的新方法依赖于知识划分技术,实现了对灾难性遗忘和其他常见缺陷(如梯度干扰和负迁移)的免疫。实验表明,新方法可以联合解决并在 69 个图像分类任务上取得有竞争力的结果,例如对仅在公共数据上训练的模型,在 CIFAR-10 上实现了新的业界最高识别准确度 99.43%。

