研究团队Talkie发布首个“1930年复古” 13B大语言模型 TalkieTalkie-1930
- 内容介绍
- 文章标签
- 相关推荐
近日,研究团队Talkie正式发布了 Talkie-1930-13b-it。这并非一个追求最新知识的AI,而是一个刻意“停留在过去”的复古语言模型(Vintage Language Model)。该模型完全基于1931年以前的历史文本进行训练。
该模型的基座版本(talkie-1930-13b-base)在 260B Token 的预1931年英语文本上进行了训练,内容涵盖书籍、报纸、期刊、专利及法庭案例。与使用现代聊天记录微调的AI不同,
Talkie使用的是从历史礼仪手册、百科全书和书信指南中提取的指令对,并辅以在线直接偏好优化(DPO)技术。它的回答风格、词汇选择和知识储备完全局限于20世纪30年代之前。
研究团队指出,Talkie-1930 不仅仅是一个有趣的对话伙伴,它在AI基础研究中具有重要价值:
通过评估模型对1931年后发生的历史事件(如二战、太空竞赛)的“惊讶程度”,研究人员可以量化模型预测未来的潜能。
现代模型普遍存在数据污染(即测试题已在训练集中见过)。Talkie则天然免疫:例如,测试一个完全不懂数字计算机的1930年模型如何通过少量示例学习 Python 编程,以此观察AI的跨领域泛化能力。
测试模型是否能独立推导出其知识切断点之后的科学发现(如1911年的模型能否推导出1915年的广义相对论)。
探索非现代互联网数据(Web Data)训练出的模型在性格、行为和偏好上与现代AI有何本质区别。
由于1930年前无数字出版物,团队开发了专门的“复古OCR系统”来识别模糊的历史扫描件,旨在将由于扫描噪声导致的性能损失(约为70%)降至最低。
数据泄露是最大挑战。研究人员使用了高性能分类器来过滤带有现代注释或伪造日期的文档。尽管如此,13B版本仍表现出少量对二战后秩序的模糊察觉。
近日,研究团队Talkie正式发布了 Talkie-1930-13b-it。这并非一个追求最新知识的AI,而是一个刻意“停留在过去”的复古语言模型(Vintage Language Model)。该模型完全基于1931年以前的历史文本进行训练。
该模型的基座版本(talkie-1930-13b-base)在 260B Token 的预1931年英语文本上进行了训练,内容涵盖书籍、报纸、期刊、专利及法庭案例。与使用现代聊天记录微调的AI不同,
Talkie使用的是从历史礼仪手册、百科全书和书信指南中提取的指令对,并辅以在线直接偏好优化(DPO)技术。它的回答风格、词汇选择和知识储备完全局限于20世纪30年代之前。
研究团队指出,Talkie-1930 不仅仅是一个有趣的对话伙伴,它在AI基础研究中具有重要价值:
通过评估模型对1931年后发生的历史事件(如二战、太空竞赛)的“惊讶程度”,研究人员可以量化模型预测未来的潜能。
现代模型普遍存在数据污染(即测试题已在训练集中见过)。Talkie则天然免疫:例如,测试一个完全不懂数字计算机的1930年模型如何通过少量示例学习 Python 编程,以此观察AI的跨领域泛化能力。
测试模型是否能独立推导出其知识切断点之后的科学发现(如1911年的模型能否推导出1915年的广义相对论)。
探索非现代互联网数据(Web Data)训练出的模型在性格、行为和偏好上与现代AI有何本质区别。
由于1930年前无数字出版物,团队开发了专门的“复古OCR系统”来识别模糊的历史扫描件,旨在将由于扫描噪声导致的性能损失(约为70%)降至最低。
数据泄露是最大挑战。研究人员使用了高性能分类器来过滤带有现代注释或伪造日期的文档。尽管如此,13B版本仍表现出少量对二战后秩序的模糊察觉。

