研究团队Talkie发布首个“1930年复古” 13B大语言模型 TalkieTalkie-1930

2026-04-29 08:123阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

近日,研究团队Talkie正式发布了 Talkie-1930-13b-it。这并非一个追求最新知识的AI,而是一个刻意“停留在过去”的复古语言模型(Vintage Language Model)。该模型完全基于1931年以前的历史文本进行训练。

该模型的基座版本(talkie-1930-13b-base)在 260B Token 的预1931年英语文本上进行了训练,内容涵盖书籍、报纸、期刊、专利及法庭案例。与使用现代聊天记录微调的AI不同,
Talkie使用的是从历史礼仪手册、百科全书和书信指南中提取的指令对,并辅以在线直接偏好优化(DPO)技术。它的回答风格、词汇选择和知识储备完全局限于20世纪30年代之前。

研究团队指出,Talkie-1930 不仅仅是一个有趣的对话伙伴,它在AI基础研究中具有重要价值:

通过评估模型对1931年后发生的历史事件(如二战、太空竞赛)的“惊讶程度”,研究人员可以量化模型预测未来的潜能。

现代模型普遍存在数据污染(即测试题已在训练集中见过)。Talkie则天然免疫:例如,测试一个完全不懂数字计算机的1930年模型如何通过少量示例学习 Python 编程,以此观察AI的跨领域泛化能力。

测试模型是否能独立推导出其知识切断点之后的科学发现(如1911年的模型能否推导出1915年的广义相对论)。

探索非现代互联网数据(Web Data)训练出的模型在性格、行为和偏好上与现代AI有何本质区别。

由于1930年前无数字出版物,团队开发了专门的“复古OCR系统”来识别模糊的历史扫描件,旨在将由于扫描噪声导致的性能损失(约为70%)降至最低。

数据泄露是最大挑战。研究人员使用了高性能分类器来过滤带有现代注释或伪造日期的文档。尽管如此,13B版本仍表现出少量对二战后秩序的模糊察觉。

该团队计划在今年夏天推出 GPT-3 级别 的大规模复古模型,并致力于将历史语料库扩展至 1万亿(1T)Token 以上,目标是打造一个能力等同于 ChatGPT(GPT-3.5)但知识背景完全属于历史的“时间机器”。
目前,Talkie-1930 已开放演示,供研究者探讨在没有现代互联网干预下,人工智能将如何理解世界。

talkie-lm.com

Introducing talkie: a 13B vintage language model from 1930

talkie-lm.com

talkie: an LM from 1930

huggingface.co

talkie-13b - a talkie-lm Collection

talkie-1930-13b is a vintage language model trained on pre-1931 English-language text. See https://github.com/talkie-lm/talkie to run talkie.

网友解答:
--【壹】--:

之前似乎就是有一个项目, 想看看知识库截止到某时代的大模型能不能重新发现爱因斯坦的一些成果. 后来没听说过下文了.


--【贰】--:

太有趣了,简直就是历史的一个切片。对未来人来说,我们现在做的模型如果能保留下来,将来也会是这样的东西


--【叁】--:

之前有过这种想法,没想到真有去实现的,等着试试


--【肆】--:

有点意思,这样的话ai还能够回答出自己是怎么来的吗,它的自我认知是怎样的


--【伍】--:

这说起来就有点可惜了,我想搞一个基于永乐大典的版本一定很有意思


--【陆】--:

感觉不如限制知识看人工智能能不能独立推导出相对论吗