AI秒破18世纪“天书”账本,谷歌新模型盲测刷屏全网

最近,谷歌AI Studio上的一个神秘模型不仅成功识别了200多年前一位商人的「天书」账本,而且还修正了里面的格式错误和模糊表述,展现出的推理能力令历史学家震惊。悄悄地,谷歌...

最近,谷歌AI Studio上的一个神秘模型不仅成功识别了200多年前一位商人的「天书」账本 ,而且还修正了里面的格式错误和模糊表述,展现出的推理能力令历史学家震惊 。

悄悄地,谷歌已经解决了AI界的两大古老难题?

前不久 ,谷歌AI Studio上的一个神秘模型引发网友关注,其中包括一位叫Mark Humphries的历史学家。

他拿出了200多年前一位奥尔巴尼商人的「天书」账本,来测试大模型在手写文本识别(HTR)上的能力。

AI秒破18世纪“天书”账本	,谷歌新模型盲测刷屏全网

令人震惊的一幕出现了!

神秘模型不仅在自动手写识别上接近满分 ,还纠正了原账本中的一个书写格式错误,优化了其中一个可能引发歧义的模糊表述 。

这意味着该模型不仅能识别字母,还可以理解字母背后的逻辑和知识背景。

而且 ,这些能力都是在模型未被提示的情况下展现出来的。

专家级的手写文字识别能力,无需显式规则的推理能力,这两大难题的解决标志着AI模型能力上的一次跃迁 。

网友推测 ,这个神秘模型可能就是谷歌即将在今年推出的Gemini-3,但尚未官方确认 。

破解历史学家难题

Mark Humphries是Wilfrid Laurier大学的一位历史学教授。

作为一名历史学家,他十分关心AI在自己的专业领域是否已经达到了人类专家级的推理水平。

因此 ,Humphries选择了让大模型来识别历史手写体,他认为这是检验大模型整体能力的一个黄金测试 。

识别历史手写体,不仅是一个视觉任务 ,还要对历史手稿所在的历史背景有一定的了解。

如果缺乏这些知识,要准确识别和转写一份历史文献几乎是不可能的。

在Humphries看来,这恰恰也是历史文献中最难识别的部分 。

随着大模型能力的发展 ,它们在HTR上的识别准确率可以超过90% ,但剩下的10%才是最难,也是最关键的。

Humphries认为,如今的大模型(Transformer架构)在本质上是预测式的(其核心机制是预测下一个token) ,但历史文献中的拼写错误和风格不一致,本来就是不可预测、低概率的答案。

因此,要把「the cat sat on the rugg」而不是「mat」转写出来 ,模型就必须逆着训练分布的倾向来做 。

这也是为什么大模型在转写不熟悉的人的名字(尤其姓氏) 、冷门地名、日期或数字(比如金额)时不太擅长的原因。

比如,一封信是Richard Darby写的,还是Richard Derby写的?日期是1762年3月15日 ,还是1782年3月16日?账单是339美元,还是331美元?

当历史文献中,出现这类难以辨认的字母或数字时 ,往往需要通过其他类型的背景知识来找到答案。

Humphries认为,这「最后一英里的准确性」,才是历史手写文本识别能被人类使用的前提 。

预测式架构是否存在「天花板」?

为了衡量手写转写准确性 ,Humphries与Lianne Leddy博士专门做了一个测试集 ,这是一个包含50份文档、总计约1万词的集合。

并且,他们采取了一切合理的预防措施,尽可能确保这些文档不在大模型的训练数据里。

这个测试集包含了不同风格的书写(从难以识别的潦草字迹到正式的秘书手写体) ,以及各种工具拍摄的图像 。

在Humphries看来,这些文档代表了他以及研究18 、19世纪英语文献的历史学家最常遇到的类型 。

他们用字符错误率(CER)和词错误率(WER)来衡量转写错误的比例。

研究显示,非专业人士通常WER在4-10%。

AI秒破18世纪“天书	”账本	,谷歌新模型盲测刷屏全网

即便是专业的转写服务也预期会有少量错误,他们通常保证1%的WER,但前提是文本清晰易读 。

所以 ,这基本就是准确度的上限。

去年,在Humphries等人的测试集上,Gemini-2.5-Pro的表现为:

严格CER为4% ,WER为11%。

当排除大小写和标点的错误时,它们通常不会改变文本的实际含义,也不影响搜索与可读性 ,这些错误率降到了CER 2%和WER 4% 。

Humphries也发现 ,每一代模型的改进确实都在稳步发生。

Gemini-2.5-Pro的成绩,已经比他们几个月前测试的Gemini-1.5-Pro提升了约50-70%,后者又比最初测试的GPT-4提升了约50-70%。

这也印证了扩展规律的预期:

随着模型变大 ,只凭模型规模就能大致预测它在这类任务上的表现 。

新模型的表现

在同样的数据集下,他们开始测试Google的新模型。

具体做法是上传图片到AI Studio,并输入如下内容固定的提示词:

「你的任务是准确转写手写历史文献 ,尽可能降低CER和WER。逐字逐词逐行工作,严格按照页面上呈现的样子转写文本 。为保持历史文本的真实性,保留拼写错误、语法、句法和标点以及换行。转写页面上的所有文本 ,包括页眉 、页脚 、边注、插入内容、页码等。如果存在这些内容,请按作者标示的位置插入……」

Humphries在选择测试文档时,尽量挑选错误最多 、最难辨认的那些文档 。

它们不仅手写潦草 ,而且充满拼写与语法错误,缺乏恰当标点,大小写极不一致 。

目的很简单 ,就是要探一下这个神秘模型的底。

最终 ,他挑了测试集中的5份文档。

AI秒破18世纪“天书”账本,谷歌新模型盲测刷屏全网

结果十分惊人 。

该模型转写的5份文档(总计刚过1000词,约占样本的十分之一) ,严格CER为1.7%,WER为6.5%。

也就是说包括标点和大小写在内,大约每50个字符错1个。

而且几乎所有错误都在大小写和标点 ,出错的地方都是高度模糊,真正「词」层面的错误非常少 。

如果把这些类型的错误从计数中排除后,错误率降到了CER 0.56%和WER 1.22%。

AI秒破18世纪“天书”账本	,谷歌新模型盲测刷屏全网

也就是说,这个新的Gemini模型在HTR上的表现达到了人类专家级的水准。

秒破200多年前账本「谜团」

随后,Humphries决定继续给新模型上强度 。

他拿出了200多年前一位奥尔巴尼商人的日记账。

这是一位荷兰籍店员用英语记录的流水账。

他可能不太会说英语 ,拼写和字母书写极不规则,其中还夹杂着荷兰语与英语 。

账目也用旧式英镑/先令/便士写法,并采用当时常见的速记格式:「To 30 Gallons Rum @4/6 6/15/0」。

这表示有人购买了(记入其账户的借方)30加仑朗姆酒 ,每加仑4先令6便士 ,总计6英镑15先令0便士。

AI秒破18世纪“天书	”账本,谷歌新模型盲测刷屏全网

对于今天的大多数人来说,这种非十进制货币单位很陌生:1先令等于12便士 ,1英镑等于20先令 。

单笔交易随时记到账上,用横线分隔,中间写当天日期数字 。

每笔交易记成借记(Dr ,购买)或贷记(Cr,付款)。

有些交易被划掉,可能表示已对账或转入总账里的客户账户(类似「待处理」变「已入账」)。

这些记录还无标准格式 。

大模型在处理这种账本时一直容易出问题。

不仅因为相关训练数据很少 ,还因为其中没有太多规律可言:人可以买任意数量的任何东西,单价可以是任意的,而总价并不按常规方法凑整。

大模型往往能辨出一些名字和一些商品 ,但在数字上完全迷失 。

比如,它们通常难以准确转写数字,而且倾向于把单价与总价混在一起。

尤其是一些复杂的页面会暂时「搞崩」模型:让它不断重复某些数字或短语 ,或者有时干脆失败不答。

然而 ,Humphries在谷歌的新模型中,却看到它在识别奥尔巴尼商人日记账页面时表现接近完美 。

不仅数字部分惊人地全都正确,更有意思的它还纠正了原来店员记账时的一个格式上的小错误。

比如 ,Samuel Stitt买了2个潘趣酒碗,店员记为每个2/,意思是每个2先令;为省事 ,他省略了「0便士」。但为了保持一致,模型把它转写为@2/0,这其实更规范也更清楚 。

通读文本 ,Humphries还看到一个让他汗毛直竖的「错误」。

他看到Gemini把一行「To 1 loff Sugar 145 @ 1/4 0 19 1」的原文转写为「To 1 loff Sugar 14 lb 5 oz @ 1/4 0 19 1」。

18世纪的糖以硬化的锥形糖锭出售,Slitt先生是个店主,大量购入糖用于转卖 。

乍看之下 ,这像是一次幻觉式错误:模型被要求严格按原文转写,但它插入了原文没有的「14 lb 5 oz」 。

仔细考证后,Humphries意识到大模型做了极其聪明的事。

Gemini正确推断出1、4、5是重量单位构成的数值 ,描述所购糖的总重量。

AI秒破18世纪“天书”账本,谷歌新模型盲测刷屏全网AI秒破18世纪“天书”账本,谷歌新模型盲测刷屏全网

为了确定正确的重量 、解码145,Gemini还利用最终总价0/19/1反推重量 ,这需要在两套十进制体系与两套非十进制体系之间来回换算 。

Humphries推测了大模型的推理过程:

糖的单价是1先令4便士每单位,也就是16便士。交易总价是0英镑、19先令、1便士,可换算为229便士。

要算买了多少糖 ,就用229除以16,得到14.3125,或14磅5盎司 。

于是 ,Gemini断定它不是「1 45」,也不是「145」,而是「14 5」 ,进而是14 lb 5 oz,并在转写中予以澄清。

在Humphries的测试中,没有其他模型在被要求转写同一文档时做出过类似表现。

这个例子之所以引起Humphries注意 ,是因为AI似乎跨过了一些专家长期声称现有模型无法越过的边界 。

面对一个含糊的数字 ,它能够推断出缺失的上下文,在历史货币与重量系统之间执行了一系列多步换算,并得到一个正确结论 ,这个过程需要对文献所描述的世界进行抽象推理。

Humphries认为其中发生的可能是一种涌现的 、隐式的推理,是在一个统计模型内部,自发地把感知、记忆与逻辑组合起来 ,而不是被专门设计成以符号方式推理,虽然他还不清楚背后的具体原理。

如果这一假设成立,Humphries认为「糖锭条目」不仅是一段了不起的转写 ,更发出了一个小而清晰的信号:模式识别开始跨越真正「理解」的界限 。

这说明大模型不仅能以人类专家级的准确度转写历史文献,也开始展示出对这些历史文献背后经济与文化系统的理解。

Humphries认为这也许揭示了另一件事的开端:机器开始能就它们所见的世界,进行真正的抽象、符号化推理。

参考资料:

https://generativehistory.substack.com/p/has-google-quietly-solved-two-of

本文来自微信公众号“新智元 ” ,作者:新智元,36氪经授权发布 。

本文来自作者[兴腾mio]投稿,不代表视听号立场,如若转载,请注明出处:https://wap.stddy.com/youxi/202511-58252.html

(69)

文章推荐

  • 欧盟只给30天时间,要求中方放开稀土出口,中方新增一道特殊禁令

    近日,欧盟方面抛出一个紧迫要求,仅给予中方30天期限,期望中方放开稀土出口。关键节点,中方在稀土行业又出台了哪些特殊管制举措?近几个月,中国对稀土出口实施管制措施后,美国出现稀土短缺状况,欧洲也陷入极度焦虑之中。欧洲汽车零部件协会发布的报告显示,当下欧洲多家汽车供应商因稀土磁体短缺,不得不暂停生产线

    2025年06月28日
    145
  • 3分钟学会“微乐辽宁麻将挂件神器(助赢神器通用版)

    软件神器超闪!微乐双扣发牌有什么规律吗(胜负规律拿好牌)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐双扣发牌有什么规律吗是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需

    2025年09月15日
    88
  • 玩家必备教程“17好友麻将有没有挂(助赢神器通用版)

    软件神器登场!琼崖手机麻将助赢神器(将怎样比较容易赢)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”琼崖手机麻将助赢神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用

    2025年09月19日
    91
  • 站桩总腰酸头晕?6个新手弯路,改对才养身

    久坐腰背炸裂的打工人,2024年10月北京五环出租屋里,小张站了七天桩把腰痛按下了暂停键,导火索是刷到哈佛说15分钟站桩能降血压比慢跑还管用。结论就一句:这套“站着不动”的老把式,现在被智能APP和医院一起背书,真香。小张原本不信,可他腰带从34缩到32那天,手机里的站桩矫正器同时跳出提示“

    2025年10月05日
    89
  • 清华大学:杨振宁先生的一生,是探索未知的不朽传奇,是心怀家国的永恒回响

    享誉世界的物理学家、诺贝尔物理学奖获得者,中国科学院院士,清华大学教授、清华大学高等研究院名誉院长杨振宁先生,因病于2025年10月18日12时00分在北京逝世,享年103岁。杨振宁先生1922年出生于安徽合肥,1929年随父母来到清华园。1938年考入西南联合大学,1942年入清华大学研究院,19

    2025年10月23日
    80
  • 鲁比奥对华180度转变,日本遭包夹,美媒:高市最怕中美做一件事

    鲁比奥表态“他对中国一直很友好”后,日本政府为什么感到慌张?高市早苗不择手段地提高防务开支,其内心深处最大的恐惧,真是“特朗普要和中国搞G2集团”?上个星期,美国国务卿鲁比奥在华盛顿表示,美国“可以在维持牢固的日美同盟的同时,也与中国进行富有成效的合作”。这是鲁比奥首次在公开场合,就日本首相高市早苗

    2025年12月23日
    40
  • 吃里扒外、永不回国?带30名演员留美不归,如今年过花甲归来

    上世纪八十年代,一则“京剧名角齐淑芳带30名演员赴美演出后滞留不归”的消息,在国内掀起轩然大波。“吃里扒外”“忘恩负义”的骂声铺天盖地,曾经的京剧新星一夜之间成了众矢之的。如今几十年过去,当年发誓“永不回国”的齐淑芳,早已年过花甲重返故土定居。这桩跨越数十年的争议事件,背后藏着怎样的真相?30人集体

    2025年12月30日
    31
  • 最敏感区域,俄军宣布开打,俄外长点了俩名字,摆明了替中国撑腰

    解放军围着台湾开火之际,俄军也宣布开打,地点相当敏感。俄外长也没藏着掖着,直接点了俩名字,摆明了是来给中国撑腰的。高市早苗解放军正在台海大规模军演之际,几乎同一时间,俄罗斯国防部宣布自2026年元旦起,在南千岛群岛举行大规模反登陆作战军事演习,而且一打就是两个月。众所周知,俄日两国在南千岛群岛的主权

    2025年12月30日
    24
  • 门头沟山顶藏“京西紫禁城”:烂尾十年,荒草里立金瓦大殿

    走到仰山顶,金瓦大殿没窗没彩绘,脚手架生锈,山风穿堂而过。琉璃瓦闪着光,人却不见了,这一停就是十来年,怎么回事?它曾是“京西第一大寺”,历史有多长仰山栖隐寺这名字,在地方志里出现了很多次。传说最早可追到北魏,算下来一千五百多年。金朝时最红火,皇帝来上香是常事,史料里写过“僧众超一万人”,那阵仗,想想

    2026年01月06日
    36
  • 北京地铁里这幕火了!姑娘蹲地20分钟干的这事,网友,细节见人品

    4月18号下午5点多,北京地铁10号线国贸站的换乘通道里,发生了一件让不少人忍不住驻足点赞的小事,没成想被路人拍下来发到网上,很快就火了。当时正是晚高峰,通道里人来人往,大家都着急赶车回家。有个穿浅紫色外套的姑娘,走着走着突然停住了,蹲在地上没起来——原来地上不知谁洒了一大片奶茶,褐色的液体顺着地砖

    2025年10月02日
    89

发表回复

本站作者后才能评论

评论列表(4条)

  • 兴腾mio
    兴腾mio 2025年11月16日

    我是视听号的签约作者“兴腾mio”!

  • 兴腾mio
    兴腾mio 2025年11月16日

    希望本篇文章《AI秒破18世纪“天书”账本,谷歌新模型盲测刷屏全网》能对你有所帮助!

  • 兴腾mio
    兴腾mio 2025年11月16日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 兴腾mio
    兴腾mio 2025年11月16日

    本文概览:最近,谷歌AI Studio上的一个神秘模型不仅成功识别了200多年前一位商人的「天书」账本,而且还修正了里面的格式错误和模糊表述,展现出的推理能力令历史学家震惊。悄悄地,谷歌...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们