但是,根据最近的测试,这些促销主张并不总是与现实世界的表现相对应。威利斯指出:“我通常是Mistral模型的忠实拥护者,但他们上周发布的新OCR确实表现出来。”

“一位同事发送了 这个pdf 威利斯说:“问我是否可以帮助他分析桌子的分析。”这是一个旧文档,其表具有复杂的布局元素。 OCR特有的新模型(Mistral) 滥用重复城市的名称并建造许多数字。 “”

AI应用程序开发人员亚历山大·多里亚(Alexander Doria)最近也强调了XA缺陷,具有Mistral OCR了解写作, 写作“不幸的是,Mistral-Ocr总是有VLM的诅咒:由于艰难的手稿,他完全幻觉。”

根据Willis的说法,Google目前正在AI模型中进行该领域,该模型可以阅读文档:“目前,对我来说,Clear Leader是Google Gemini 2.0 Pro的实验。

双子座的表演很大程度上源于他处理宽敞文档的能力(在一种称为“上下文窗口”的短期内存类型中),这将特别指出是一个关键优势:“其上下文窗口的大小也很有用,因为我可以下载大量文档并通过零件工作。”这种能力加上对手写内容的更强大的管理,显然为Google模型提供了竞争对手在处理真实文档的实际优势。

基于LLM的OCR的缺点

尽管他们承诺,LLMS仍提出了几个新问题来处理文档。其中,他们可以引入构象或幻觉(合理但不正确的信息),意外监视文本中的说明(认为它们是用户提示的一部分),或者只是简单地误解了数据。

来源链接