过去几年,强大的生成式AI模型的兴起引发了许多企业试图利用AI取代人类工作的故事。但《纽约时报》最近的一篇报道强调了硬币的另一面,即大模型只是成为一种强大的工具,帮助完成仍然需要人类独特技能的工作。
《纽约时报》的这篇文章根本不直接涉及AI。正如标题《特朗普选举谎言背后的运动内部》所暗示的那样,这篇文章实际上详细报道了表面上无党派的选举诚信网络如何“与特朗普控制的共和党全国委员会密切配合”。这篇文章引用并分享了该组织成员抱怨“左派”操纵选举的录音,谈论了“让民主党处于守势”的努力,并敦促听众帮助共和党进行投票行动。
《泰晤士报》表示,为了报道这篇文章,它筛选了过去三年选举诚信网络每周会议中的“超过 400 小时的对话”,以及“其他文件和培训材料”。浏览如此庞大的信息库令人畏惧,即使对于这篇文章的记者团队来说也是如此。这就是为什么《纽约时报》在这篇文章附带的注释中表示,它“使用AI来帮助识别视频中特别突出的时刻”进行报道。
让机器转录一切
该说明称,第一步是使用自动化工具转录视频,生成一组“总计近 500 万字”的文字记录。目前这并不是AI的大胆新用途——《纽约时报》本身早在 2019 年就曾撰写过有关 Otter.ai 的自动转录工具的文章。
不过,如果您上次使用AI转录的经验已经很老了,那么您可能不知道机器转录的质量和准确性取得了多大的进步。 Wirecutter 的自动转录服务更新指南指出,它在 2018 年测试的最好的AI转录服务的准确率仅为 73%,而他们在 2024 年测试的最差的AI转录服务的准确度为 94%。此外,Wirecutter 指出,当前最好的系统,例如OpenAI 的 Whisper ,“比最不精确的人工转录更准确”。
如果您没有秘书可以为您进行音频转录,那么 AI 工具现在可以作为一个非常好的替代品。 图片来源:Getty Images
对于那些以速记为生的人来说,这种快速的进步绝对是个坏消息。但对于像《纽约时报》这样的记者来说——他们现在可以以低得多的成本快速准确地转录数百小时的音频——这些AI系统现在只是报道工具箱中的另一个重要工具。
把分析交给我们?
自动转录完成后,《纽约时报》记者仍然面临着阅读 500 万字转录文本以挑选相关的、可报道的新闻的艰巨任务。为了做到这一点,该团队表示,它“采用了几种大模型”,这让他们可以“在文字记录中搜索感兴趣的主题,寻找著名的嘉宾并识别重复出现的主题。”
总结复杂的文档集和识别主题长期以来一直被认为是大模型最实际的用途之一。例如,去年,Anthropic 宣传了其 Claude模型的扩展语境窗口,展示了其吸收《了不起的盖茨比》整个文本的能力,并“然后交互式地回答有关它的问题或分析其含义”,正如我们所说的那样。时间。
不过, LLMs的文本分析能力存在重要限制。例如,今年早些时候,澳大利亚政府的一项研究发现,Meta 的 Llama 2 在总结公众对政府调查委员会的反应方面比人类差得多。
澳大利亚政府评估人员发现,AI 摘要通常“冗长且毫无意义——只是重复提交的内容”。 图片来源:Getty Images
总体而言,该报告发现AI摘要“分析和总结复杂内容的能力有限,需要深入理解上下文、微妙的细微差别或隐含的含义”。更糟糕的是,Llama 摘要经常“生成语法正确的文本,但有时实际上不准确”,凸显了此类工具固有的虚构问题。
LLM /人类混合记者
这些重要的限制凸显了为什么让人类参与这里的分析过程仍然很重要。 《纽约时报》指出,在询问其LLMs以帮助识别“感兴趣的主题”和“重复出现的主题”后,其记者“然后手动审阅每一段文章,并使用我们自己的判断来确定每个剪辑的含义和相关性......每一句话本文中的会议视频片段与原始录音进行了检查,以确保其准确、正确地表达了演讲者的意思并公平地代表了演讲的背景。”
通过使用LLMs和人工分析的混合方法,《纽约时报》能够利用双方的优势并限制双方的弱点。 LLMs拥有快速消化和整理大量信息的能力,提供了非常有用的第一遍,可以挑选出潜在相关的录音供记者分析。这些记者反过来对LLM捏造“事实上不准确”信息的倾向提供了重要的检查,并帮助提供“对背景、微妙的细微差别或隐含含义的深刻理解”,而澳大利亚政府发现LLMs通常无法做到这一点。
在这里,生成式AI的作用有点类似于猎犬,为它们的人类主人指出可能有趣的食物。但自动化的LLMs并不像担任这些角色的动物那样可靠,因此人类仍然需要仔细检查所出现的结果是否相关和/或准确。
对于过去这样的大规模报告任务可能需要的人类转录员和研究人员来说,这种类比可能不太令人安慰。尽管如此,对于现在可以快速自动化大部分此类研究的记者来说,生成式AI已经被证明是另一种有用的数字工具。