文章主题:自然语言处理, 机器学习, 事实核查, LLM
站长之家7月18日消息: 大型语言模型(LLM)是自然语言处理(NLP)技术的进化,能够快速生成与人类写作相似的文本并完成其他简单的与语言相关的任务。自 OpenAI 发布高性能的 ChatGPT 之后,这些模型变得越来越受欢迎。
到目前为止,大部分关于LLM的研究都是对其在创建流畅文章、定义专业术语、撰写论文和其他文件,以及编写有用的计算机代码等方面的能力的评估。值得注意的是,这些模型实际上也具备处理现实世界中一些复杂问题的潜力,比如识别假新闻和虚假信息等。
威斯康星大学斯托特分校的研究员 Kevin Matthe Caramancion 最近进行了一项研究,评估迄今为止最知名的 LLM 能否检测新闻故事的真实性或虚假性。他在 arXiv 上发表的论文提供了有价值的见解,这可能有助于今后使用这些先进模型来对抗在线的错误信息。
Caramancion最近向Tech Xplore表示,他的论文灵感源于对各种LLM在识别和应对错误信息能力上的研究和探索。为了评估这些模型在区分真实信息和虚假信息方面的表现,Caramancion计划采用一种受控模拟方法,并结合现有的事实核查机构作为参照标准,对这些模型进行深入严谨的测试。
Caramancion 阐述,他们采用了包含100个经过独立事实核查机构验证的新闻项目作为评估标准,以此衡量各类大型语言模型的性能表现。在这些新闻项目中,他们会在受控环境下展示给模型,并对其回应进行「真实」、「虚假」以及「部分真实/虚假」的分类。通过与独立机构所提供的核实事实进行比对,从而对模型的有效性进行 quantifiable 的衡量。
在互联网与社交媒体的飞速崛起之下,真实或虚假的信息错误已经成为了近几十年来的一大挑战。为了应对这一问题,众多计算机科学家不断努力研发更为出色的 fact-checking 工具和平台,以便于广大用户在网上获取到的信息得以得到核实。
虽然至今已开发和验证了众多事实核查工具,但尚未出现广泛认可且可靠的方法来对抗错误信息。在此项研究中,Caramancion 致力于评估现有语言模型在应对全球性问题的有效性。
他具体评估了四个 LLM 的性能,分别是 OpenAI 的 ChatGPT-3.0 和 ChatGPT-4.0、Google 的 Bard/LaMDA 和微软的 Bing AI。Caramancion 给这些模型提供了相同的事实核查过的新闻故事,然后比较它们在确定故事的真实性、虚假性或部分真实/虚假性方面的能力。
Caramancion 表示:「我们对主要 LLM 的区分事实和虚构能力进行了比较评估。我们发现 OpenAI 的 GPT-4.0 表现最佳,这暗示了较新的 LLM 的进步。然而,所有模型都落后于人类事实核查员,强调了人类认知不可替代的价值。这些发现可能导致更加关注开发用于事实核查的人工智能能力,同时确保与人类技能的平衡、共生整合。」
Caramancion 的评估结果显示,ChatGPT 4.0 在事实核查任务方面显著超越其他知名的语言模型。为了确认这一发现,对更多虚假新闻的测试研究可能会产生重要的影响。
经过研究,我们发现人类事实核查员在准确性方面仍优于目前所评估的所有主要语言模型(LLM)。这一发现突显了在将这类技术应用于事实核查任务时,需要对现有模型进行进一步优化和改进,甚至考虑将它们与人类工作者结合使用的可能性。
Caramancion 进一步表示:“关于我未来的研究计划,我将主要聚焦于人工智能能力的进步,并关注如何充分利用这些成果,同时不忘人类所具有的独特认知能力。我们的目标在于优化我们的测试方案,探索新的语言模型,并深入研究在新闻真实性问题验证领域中,人类认知与人工智能技术之间的互动关系。”
自然语言处理, 机器学习, 事实核查, LLM
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!