评估大型语言模型在事实核查领域的效能:ChatGPT4.0表现优异,但仍有提升空间
Bard

评估大型语言模型在事实核查领域的效能:ChatGPT4.0表现优异,但仍有提升空间

这篇文章主要介绍了 Caramancion 对大型语言模型(LLM)在事实核查领域的应用能力进行了研究和评估。研究发现,LLM 在处理真实新闻项目时表现良好,但在处理虚假新闻项目时存在局限性。特别是 ChatGPT 4.0 在事实核查任务上显著优于其他知名 LLM。此外,人类事实核查员仍然优于所有评估的主要 LLM。未来研究计划将集中在如何利用人工智能技术的同时不忽视人类的认知能力,以改进测试协议和探索新的 LLM。
谷歌AI聊天机器人Bard取消等待名单,新增多语言支持、GoogleDocs和Gmail集成、视觉搜索和深色模式等功能
Bard

谷歌AI聊天机器人Bard取消等待名单,新增多语言支持、GoogleDocs和Gmail集成、视觉搜索和深色模式等功能

谷歌在“谷歌I/O”开发者大会上宣布,其AI聊天机器人Bard将取消等待名单并添加多项新功能,包括支持新语言、 easier text export to Google Docs and Gmail、visual search 和深色模式等。此外,谷歌也发布了最新的PaLM 2人工智能语言模型,Bard正在使用该模型以提高回答的准确度和可用性。