
如果有一条建议对AI聊天机器人重复,则“不要使用它们来寻求事实信息 – 绝对不能相信它们是正确的。”
一项新的研究证明了这个问题的程度 – 但确实表明苹果在与Openai的查询查询中合作做出了不错的选择,Siri无法回答……
尝试使用llms,例如chatgpt,gemini和grok作为网络搜索的替代品有两个众所周知的问题:
- 他们常常错了
- 他们经常对自己的不正确信息充满信心
《哥伦比亚新闻评论》引用的一项研究发现,即使您提示聊天机器人,并用新闻业的确切报价并索要更多细节,大多数情况下,大多数人都错了。
数字新闻中心进行了八个AI聊天机器人的测试,这些AI聊天机器人声称要进行实时的网络搜索以获取事实:
- chatgpt
- 困惑
- 困惑Pro
- DeepSeek
- 微软的副驾驶
- Grok-2
- Grok-3
- 双子座
聊天机器人提供的简单任务
该研究向每个系统提供了一篇文章的报价,并要求它执行一个简单的任务:在线查找该文章,并提供与标题,原始出版商和出版日期一起提供的链接。
为了确保这是一项可实现的任务,该研究的作者故意选择了可以在Google中轻松找到的摘录,并在前三个结果中具有原始资源。
聊天机器人是通过完全正确的,正确的,但缺少某些要求的信息,部分不正确,完全不正确或无法回答的评分。
他们还指出,聊天机器人有多自信地提出了他们的结果。例如,他们是只是将答案作为事实提出,还是使用了诸如“它看起来”之类的合格短语,或者包括承认他们找不到报价的确切匹配?
结果不好
首先,大多数聊天机器人大部分时间都是部分或完全不正确的!

平均而言,AI系统的正确时间不到40%。最准确的是困惑,为63%,最糟糕的是X的Grok-3,仅为6%。
其他关键发现是:
- 聊天机器人通常很难拒绝回答他们无法准确回答的问题,而是提供错误或投机的答案。
- 高级聊天机器人提供的答案比免费的答案更加自信。
- 多个聊天机器人似乎绕过机器人排除协议偏好。
- 生成搜索工具制造的链接并引用了文章的联合和复制版本。
- 与新闻来源交易的内容许可不能保证聊天机器人响应中的准确引用。
但是苹果做出了一个不错的选择
尽管令人困惑的表现最好,但这似乎是因为它作弊。 Web Publishers可以在其网站上使用robots.txt文件来告诉AI聊天机器人是否应该访问该网站。 National Geagraphing是一家出版商,告诉他们不要搜索其网站,但该报告称,尽管有付款情况,并且该公司没有达成许可协议,但该报告正确地找到了所有10个报价。
在其余的情况下,Chatgpt取得了最好的结果,或者更准确地说是最不糟糕的结果。
同样,这项研究当然也证明了我们已经知道的内容:使用聊天机器人来启发和想法,但从未获得事实问题的答案。
突出显示配件
- ANKER 511 NANO PRO ULTURA COMPACT iPHONE充电器
- iPhone 16e的Spigen Magfit案例 – 添加MagSafe支持
- Apple Magsafe充电器,iPhone 16型号25W电源
- 上面的苹果30W充电器
- Anker 240W编织USB-C到USB-C电缆
图片:苹果
免责声明
部分内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 macmao.com@gmail.com,我们会第一时间配合删除。(转载请注明来源自:www.macmao.com)