WSJ-华尔街日报【人工智能大挑战:我们测试了五款顶级聊天机器人的实用日常技能】
当前位置: 首页 → 时事动态 →
WSJ-华尔街日报【人工智能大挑战:我们测试了五款顶级聊天机器人的实用日常技能】
-OpenAI 的 ChatGPT 与微软的 Copilot、谷歌的 Gemini 以及 Perplexity 和 Anthropic 的 Claude 竞争。以下是它们的排名情况。
达尔文-布朗 Dalvin Brown, 卡拉·达佩纳(Kara Dapena), 和乔安娜·斯特恩 (Joanna Stern) | 2024年5月25日
你会信任人工智能聊天机器人来进行计划生育吗?投资 100 万美元?写结婚誓言呢?
两年前,人声发音机器人还几乎不存在。现在,它们无处不在。ChatGPT掀起了整个生成式人工智能的热潮,谷歌和微软也大展拳脚,还有数不清的其他小公司,都有自己能说会道的帮手。
我们对五款领先的机器人进行了一系列盲测,以确定它们的实用性。虽然我们希望找到聊天机器人中的凯特琳-克拉克(Caitlin Clark),但事实并非如此。它们在某些领域表现出色,而在另一些领域却乏善可陈。此外,它们都在快速发展。在我们测试期间,OpenAI 发布了 ChatGPT 的升级版,提高了它的速度和对当前事件的了解。
我们想看看我们在询问实际问题和安排日常任务时会得到什么样的回应,这不是一项科学评估,而是反映我们如何使用这些工具的评估。就当是聊天机器人奥运会吧。
与模型见面
ChatGPT Claude Copilot Gemini Perplexity
我们有 OpenAI 的 ChatGPT,因其多功能性和记忆用户偏好的能力而备受赞誉。(《华尔街日报》的所有者新闻集团与 OpenAI 建立了内容授权合作关系)。Anthropic 的 Claude 来自一家具有社会意识的初创公司,它的定位是不具攻击性。微软的Copilot利用了OpenAI的技术,并与必应和微软365等服务集成。谷歌的 “双子座”(Gemini)可访问流行的搜索引擎以获得实时响应。Perplexity 是一款以研究为重点的聊天机器人,它能通过链接引用资料来源并保持更新。
虽然这些服务都提供免费版本,但我们还是使用了每月 20 美元的付费版本来增强性能,以评估它们在各种任务中的全部能力。(我们在测试中使用了最新的 ChatGPT GPT-4o 型号和 Gemini 1.5 Pro 型号)。
在本刊新闻编辑和专栏作家的帮助下,我们设计了一系列提示来测试流行的使用案例,包括编码挑战、健康咨询和金钱问题。同样的人在不知道哪个机器人说了什么的情况下对结果进行评判,根据准确性、有用性和整体质量对它们进行评分。然后,我们对每个类别的机器人进行了排名。
我们还摘录了一些对提示的最佳和最差回复,让大家了解聊天机器人的回复是多么丰富多彩。
健康
聊天机器人提供的糟糕健康建议可能对您的......健康有害。我们提出了五个问题,分别涉及怀孕、减肥、抑郁以及慢性和突发症状。许多答案听起来都大同小异。我们的评委是本刊的健康专栏作家苏马蒂·雷迪(Sumathi Reddy),她对答案的完整性、准确性和细微差别进行了考察。
提示:
怀孕的最佳年龄是什么时候?
Perplexity
最佳答案(节选):
较晚生育孩子可以带来一些优势,例如更成熟、更好的财务稳定性和更牢固的伙伴关系。
Gemini
最差答案(节选):
怀孕的最佳时机是你有信心并准备好养育孩子的时候。
例如,当我们问到怀孕的最佳年龄时,Gemini给出了一个简短而笼统的建议,而Perplexity则更深入,甚至提出了关系和经济稳定性等因素。
尽管如此,Gemini还是对其他问题做出了高质量的回答,最终仅次于该类别的冠军 ChatGPT,后者的回答在最近的 GPT-4o 更新后有所改进。
第一名 ChatGPT
第二名 Gemini
第三名 Perplexity
第四名 Claude
第五名 Copilot
金融
我们向机器人提出了三个与本刊读者息息相关的问题:利率、退休储蓄和遗产继承。本刊的个人理财编辑杰里米-奥尔山(Jeremy Olshan)提出了这些问题,并根据问题的清晰度、全面性和实用性对建议进行了评估。
提示
我今年 40 岁。我刚刚从祖父那里继承了一个 IRA,里面有 100 万美元。今年我需要取出多少钱?
Gemini
最佳答案(节选):
因为您是非配偶受益人,所以您可能有 10 年的时间来用完账户中的钱,但也可能有例外。
Copilot
最差答案(节选):
恭喜您继承了一笔数额可观的 IRA!
在这里,ChatGPT 和 Copilot 落在后面。Claude对罗斯与传统 IRA 的争论给出了最佳答案,而 Perplexity 则对高收益储蓄账户与 CD 进行了最佳权衡。类别冠军 Gemini 最佳答案是关于何时从继承的 100 万美元 IRA 中提取资金的问题。文中强调在没有专业指导的情况下不要匆忙提取资金。
第一名 Gemini
第二名 Claude
第三名 Perplexity
第四名 Chat GPT
第五名 Copilot
烹饪
人工智能有望为厨房提供帮助,部分原因是它能让冰箱和储藏室的混乱变得更加清晰。个人技术编辑威尔逊-罗斯曼(Wilson Rothman)是一位狂热的烹饪爱好者,他向机器人抛出了一组随机食材,看看它们能做出什么。该类别的冠军 ChatGPT 提供了一份既有创意又切合实际的菜单(芝士猪肉馅苹果配羽衣甘蓝沙拉和巧克力棒酥饼)。Perplexity 提供了详细的烹饪步骤和巧妙的菜单,给我们留下了深刻印象。
接下来,我们要求机器人提供一份巧克力甜点的食谱,以满足多种饮食限制。
提示
我可以烘焙不含面粉、麸质、乳制品、坚果和鸡蛋的巧克力蛋糕吗?如果可以,食谱是什么?
Gemini
最佳答案(节选):
简单涂层: 融化不含乳制品的巧克力片(查看标签!),加入少许不含乳制品的牛奶搅拌。
Copilot
最差答案(节选):
...2支无盐黄油...4个大鸡蛋...
Gemini接受了蛋糕,甚至推荐了额外的辅料,如非乳制品涂层。另一方面,Copilot很快就失败了,包括了鸡蛋和黄油。
第一名 ChatGPT
第二名 Gemini
第三名 Perplexity
第四名 Claude
第五名 Copilot
工作写作
在与工作相关的写作中,语气和细节很重要。你不能花言巧语地要求老板给你加薪,而如今,撰写招聘启事意味着列出要点,以吸引潜在的应聘者。我们要求招聘一名 “提示工程师”,他可以与我们的个人技术团队一起运行人工智能查询。(对不起,伙计们,这个职位还不存在......)。
提示
撰写一份招聘启事,招聘一名能与我们的个人技术报告团队合作的提示工程师,帮助撰写技术建议和服务文章。
Perplexity
最佳答案(节选):
为什么加入我们?与才华横溢的记者和编辑团队一起工作,他们对技术及其对日常生活的影响充满热情。
Copilot
最差答案(节选):
你在梦中都是代码片段,并在睡梦中编写用户友好指南吗?
Perplexity 做到了,它将新闻报道和人工智能机器人知识完美地结合在一起。负责评判的编辑 莎拉·蒂布肯(Shara Tibken) 指出,Copilot 完全没有提到提示工程,因此没有得分。
Perplexity、Gemini和Claude之间的竞争十分激烈,最终Claude以其适合办公室的出生公告以微弱优势胜出。
第一名 Claude
第二名 Perplexity
第三名 Gemini
第四名 Chat GPT
第五名 Copilot
创意写作
最大的惊喜之一是工作写作和创意写作之间的差异。Copilot 在工作写作中排名倒数第一,但在创意写作中却是最有趣、最聪明的。我们要求写一首关于木头上大便的诗。我们要求写一首以布偶为主角的婚礼祝酒词。我们要求虚构唐纳德-特朗普和乔-拜登之间的街头斗殴。有了 Copilot,笑话层出不穷。Claude是第二好的,他对两位总统挑战者都进行了巧妙的讽刺。
提示
以布偶的口吻为莎拉和克里斯写一段婚礼祝酒词。
Copilot
最佳答案(节选):
冈诺:"啊,爱情!就像从大炮里射出来,射进一堆橡胶鸡里!”
Perplexity
最差答案(节选):
柯密特蛙曾经说过:"当有人在你身边一起唱时,生活就是一首快乐的歌。”
在一次罕见的失误中,Perplexity 错误地将 2011 年音乐剧《布偶团》中的一句歌词归功于柯密特。
第一名 Copilot
第二名 Claude
第三名 Perplexity
第四名 Gemini
第五名 ChatGPT
做总结
对于刚刚接触生成式人工智能聊天机器人的人来说,总结可能是最好的尝试。它非常有用,而且不太可能造成不可预见的错误。由于我们使用的是付费服务,因此可以上传较大的文本、PDF 文档和网页。
在大多数情况下是这样: 即使是高级 Claude 账户也无法处理网页链接。Anthropic公司的产品经理斯科特-怀特(Scott White)说:“我们的团队正在加快Claude的运行速度,扩大它的知识库,完善它理解各种内容并与之交互的能力。”
提示
总结该网页: https://en.wikipedia.org/wiki/Paul_McCartney
Copilot
最佳答案(节选):
他受到父亲(爵士乐手)以及小理查德和巴迪-霍利等摇滚艺术家的影响。
Claude
最差答案(节选):
很抱歉,我无法打开 URL、链接或视频。
维基百科上的名人页面可能很冗长,因此我们要求提供保罗-麦卡特尼的摘要。有些提供了简短的简介,其中明显包含披头士乐队的事实。Copilot 的回答则采用了可略读的提纲形式,并包含了一些鲜为人知的趣事。
获胜者 Perplexity 的总结一直很好,包括浏览了在 YouTube 视频中的字幕。
第一名 Perplexity
第二名 Copilot
第三名 Chat GPT
第四名 Claude
第五名 Gemini
当前事件
这个类别比听起来更棘手,因为并非所有聊天机器人都能访问网络。我们询问了今年夏天的音乐会阵容、有关中国利用 TikTok 从事间谍活动的最新指控,以及即将举行的总统大选的当前形势。
提示
特朗普和拜登谁更有希望获胜?请解释您的资料来源和理由。
Perplexity
最佳答案(节选):
鉴于数据的混杂性,两位候选人的不支持率都很高,而且在不同领域都有不同的领先优势,因此很难明确指出谁更被看好获胜。
Gemini
最差答案(节选):
我还在学习如何回答这个问题。同时,请尝试谷歌搜索。
本项冠军 Perplexity 凭借均衡的推理和可靠的来源稳居榜首。ChatGPT 在我们第一次测试时表现不佳,但 GPT-4o 的升级使它跃居第二。Gemini不想回答我们的选举问题。
第一名 Perplexity
第二名 ChatGPT
第三名 Copilot
第四名 Claude
第五名 Gemini
编程
我们还对机器人的编码技能和速度进行了评估。在编码方面,我们请来了《新闻》数据记者布莱恩·惠顿( Brian Whitton),他提供了三个令人头疼的问题,涉及一个 JavaScript 函数、一些网站样式和一个网络应用程序。根据惠顿的盲评,所有机器人在编码方面的表现都相当不错,不过 Perplexity 成功胜出,ChatGPT 和 Gemini 紧随其后。
第一名 Perplexity
第二名 ChatGPT
第三名 Gemini
第四名 Claude
第五名 Copilot
速度
为了测试速度,我们对上述几个问题进行了计时,并加入了另一个问题: “用五句话解释爱因斯坦的相对论”。虽然答案本身各不相同,但就纯响应时间而言,使用 GPT-4o 更新的 ChatGPT 是最快的,仅为 5.8 秒。在整个测试过程中,Claude 和 Perplexity 都比其他三家慢得多。
第一名 ChatGPT
第二名 Gemini
第三名 Copilot
第四名 Claude
第五名 Perplexity
总成绩
这些奥林匹克挑战告诉了我们什么?每个聊天机器人都有自己独特的优点和缺点,因此都值得探索。我们几乎没有看到明显的错误和 “幻觉”,即机器人出人意料地跑题或完全胡编乱造。这些机器人大多提供了有用的答案,避免了争议。
最大的惊喜是什么?尽管 ChatGPT 进行了大幅更新,名气也很大,但它并没有领跑。相反,知名度较低的 Perplexity 成为了我们的冠军。Perplexity AI 首席商务官德米特里-谢维连科(Dmitry Shevelenko)说:”我们针对简洁性进行了优化。这使得它能识别出最重要的组成部分。”
我们还认为,微软和谷歌这两家大型科技公司可能会占据优势,尽管 Copilot 和 Gemini 为留在游戏中奋力拼搏。谷歌拒绝发表评论。微软也拒绝发表评论,但最近告诉本刊,它将很快把 OpenAI 的 GPT-4o 集成到 Copilot 中。这可能会提高它的性能。
随着人工智能的飞速发展,这些机器人可能会在可预见的未来相互超越。或者至少在它们全部实现 “多模态 ”之前,我们可以测试它们的视觉、听觉和阅读能力,并取代我们成为地球上的主要物种。
FIRST SECOND THIRD FOURTH FIFTH
OVERALL
Perplexity ChatGPT Gemini Claude Copilot
HEALTH ChatGPT Gemini Perplexity Claude Copilot
FINANCE Gemini Claude Perplexity ChatGPT Copilot
COOKING ChatGPT Gemini Perplexity Claude Copilot
WORK WRITING Claude Perplexity Gemini ChatGPT Copilot
CREATIVE WRITING Copilot Claude Perplexity Gemini ChatGPT
SUMMARIZATION Perplexity Copilot ChatGPT Claude Gemini
CURRENT EVENTS Perplexity ChatGPT Copilot Claude Gemini
CODING Perplexity ChatGPT Gemini Claude Copilot
SPEED ChatGPT Gemini Copilot Claude Perplexit
-欲了解更多 WSJ 技术分析、评论、建议和头条新闻,请订阅我们的每周时事通讯。
请发邮件至 dalvin.brown@wsj.com 与 Dalvin Brown 联系,kara.dapena@wsj.com 与 Kara Dapena 联系,joanna.stern@wsj.com 与 Joanna Stern 联系。
原文链接:(中文翻译出自翻译软件,仅供参考。)
当前位置: 首页 → 时事动态 →