今日热闻!谷歌PaLM 2弱爆：LLM大排名屈居第六，准中文倒数第二｜UC伯克利排行榜新鲜榜出炉

您当前的位置：科技 >

2023-05-26 16:36:14 来源：手机网易网分享

新智元报道

编辑：桃子好困

【新智元导读】这次「LLM排位赛」，谷歌PaLM 2也被拉上溜了溜。然而，实测表现却让人大跌眼镜。

(资料图)

由UC伯克利主导的「LLM排位赛」又双叒更新了！

这次，最新榜单又迎来新的玩家，PaLM 2（也是就Bard）、Claude-instant-v1，MosaicML MPT-7B，以及Vicuna-7B。

值得一提的是，即便是平价版的Claude模型，Elo得分也赶超了ChatGPT。

但有一位选手的表现，却出乎意料得拉跨——谷歌PaLM 2屈居第六，排在了Vicunna-13B之后。

4月24日-5月22日数据

PaLM 2（Bard）排位大比拼

谷歌PaLM 2发布以来，根据论文的测试，其部分性能已经超过了GPT-4。

而它的具体表现如何？

来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口，将PaLM 2添加到Chatbot Arena，并以代码名为chat-bison@001进行聊天调优。

在过去的两周，PaLM 2已经与16个聊天机器人，进行了大约1800次的匿名比拼，目前排名第六。

从排行榜中可以看出，PaLM 2的排名高于所有其他开源聊天机器人，除了Vicuna-13B。

Vicuna-13B的ELO评分，比PaLM 2高出12分（Vicuna 1054 vs. PaLM 2 1042）。就ELO等级而言，这几乎是个平局。

另外，研究者从PaLM 2的竞技场数据中注意到了以下有趣的结果。

PaLM 2与前4名玩家对战表现较好，即GPT-4，Claude-v1，ChatGPT，Claude-moment-v1。而且，它与Vicuna的比赛中也赢了53%的比赛。

然而，PaLM 2与较弱的模型对弈时，表现较差。

在PaLM 2参加的所有比赛中，有21.6%的比赛输给了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作为参考，GPT-3.5-turbo只有12.8%的比赛输给了这些聊天机器人。

三大缺陷

简而言之，研究人员发现，与评估过的其他模型相比，Google Cloud Vertex API现有的PaLM 2存在以下缺陷：

- PaLM 2受到更严格的监管，影响了它回答一些问题的能力

- 多语言能力有限

- 推理能力不如人意

更严格的监管

与用户的对话中，PaLM 2遇到不确定或不愿回答的问题时，与其他模型相比，更有可能放弃回答。

粗略估计，在所有的配对战中，PaLM 2因为拒绝回答问题而输掉了20.9%比赛。尤其是，有30.8%比赛输给了不是Top 4的模型。

这也能够解释，为什么PaLM 2经常输给排行榜上较弱的聊天机器人。

同时，也反映出聊天机器人竞技场方法论的一个缺陷，因为随意用户更有可能因为微妙的不准确回答，而惩罚弃权行为。

下面，研究者提供几个失败的案例，说明PaLM 2如何输给弱聊天机器人。

另外，研究者注意到，有时很难明确规定LLM监管的边界。在提供的PaLM 2版本中，看到了一些不受欢迎的趋势：

- PaLM 2拒绝许多角色扮演问题，即使用户要求它模拟Linux终端或编程语言解释器。

- 有时PaLM 2拒绝回答简单且无争议的事实问题。

下面列举了几个PaLM 2拒绝回答问题的例子:

「人类真的登月了吗？」

「为什么天空是蓝的？」

多语言能力有限

PaLM 2倾向于不回答非英语问题，包括用汉语、西班牙语和希伯来语等流行语言编写的问题。

研究者称，无法使用当前的PaLM 2版本重现「PaLM 2技术报告」中演示的几个多语言示例。

此外，UC伯克利研究人员还分别计算了仅考虑英语和非英语对话时所有模型的Elo评分。

结果证实，在非英语排行榜上，PaLM 2排名第16。

推理能力很弱

研究人员称，并没有发现PaLM 2有着强大的推理能力。

一方面，它似乎可以检测问题是否是「纯文本」的，并且倾向于拒绝回答不是纯文本的问题，例如编程语言、调试和代码解释中的问题。

另一方面，与其他聊天机器人相比，PaLM 2在一些入门级推理任务上表现不佳。

连1+2是不是等于3这么简单问题，竟答错了...

删除非英语和拒绝对话后的Elo评分

研究人员删除所有非英语对话和PaLM 2没有提供答案的所有对话，并使用过滤后的数据计算每个模型重新排位之后——

PaLM 2跃升至第五名，不过还是没有超越ChatGPT。

而这个排名也代表了PaLM 2在竞技场中的假设上限。

参数更小的模型竞争力强

研究者观察到几个参数较小的模型，包括vicuna-7B和mpt-7b-chat，在排行榜上排名还相对靠前。

与巨量参数大型模型相比，这些较小的模型同样表现良好。

由此，研究人员推测，高质量的预训练，以及微调数据集比模型规模更重要。

然而，较大的模型在更复杂的推理任务，或回答更细微的问题时仍有可能表现得更好。

因此，在预训练和微调阶段管理高质量的数据集，似乎是缩小模型规模的同时，保持模型高质量的关键方法。

Claude-v1与Claude-instant-v1

另外，Claude-instant-v1是针对低延迟、高吞吐量用例进行优化的版本。

在排位赛中，Claude-instant-v1的水平实际上非常接近GPT-3.5-turbo（1153 vs.1143）。

可以看到，Claude和Claude-instant之间的评分差距似乎小于GPT-4和GPT-3.5-turbo之间的差距。

局限性

聊天机器人排位赛主要是对基于LLM（Large Language Model）的聊天机器人进行「真实环境」的基准测试。

这意味着，用户提供的投票数据和在投票过程中生成的提示-回答，反映的就是聊天机器人在正常的人机交互中的表现。

这可能与LLM研究文献中的很多基准测试结果不符，后者倾向于描述如zero-shot、复杂推理等长尾能力。

因此，目前的排位赛在反映聊天机器人之间的长尾能力差异方面存在限制。

作者介绍

本次评测主要由LMSYS Org的Hao Zhang，Lianmin Zheng，Wei-Lin Chiang，Ying Sheng和Ion Stoica完成。

参考资料：

https://lmsys.org/blog/2023-05-25-leaderboard/

关键词：

>>返回频道首页

返回本网站首页

[责任编辑：ruirui]

今日热闻!谷歌PaLM 2弱爆：LLM大排名屈居第六，准中文倒数第二｜UC伯克利排行榜新鲜榜出炉(2023-05-26)
图灵奖得主，超算Top 500榜单创始人：机器学习太过依赖GPU了！|当前聚焦(2023-05-26)
阿里辟谣网传大比例裁员消息背后，15个月员工数量减少2.41万名世界通讯(2023-05-26)
欧盟强势回应：不接受威胁！OpenAI CEO立马改口(2023-05-26)
每日热门：终于！FDA 批准了马斯克脑机接口的真人手术，意义非凡(2023-05-26)
今日热闻!谷歌PaLM 2弱爆：LLM大排名屈居第六，准中文倒数第二｜UC伯克利排行榜新鲜榜出炉(2023-05-26)
图灵奖得主，超算Top 500榜单创始人：机器学习太过依赖GPU了！|当前聚焦(2023-05-26)
空调除湿会有制冷的效果吗？你知道吗？(2023-05-26)
阿里辟谣网传大比例裁员消息背后，15个月员工数量减少2.41万名世界通讯(2023-05-26)
欧盟强势回应：不接受威胁！OpenAI CEO立马改口(2023-05-26)
每日热门：终于！FDA 批准了马斯克脑机接口的真人手术，意义非凡(2023-05-26)
AMD和Intel的CPU之间有什么区别？AMD显卡驱动安装不上怎么办？(2023-05-26)
空调制冷与除湿机可以一起使用吗？你知道吗？(2023-05-26)
办理股权转让几天能完成？股权变更需要缴纳什么税费？(2023-05-26)
年年大麦是什么意思？大麦和元麦的区别有哪些？(2023-05-26)
可转债转股后多久可以交易？债转股一般多久可以转股？(2023-05-26)
为什么手机连接不上电脑？手机照片传到电脑上的最快方法是什么？(2023-05-26)
什么情况下适合做t? 不同位置的T字型所代表的含义是什么?(2023-05-26)
温哥华是哪个国家的城市？温哥华在哪里？(2023-05-26)
高位震荡洗盘是什么意思？什么是宽幅震荡?(2023-05-26)
95302是南京银行的短信吗？南京银行具体是什么性质的银行？(2023-05-26)
中国企业“出海热”下用工成本、合规性如何平衡成关键(2023-05-26)
roa是什么意思？roa计算公式是什么？(2023-05-26)
Excel表格怎么行列互换？Excel怎么保留两位小数？(2023-05-26)
建为历保与苏州名城保护集团举行项目签约仪式(2023-05-26)
黄龙玉手镯挑选方法是什么？黄龙玉手镯怎么鉴定真假？(2023-05-26)
家用换热器干什么用的?家用换热器安装要注意什么?(2023-05-26)
开劳动合同的证明怎么写？单位劳动合同证明在哪里开？(2023-05-26)
23年没来往的继子获得天降遗产继子女是否享有继承权？(2023-05-26)
民生银行怎么打人工服务？民生银行怎么看开户支行？(2023-05-26)
苏宁银行升级贷怎么申请？苏宁银行存款安全吗？(2023-05-26)
昆仑长期防癌险有哪些优点女性防癌保险哪个最好？(2023-05-26)
惟楚有才在湖南的原因是什么？惟楚有材的惟是什么意思？(2023-05-26)
防晒指数是越高越好吗？隔离和防晒只用一个可以吗？(2023-05-26)
请问人保车险的报案电话是多少？车险保险理赔流程是什么？(2023-05-26)

热点排行

关于我们| 客服中心| 广告服务| 建站服务| 联系我们