百度文心一言评测：与真正的“对话式AI”还有很长距离_当前速读

您当前的位置：科技 >

2023-03-17 19:24:18 来源：手机网易网分享

3月16日下午，百度召开文心一言发布会，当天晚间，界面新闻拿到了这款大语言模型的测试邀请码，并进行了大量测试。

整体来看，百度这次略显匆忙推出的文心一言仍处于非常初级的阶段，跟“生产力”基本不搭边。无论是语义理解、持续对话、文生图还是数理推理能力，都处于比较死板的状态。

也就是说用户需要按照特定的提问方式，才能获得合格答案。它基本不允许用户自由对话，与真正的“对话式AI”还有很长距离，更像普通的搜索引擎产品，只是省略了用户自行筛选搜索答案的过程。

【资料图】

具体来说，文心一言面对单轮、简单问题时，能够直接给出答案。尤其是那些在百度搜索上能搜到的问题，文心一言会选取搜索引擎内容给予回答（并不保证正确性），在形式上做到了有问有答。

但进入多轮对话之后，文心一言的表现有明显下滑，经常“前言不搭后语”。当你对它的答案不满意，要求修订之后，文心一言经常会机械的承认错误，然后给出相同的错误答案。

百度在发布会上表示，本次发布的文心一言1.0版本包含文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成能力。

在界面新闻的测试中，这款产品的数理逻辑推算能力比较基础，面对复杂描述、需要逻辑理解的问题或者错误问题时，文心一言经常给出错误答案，并且不会纠正错误的问题。同时，该产品文生图的能力也有待加强，画风较为单一，无法根据用户的典型标签需求进行调整，甚至经常错误理解一些简单的标签。

与ChatGPT表现出的“乌鸦智能”（全球知名计算机视觉专家朱松纯教授曾说过乌鸦和鹦鹉的比喻，乌鸦具有“理解”能力，而鹦鹉的问答方式是“鹦鹉学舌”）相比，目前文心一言还停留在模仿阶段。

虽然李彦宏在发布会上将文心一言与ChatGPT直接对标，甚至对标GPT-4，但从实际体验来看，百度与微软（Open AI）的这两款产品差距极大，并不成称之为对手或者竞品。

李彦宏和王海峰也都在发布会现场承认，文心一言（1.0版本）在本次内测发布之前，并没有经过太多训练，未来需要很长时间的迭代。李彦宏主动提及，百度之所以这么快推出类ChatGPT产品，是因为内部业务团队和客户有需求。

或许是考虑到训练成本和产品成熟度问题，百度控制了本次测试的人员规模，未来文心一言的迭代效果如何，界面新闻会继续保持关注。

以下是部分测试的截图：

一、首先，提出简单的问题：《原神》和《王者荣耀》哪一个更受欢迎？

从结果来看，文心一言抓取了网络上的错误信息。首先，《王者荣耀》并没有超过51%的收入来自于中国以外的市场；其次，《王者荣耀》单款游戏第四季度收入48亿美元的信息也是错误的。此外，在答案格式上，文心一言还错误使用了“《》“。

我们点击“重新生成”按钮，希望文心一言再次回答，第二次的答案基本令人满意：

我们并没有就此停止，再次点击“重新生成”，新的答复如下：

答案引用的是2021年的旧数据，且数据本身存在不少问题。回答的内容也并不令人信服。

在另一个类似的话题结构上，文心一言的答案出现了重大失误：

上面这段答案里，错误不仅是划线的两处。这应该是文心一言在百度页面上抓取了一篇虚假内容所导致的。

在这里能明显反映出一个问题，那就是内容源的污染，会直接影响对话式AI产品的输出结果。

而有经验的网民都知道，目前在百度搜索的结果中充斥着大量不实信息和内容，如何避免它们污染文心一言大语言模型，无疑是百度在未来需要重点解决的问题之一。

据界面新闻了解，文心一言的数据来源是百度的自有生态，也就意味着它无法抓取各大app的内容。所以，移动时代的信息孤岛效应，也制约着文心一言后期的迭代效果。

再看另一个测试。发布会当天，百度的股价有明显下跌，我们向文心一言提出问题：

在涉及股价波动的问题上，它的回答基本符合预期。

二、在数理推算能力上，界面新闻向它提出了一个经典问题，并在其中去掉了一个重要条件，文心一言并未反应过来，同时给出了错误答案：

因为题干中缺少相对距离，并不能得出任何时间结果。文心一言给出的运算过程也完全错误。

在另一道基础数学题上，文心一言的表现不错：

在一个脑筋急转弯性质的数学题上，文心一言抓取了百度搜索页面的结果：

这也印证了，百度生态内部内容源的质量，能直接决定文心一言的回答质量。如何防止内容源被污染，尤为关键。

三、对于另一个颇受外界关注的文生图能力，界面新闻也做了不少测试，发现了一些问题。比如我们先是提出了一个简单需求：做一张天空的图片。

从结果来看，文心一言给出了天空+小孩的图片。在标签比较简单的时候，它生成的图片内容反而比较复杂，精准度并不高。

再看另一组文生图测试，标签为四组简单词汇，图片内容缺少两个元素。

继续展开第二轮对话，因为目前文心一言不支持修改原图，所以我们提出需求“重新画一张”，结果如下：

这是一个完全错误的答案。在多次测试中界面新闻发现，一旦对话进入多轮状态，文心一言通常会表现出力不从心的状态，无法正确理解上下文语意，再比如下面这次测试：

此外，我们还在测试中还发现，文心一样并不能准确的理解中文语意，有时理解能力甚至不如百度自家的搜索引擎，我们提出了下面的需求：

文心一样将“网红”理解为“红”（红色），对中文语意的理解本应该成为百度的优势。在这里放出百度搜索引擎的理解：

可以看出百度搜索对用户中文语意的理解能力明显正常很多。

四、在文学创作能力上，我们要求它模仿金庸和JK罗琳的风格，写一段孙悟空的故事，回答如下：

但就文本内容而言，是一段成形的故事。但两次回答的内容一字不差，可见文心一言目前做不到更深层次的文学内容理解，所以无法分辨金庸和JK罗琳的风格区别，只是将同一个模板反复套用。

考虑到它只是1.0内测版本的大语言模型，这些可以理解。

在文心一言的文案创作能力上，我们对它提出做一份《原神》和《王者荣耀》联动的宣传文案，答复如下：

我们得到了一篇比较简短标准的官方公告。鉴于我们在问题上并未给出更多限制条件，所以文案的内容也比较简单。

当我们提出要求其创作一首歌曲，名字为《只因你太美》，答复如下：

我们也让文心一言创作一篇论文，效果如下：

说实话，如果哪个大学生拿这篇论文交给老师，应该会被判不及格。北京某211大学教授新闻传播课程的教师对该结果的评价是：车轱辘话。

对于网络上很多用户喜欢的调戏式问题，我们也给文心一言准备了一些。比如下面这段完整的内容：

比如这张完全莫名其妙的图：

又比如最近半年在网络段子里热度很高的肯德基：

总体来看，如果是抱着寻求解放生产力的目的使用文心一言，那至少这个1.0版本是不合格的。如果对它抱有“未来可期”的态度，那可以继续关注百度在接下来的时间内对该产品的更新迭代。

众所周知，对大模型的投入需要克服巨大的资金和资源压力，同时也面临着商业化场景稀缺的现状，百度能否始终如一的坚持下去也值得关注。

就在今日，微软举办了一场AI发布会，宣布将推出名为Copilot的人工智能服务，它由OpenAI最新推出的GPT-4模型驱动。微软表示，它将适用于Word、PowerPoint、Excel、Outlook这些Microsoft 365商业软件，帮助用户生成文档、电子邮件以及幻灯片等。

如果微软最终将该产品大规模落地，那无疑是对生成式AI赛道的一剂强心剂，也遥遥领先于其它竞争对手，这个领域内的商业竞争才刚刚起步。

关键词：

>>返回频道首页

返回本网站首页

[责任编辑：ruirui]

世界快看：电厂｜汽车降价潮背后：新能源加速淘汰燃油车消费者持币观望(2023-03-17)
百度文心一言评测：与真正的“对话式AI”还有很长距离_当前速读(2023-03-17)
字节跳动11周年梁汝波内部发言：我们最近一两年的领先不明显了-看点(2023-03-17)
我国成功发射高分十三号02星_前沿热点(2023-03-17)
全球百事通！小鹏四季度营收51.4亿元，汽车交付量为22204辆(2023-03-17)
世界快看：电厂｜汽车降价潮背后：新能源加速淘汰燃油车消费者持币观望(2023-03-17)
百度文心一言评测：与真正的“对话式AI”还有很长距离_当前速读(2023-03-17)
Clark Well Capital Ltd（汇佳资本）全方位的金融投资服务佼佼者(2023-03-17)
每日观点：东方白鹳首次现身吉林天桥岭林区(2023-03-17)
攀枝花一女子错把邻居家装修了，结局迎来温馨反转(2023-03-17)
世界速看：辽宁省发布促进高校毕业生就业创业政策清单(2023-03-17)
字节跳动11周年梁汝波内部发言：我们最近一两年的领先不明显了-看点(2023-03-17)
我国成功发射高分十三号02星_前沿热点(2023-03-17)
全球百事通！小鹏四季度营收51.4亿元，汽车交付量为22204辆(2023-03-17)
天天播报:共享充电宝又贵又慢，充电30分钟电量仅20%，怪兽90分钟才充电40%(2023-03-17)
守正创新·笃定前行| “2023乳腺疾病诊疗高峰论坛”4月北京等你来！(2023-03-17)
数智（AI）成长，共生牙科新格局中国牙企登陆IDS百年展(2023-03-17)
全国爱卫办等将开展第35个爱国卫生月活动(2023-03-17)
中央气象台：未来一周南方多降雨谨防次生灾害(2023-03-17)
单车最高补贴15万！成都推“史上最强汽车补贴”… 实时(2023-03-17)
环球视点！字节跳动CEO梁汝波：将增加公司透明度解决各国市场安全顾虑(2023-03-17)
跟“文心一言”聊了聊人生十大烦恼，它劝我先“深呼吸”_全球热头条(2023-03-17)
长风破浪勇拓新征程 125周年上海家化举办战略发布会(2023-03-17)
春行大运河①：再现一幅流动的“江南百景图”_要闻(2023-03-17)
【当前独家】写画“学习体验”积淀数学素养(2023-03-17)
为做好“丫丫”饲养护理和运返，中国专家已抵达孟菲斯动物园|焦点精选(2023-03-17)
天然水晶雕刻《盛世金龙》荣获2023年度天工奖金奖(2023-03-17)
当前热点-老檀说车因传播虚假信息，被判向蔚来公开道歉(2023-03-17)
AITO汽车回应展览粤B警车供试乘：通过审核获得批准-环球观焦点(2023-03-17)
马斯克星链首次推出全球互联网套餐，每月一千三百八即可带回家(2023-03-17)
英国斥资9亿英镑构建百亿亿级超算，用于构建“BritGPT”语言模型世界新资讯(2023-03-17)
遭白宫威胁出售股份，TikTok：强制出售不会解决所谓安全风险(2023-03-17)
高票当选！德地氏斩获法国2023年年度最佳品牌奖(2023-03-17)
别看长得平平无奇，高山松茸竟是女性私藏变美好物(2023-03-17)
荣耀启新！2023年初，阿里斯顿荣获三大质量奖项(2023-03-17)

热点排行

本站违法和不良信息举报联系邮箱： 58 55 973@qq.com

关于我们| 客服中心| 广告服务| 建站服务| 联系我们