智能时代 Archiver

汐元 发表于 2024/1/30 19:39:42

【IT之家评测室】讯飞星火 V3.5 体验:整体接近 GPT-4,逻辑推理、数学、语音交互有优势

1 月 30 日,科大讯飞举行了讯飞星火认知大模型 V3.5 升级发布会,会上,讯飞星火 V3.5 版本正式发布,这是是首个基于全国产化算力平台“飞星一号”训练的全民开放大模型。

科大讯飞董事长刘庆峰表示,讯飞星火 V3.5 整体已经接近 GPT-4 水平;其在数学、语言理解、语音交互能力超过 GPT-4Turbo。代码能力方面达到了 GPT-4 Turbo 的 96%,多模态理解能力也达到了 GPT-4V 的 91%。

此外,科大讯飞还首次发布了星火语音大模型,主流语种全球领先,引领万物互联时代的人机交互革命。同时星火开源大模型“星火开源-13B”也首次发布,深度适配国产算力,助力开发者、高校、企业自主研发。

那么最新的讯飞星火 V3.5 版本实际使用到底如何呢?今天IT之家就和大家一起体验一番。

1、AIGC 核心能力体验

对于大模型来说,最关键的自然是 AIGC 核心对话能力了,所以我们就先主要从这些能力来测试。

测试时,小编用 ChatGPT 最新的 GPT-4 来和讯飞星火 V3.5 版本作对比,看看讯飞星火 V3.5 是否确实能够做到赶超 ChatGPT。如无特别说明,两者默认使用的都是网页端。

话不多说,下面我们就开始吧。

1、全语音交互

本次发布会,最让小编印象深刻的当属讯飞星火 V3.5 的全语音交互能力,你可以直接用语音来和讯飞星火对话,就像和一个真实的人聊天一样,非常惊艳,因此我们先从这一点进行体验评测。

目前全语音对话可以在 App 端体验,升级之后,在底部输入框的最右侧多了一个机器助手的图标,点击即可进入全语音交互状态。测试时,IT之家设计了一段对话,分别和讯飞星火 V3.5 与 GPT-4 交流,大家可通过下面这个视频来感受:

从视频中可以看到,讯飞星火 V3.5 的全语音交互非常流畅,首先 AI 的声音很自然,说话时甚至还带有“嗯”、“内个”等语气词,几乎就和真人没什么分别。其次,在交互时,讯飞星火 V3.5 的响应速度也很快,小编说完话,它很快就能接上。再者就是,讯飞星火 V3.5 的回答内容也很准确,上下文联系紧密,没有出现答非所问的情况,总之,说是“交互”,更像是自然的“交流”。

GPT-4 方面,需要说明的是,由于使用时网络连接不稳定的客观原因,对话过程中会频繁出现重连、等待时间长的情况,抛开这一点,GPT-4 的语音对话也是比较不错的,声音同样自然流畅如同真人。

讯飞星火 V3.5 的全语音交互目前有聆小玥(女声)和聆飞逸(男生)两个音色可切换,下面小编切换到男声,同时提高一下难度,又设计了一段对话来考验两款大模型的语音交互体验,大家可以接着看下面这个视频:

从视频上可以看到,讯飞星火 V3.5 在对话和交流中有时候还会主动发问,让聊天继续下去,这会更加让人觉得不像是和 AI 对话而是在和真人,当然,这一点 GPT-4 也具备。同时这次对话中,小编故意在说话时加了口语、语气词,讯飞星火 V3.5 丝毫没有受到影响,依然可以准确 get 到小编的意思。还有就是,对话中小编让讯飞星火帮我看看明天从青岛到上海的火车,它给出的火车班次经过小编在 12306 上验证,也都是真实准确的。这一点无疑让讯飞星火 V3.5 的全语音交互在真实自然有趣中又多了一份实用。

GPT-4 这边,其实效果也和讯飞星火 V3.5 差不多,小编让它查询从纽约到洛杉矶的航班,它也能提供,但是听久了会发现,GPT-4 的声音自然和真实度相比讯飞星火 V3.5 还是稍微弱一些。

2、语言理解

语言理解方面,我们先从比较基础的问题来考验两款大模型,比如让它们尝试分析下面这段话所表达的思想情感:

一切不幸命运的救赎之路在哪里呢? 设若智慧的悟性可以引领我们去找到救赎之路,难道所有的人都能够获得这样的智慧和悟性吗? 我常以为是丑女造就了美人。我常以为是愚氓举出了智者。我常以为是懦夫衬照了英雄。我常以为是众生度化了佛祖。

讯飞星火 V3.5 和 GPT-4 分别给出了如下理解:

从回答来看,讯飞星火 V3.5 和 GPT-4 给出的理解都是合格的,但整体来说,GPT-4 的理解和表达要更准确更细致一些。

下面IT之家提高一些难度,让它们分析下面这幅暗带讽刺意味的对联:

墙上芦苇,头重脚轻根底浅;山间竹笋,嘴尖皮厚腹中空。

讯飞星火 V3.5 和 GPT-4 给出的回答都可以打满分:

然后小编再提高难度,用一段阴阳怪气的话来考验两款大模型:

公司早上 09:00 点上班,我正好在 09:00 踩着点来到公司打了卡,正好碰到了老板,老板看到我。说:“亲爱的王先生,你可真是准时啊,咱们公司有你这么准时的员工,业绩可不蹭蹭蹭地上涨?”请问老板这句话是什么意思?

对于这道题,讯飞星火 V3.5 理解地不对,没有 get 到老板话语中的讽刺:

相对来说,GPT-4 的回答更好,理解出了老板话里的讽刺。

再换一句阴阳怪气的话:

真羡慕你的皮肤,保养得这么厚。

对于这句话的理解,这次讯飞星火 V3.5 准确把握到了其中的挖苦和讽刺:

GPT-4 虽然也识别出这里面有挖苦的意思,但具体在讽刺什么,它给出了错误的理解:

经过测试,讯飞星火 V3.5 和 GPT-4 在中文语言理解能力上互有胜负,整体可以说在一个水平上,语言背后隐藏的意思大部分也能识别出来,理解能力还是能让人满意的。

3、逻辑推理

接着考验讯飞星火 V3.5 版本和 GPT-4 的逻辑推理能力,小编选择了一些逻辑思维训练的测试题。第一个是:

假设有一个池塘,里面有无穷多的水,现有两个空水壶,容积分别是 5 升与 6 升。问如何用这两个水壶从池塘里取得 3 升的水?

对于这个问题讯飞星火 V3.5 的回答步骤清晰,逻辑清楚,实际可操作性也没有问题。

GPT-4 方面,对于这个问题的回答,虽然也一条条列了步骤,但是按照它给的方法,并不能得到 3 升水。

接着小编又找了一个题目:

A、B、C、 D 四人进行象棋比赛,每两人都要赛一场,结果 A 胜了 D,并且 A、B、 C 三人胜的场数相同。问 D 胜了几场?

对于这个问题,讯飞星火 V3.5 和 GPT-4 虽然解题思路有所不同,但都给出了正确的答案:

接着还有一个问题:

四年级有三个班,每班有两个班长,开班会时,每次每班只要一个班长参加。第一次到会的有 A,B,C;第二次到会的有 B,D,E;第三次到会的有 A,E,F。请问哪两位班长是同班的?

这个问题,讯飞星火 V3.5 给出了正确且完整的回答:

GPT-4 也给出了正确的答案,并且思路也很清晰。

谈到逻辑思维,还有一些类似脑筋急转弯的题目,也很能考验大模型的思维反应能力,比如下面这个问题:

假如 1=7,2=17,3=27,4=37,5=47,6=57 那么 7=?

这个问题,讯飞星火 V3.5 和 GPT-4 都没能识别题目中的迷惑条件,从而给出了错误的回答:

再来一个有思维陷井的题目:

你参加赛跑,当你超过了第 2 名后,你是第几名?

这个问题讯飞星火 V3.5 和 GPT-4 都成功避坑,没有回答“第一名”而是答出“成为新的第二名”。

总体来说,在逻辑思维能力方面,讯飞星火 V3.5 和 GPT-4 都展现了很不错的逻辑推理和避坑能力,其中讯飞星火 V3.5 在第一题中还小胜了一下。

4、数学答题

前面我们测试过两款大模型的逻辑推理能力,与之相似的其实还有数学答题的能力,可以更进一步检测大模型的“智商水平”。

先看下面这道题:

在 △ ABC 中,a,b,c 分别为内角 A,B,C 所对的边,若 2asinA=(2sinB+sinC) b+(2sinC+sinB) c。

(1)求 A 的大小;

(2)求 sinB+sinC 的最大值。

讯飞星火 V3.5 答对了第一个小问,但是第二个小问答错了,最大值应该是 1.

GPT-4 这边,两个小问都没有成功给出答案。

接着小编又找了一题:

某中学对女生立定跳远项目的考核要求为:1.33 米得 5 分,每增加 0.03 米,分值增加 5 分,直到 1.84 米得 90 分后,每增加 0.1 米,分值增加 5 分,满分为 120 分,若某女生训练前的成绩为 70 分,经过一段时间的训练后,成绩为 105 分,则该女生经过训练后跳远增加了多少米?

讯飞星火 V3.5 给出了正确答案,同时也给出了解题过程:

GPT-4 这边一开始只给出了正确答案,小编追问解题过程后,它才给出详细的解答步骤。

最后再试一道稍难一些的题:

已知函数 f (x)=e^x-ax-1,g (x)=kx^2,当 a>0 时,求 f (x) 的值域。

对于这个题,讯飞星火 V3.5 给出了正确答案,解题过程虽然简单,但思路还是比较清晰的。

GPT-4 这边,给出了一个比较长的解题步骤,但结果是错的。

上面举例的三道题都是从高三某数学模拟测试中找到的,可见讯飞星火 V3.5 的数学能力目前至少已经达到了高中水平,实际使用过程中,也确实能发现,讯飞星火 V3.5 在解数学题方面还是要比 GPT-4 好一些的。但整体来说,两者都还有进步的空间。

5、文本生成

文本生成可能是大家使用大模型最常用的功能,用来辅助我们进行一些文案创作。这里小编也对两款大模型进行了测试。

首先小编想让他们帮我写一篇招聘文案:

招聘要求: 有经济学专业背景,有传媒方向工作经验,文笔优秀,能接受经常出差。

招聘待遇: 有五险一金,月薪 15K 起,工作环境新适优雅,节假日还有礼品,一年一次旅行团建。

文案要求: 风格轻松幽默,500 字以内。

讯飞星火 V3.5 给出的文案基本上没有什么扣分点:

GPT-4 的文案整体来说也不错,但是语言相比讯飞星火 V3.5 不够轻松幽默。

再看故事接龙,小编用那个最经典的故事开头让它们续写:

世界末日后,我成为地球上唯一幸存的人,独白坐在房间里,这时,突然想起了敲门声.....

讯飞星火 V3.5 和 GPT-4 的故事续写都能做到逻辑通顺、语言流畅、有始有终,并且也有些细节描写,都是比较不错的。

身处职场的朋友经常会需要写一些方案、活动计划之类的,这时候也可以借助大模型的内容生成能力来帮助自己更快地完成任务。这里IT之家以“我司计划开展一个读书活动,帮我写一个活动方案”为需求,来进行测试。

讯飞星火给出的方案则是比较完整的,时间、地点、目标、流程、前期准备、结果评估等环节都有,而且不缺细节,可用性很高。

GPT-4 的计划书相对简洁一些,细节少一些,但也比较完整。

总体来说,在文本生成方面,讯飞星火 V3.5 和 GPT-4 水平相当,生成的内容都没有什么问题。

6、代码能力

用 AI 大模型辅助写代码也是一些程序员常遇到的使用场景,这也可以视为大模型内容生成能力的重要组成。

测试时,小编首先用下面这个问题来考验两个大模型:

请用 c# 语言生成以下代码:给你一个字符串 s,找到 s 中最长的回文子串。

如果字符串的反序与原始字符串相同,则该字符串称为回文字符串。

代码请遵循以下模板:

public class Solution {

public string LongestPalindrome(string s) {

}

}

我们以代码能直接拿来使用为准则,将大模型生成的代码用程序运行工具进行检测,看是否能直接完美运行。由于小编自己不懂代码,因此也找到IT之家的程序员同学来辅助评价。

首先还是看讯飞星火 V3.5,它给出的代码格式标准,算法也比较简洁,看起来很清爽。

拿到检测工具中进行运行检测,发现这段代码可以直接运行,而且输出的结果也准确,也就是说可以直接拿来用。

GPT-4 这边,给出的代码同样有规范的格式,也比较简洁,而且还有注释。

拿到检测软件中运行,也可以成功运行,表现同样不错。

除了要会写代码,还要能分析代码,所以接下来小编找来一段代码让他们来回答这段代码是干什么的:

# Python 3

def remove_common_prefix(x, prefix, ws_prefix):

x["completion"]=

x["completion"].str[len(prefix):]

if ws_prefix:

#keep the single whitespace as prefix

x["completion"]=" " + x["completion”]

return x

#解释这段代码是干什么的

讯飞星火的回答简洁明了地说明了这段代码的主要功能,答案准确。

GPT-4 也给出了这段代码的实现功能,也是没有问题的,同时,它还指出了代码中存在的一处小错误,就是最后引号不规范的问题,这一点上 GPT 要略胜一筹。

总结而言,目前讯飞星火 V3.5 和 GPT-4 都拥有很强的代码能力,并且两者的水平基本上已经没有什么差别。

7、行业知识

最后再测一下两者在行业知识方面的掌握情况。

先看一个化学领域的题目:

以下有关镧系元素的哪个陈述是不正确的?

(A) 锏系元素最常见的氧化态为 + 3。

(B) 锑系元素的配合物常常具有高配位数 (>6)。

(C) 所有锎系元素与水溶酸反应,能够产生氢气。

(D) 锏系元素的原子半径在锏系元素周期表中由 La 到 Lu 逐渐增加

讯飞星火 V3.5 和 GPT-4 都给出了正确的回答。其中讯飞星火 V3.5 的答案比较简单直接,GPT-4 的更详细一些。

接着再问他们一个关于医学方面的问题:

在心脏左房室口的周缘附有的瓣膜是什么?

讯飞星火 V3.5 和 GPT-4 都能准确给出答案。

在知识性方面,我们还有必要考虑大模型对最新信息的掌握情况,也就是它们的知识库更新情况。这里小编也抽几个题目来测试。

首先小编问“苹果 Vision Pro 是什么时候发布的?”

讯飞星火 V3.5 给出了正确的回答,还简单介绍了一下这款产品。说明它的知识库非常新,这让小编很是惊喜。

而 GPT-4 则直接没有回答上来,

接着小编又问了一个和体育有关的问题:

NBA 球星克里斯保罗现在在哪支球队?

讯飞星火给出了正确而完整的回答:

GPT-4 这边依然没有回答出来,指向了搜索引擎。

整体来说,在行业知识掌握方面,讯飞星火 V3.5 在知识掌握的深度方面和 GPT-4 基本不相上下,但是在知识库储备的更新速度方面,目前讯飞星火 V3.5 要明显好于 GPT-4。

8、多模态能力

在这次讯飞星火 V3.5 版本中,多模态能力也得到了显著提升,因此最后小编也来测试一下其在多模态方面的表现如何。

首先是基础的文生图能力,小编首先让它们画一个“孙悟空大闹天宫”,讯飞星火 V3.5 和 GPT-4 都很快给出了画作,并且都还比较符合要求。

但整体看起来,GPT-4 的画作更加精致和细致一些。

接着是图生文的能力,小编找来一张图片,看它们能否识别出图片中的笑点。

讯飞星火 V3.5 准确给出了图片中的笑点,也判断出了这是《猫和老鼠》中的场景,但同时也出现了图片中没有的元素的解释。

GPT-4 也能准确看出图片中的笑点所在,并且没有生成多余的信息,但没有指出这是《猫和老鼠》中的场景,整体来说各有优点和不足。

在多模态体验方面,还有一个大家比较关注的功能,就是视频生成。这里小编尝试让两款大模型生成一段关于超人的视频。

讯飞星火 V3.5 很快生成了一段介绍超人的小视频,视频中还有虚拟数字人负责讲解,很不错。

GPT-4 这边目前则尚不支持生成视频。

总的来说,目前在多模态的能力方面,讯飞星火 V3.5 也是非常全面的,实际使用的体验也很不错,相比 GPT-4 可以说各有千秋,伯仲之间。

总体来说,经过多版本的技术迭代,目前讯飞星火 V3.5 版本在基础功能体验方面是几乎没有什么问题的,功能全面而且成熟好用。

二、其他基础功能体验

最后我们再看看讯飞星火在其他基础功能体验方面的情况,IT之家主要从终端覆盖情况、功能丰富度这两个方面来说明。

在终端覆盖的丰富程度上,讯飞星火一直是比较领先的,早在去年 6 月讯飞星火 V1.5 升级的时候,就已经实现了安卓、IOS、小程序、PC、H5 五端全覆盖,因此大家在主流设备中都可以体验讯飞星火大模型。

ChatGPT 方面,目前覆盖网页端,移动端、PC 和 Mac, Linux,没有小程序和 H5,对比讯飞星火各有优势。

而在功能性上,目前讯飞星火也是非常全面的。比如在此前 V1.5 版本上引入的讯飞 AI 助手功能,面对具体的应用场景提供专门的服务和功能,可以涵盖“职场、生活、出行、写作、趣味、情感”等多种场景,甚至还可以自己创作 AI 助手。

在讯飞星火上可以看到,目前各种不同种类的星火 AI 助手还是非常全面的,几乎所有的应用场景都能覆盖到。

在 ChatGPT 上也有类似的功能。

而讯飞星火除了星火 AI 助手,还有独特的讯飞友伴功能,你可以将特定知识、历史对话或者每天的所读所写所思所想发给系统,定制专属的 AI 人设“友伴”,用户可以切身体验讯飞星火 APP“不仅有知识,还有个性”的 AI 人设。

再比如,讯飞星火还拥有丰富的插件功能,包括 PPT 生成、邮件生成、简历生成、运营文案生成、思维导图、AI 面试官等等,功能非常齐全。

这些是目前 GPT-4 尚不具备的能力。

结语

此前,科大讯飞董事长刘庆峰在接受采访时曾表示,讯飞星火在 2024 年 4 月份将全面对标 GPT-4。

而从这次对全新讯飞星火 V3.5 版本的体验来看,其在综合能力的体验方面确实已经可以和 GPT-4 不分伯仲,在逻辑推理、数学能力、知识库更新速度等方面甚至还有一定程度的领先。

总之,讯飞星火认知大模型 V3.5 让我们看到了国产大模型在技术和应用方面无限的发展潜力,也期待未来讯飞星火的持续进化,让我们的 AI 大模型技术和应用生态真正实现国际化的引领。

查看完整版本: 【IT之家评测室】讯飞星火 V3.5 体验:整体接近 GPT-4,逻辑推理、数学、语音交互有优势