今年以来,国内科技企业纷纷布局人工智能大模型。为进一步直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点,8月12日,新华社研究院中国企业发展研究中心基于严格测评,发布《人工智能大模型体验报告2.0》,对当前国内各主流大模型的表现给出评述。
与2023年6月首次发布的《人工智能大模型体验报告》相比,本次测评在题目设计、对标Benchmark(人类)、打分权重、专家测评团队四大维度进行了全面升级。
其中,在题目设计方面,测评题目由300道扩展至500道,并进一步完善了题目分类;
(资料图)
在对标Benchmark方面,本次测评将接受过高等教育的人类作为对照,来考评大模型真实能力;
在打分标准上,本次测评根据对产业、生活的实际价值,对基础能力、智商能力、情商能力和工具提效四大测评维度进行了权重设计;
在测评团队方面,本次测评特邀北京大学文化与传播研究所及其他产界、学界专家全程参与。
本次研究设置了用户体验项目,抓取了7月31日—8月4日数据,通过人机互动提问等形式,对国内主流大模型进行使用体验评测,旨在为科技企业调整努力方向提供参考。
报告显示,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。
具体来看,讯飞星火在工作提效、智商等方面优势明显,百度文心一言基础能力出色,商汤商量则在情商方面表现优秀,智谱AI-ChatGLM整体表现不俗。
归结到基础能力、智商能力、情商能力和工具提效四大维度综合得分上,科大讯飞星火表现最强,1013分,逼近人类水平(1014分),其次是百度文心一言和商汤商量,总分分别为1010分和983分。
报告认为,虽然在不同领域中,AI和人类表现出不同的优劣势,但在整体上,AI大模型的发展为人类工作和生活的提质增效带来了重要的积极影响,大模型正在加速走进生活、走进产业。
据了解,此次测评总分第一的讯飞星火大模型发布于5月6日。并于6月9日发布星火1.5版本, 与上一个版本相比,升级版不仅各项能力获得持续提升,且在综合能力上实现了三大升级:
开放式知识问答取得突破,提升24%,较好地解决了当前大模型技术有待攻克的“三大缺陷”:新知识难以更新、事实类问答容易“张冠李戴”、史实传统典籍等容易“编造情节”。
多轮对话跃迁,对话体验更接近真人; 逻辑和数学能力明显提升。
特别是在数学能力, 科大讯飞星火大模型不但能综合应用 方程、排列组合、经典算法等各种数学方法,给出正确答案,而且能给出分析过程,让用户在“知其然”的同时,还能“知其所以然”。
除了大模型自身能力进一步提升外,讯飞星火1.5版发布会上,科大讯飞还 正式发布了星火APP和星火语伴APP等C端产品,加上此前已和大模型融合的科大讯飞AI学习机、智能智能办公本、 讯飞听见、汽车 智能座舱语音交互和数字员工等产品 ,成为业内第一家实现大模型商业应用落地的公司。
受大模型加持带动,2023年5月至6月,科大讯飞C端硬件GMV创历史新高,同比翻倍增长。其中,搭载讯飞星火认知大模型的讯飞AI学习机GMV在5月和6月分别增长136%和217%。
同时, 讯飞人工智能开放平台的开发者团队数量增长迅猛,两个月时间增加85万。截至2023年6月30日,科大讯飞开放平台开发者数已达到497.4万,近一年增长45%。