实际使用感受如何? 来看看这份《人工智能大模型体验报告》
近年来,人工智能技术迎来了新一轮大变革,其中由OpenAI开发的ChatGPT在推出短短2个月后便成为了月活破亿的
近年来,人工智能技术迎来了新一轮大变革,其中由OpenAI开发的ChatGPT在推出短短2个月后便成为了月活破亿的应用。随着海外科技巨头微软、谷歌、Meta等加大投入,国内科技企业如百度、华为、阿里等纷纷布局,人工智能大模型的发展日新月异。
为直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点,新华社研究院中国企业发展研究中心于今年4月启动了人工智能产业创新活力研究。本次研究设置了用户体验项目,抓取了05月22日—05月26日数据,通过人机互动提问等形式,对国内主流大模型进行使用体验评测,旨在为科技企业调整努力方向提供参考。
(资料图)
在综合指数评价方面,本次评测选取4大维度(基础能力、智商测试、情商测试、工作提效能力)、36个子能力,共300个问题,对目前主流大模型产品进行测试,并邀请相关专家组成评测团队深入分析各个产品的语义理解、知识储备、逻辑能力等,最终得出各厂商的大模型综合指数评价。
在评价规则上,课题组以各个大模型对参与测评的题目回答完成度,进行了综合考量,其中评测规则分为:答案较为完美,内容可在实际场景中直接使用;基本可用,可在实际场景中使用;调整可用,但需人工进行调整后方可使用;大略可用,需要较多人工调整方可使用;不可用,答非所问、语言不通等五个层级。
注:基于评测条件、评测时间等限制,本次评测结果存在一定主观性,未来将进一步优化完善评测模型,提供更精确结果。
通过围绕四个维度的综合测试,课题组发现,由OpenAI开发的Chat-GPT系列模型各项指标表现优异,且Chat-GPT4.0版本各项能力在3.5版本的基础上均有一定程度提升。而由百度开发的人工智能大模型文心一言表现较为抢眼,是目前国内自主研发的大模型中具有优势的产品。其余大模型产品也在基础能力方面表现优良,但面对较复杂的工作内容或情商环境仍有不同程度的进步空间。
针对各维度能力测评,该报告还给出了相应的案例展示和分析。
在基础能力部分,百度文心一言表现最为抢眼,讯飞星火、阿里巴巴通义千问、智谱ChatGLM表现优良;商汤商量、Vicuna-13B表现尚佳。
在智商测试部分,百度文心一言在该环节意外超过ChatGPT3.5,表现突出,阿里巴巴通义千问分数接近GPT3.5,商汤商量、讯飞星火、智谱ChatGLM表现尚佳;Vicuna-13B表现有待改进。
在情商测试部分,百度文心一言表现最佳;阿里巴巴通义千问与讯飞星火表现优良;商汤商量、智谱ChatGLM表现尚可;Vicuna-13B表现一般。
在工作提效部分,百度文心一言与智谱ChatGLM最佳,讯飞星火次之;阿里巴巴通义千问及Vicuna-13B表现尚可;商汤商量表现一般。
研究发现,人工智能与各行业的深度融合是促进产业升级和转型的重要方式之一,“大模型+行业”的发展应用尤为重要。目前大模型在金融、工业、医疗等领域已经取得了显著的成果,如何为行业领域提供更为精准、更为高效的解决方案,成为大模型厂商未来弯道超车的机会。
报告指出,随着人工智能的地位和作用越来越重要,政府、企业和社会需要共同努力,各大厂商应投入更多资源,头部企业可以持续发力自研大模型,而专注于解决方案的行业厂商可以考虑通过深耕行业来彰显特色。
研判该报告的测评结果,浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员盘和林建议,国内大模型发展应从两方面着力,一方面是大语言模型,中文并非ChatGPT的强项,OpenAI主业在英语,所以中文大语言模型对于中国市场还是有发展空间的;另一方面则是在细分领域应用,比如编程、专业知识问答、中文PPT制作等,这些细分的功能领域才是未来大模型真正需要关注的领域,也是从单个应用转变为生态应用的关键。
(文章来源:经济参考报)
关键词:
近年来,人工智能技术迎来了新一轮大变革,其中由OpenAI开发的ChatGPT在推出短短2个月后便成为了月活破亿的
爱马仕不合格针织衫进价5千售1万6 天眼查App显示,近日,爱马仕(上海)贸易有限公司北京第一分公司因产品
1、做法:主料:嫩母鸡1只(1000克)、以头小体大、肥壮细嫩的三黄(黄嘴、黄脚、黄毛)母鸡为好。2、辅料
“在我的左手边,是我们廉政教育管的一个主题标志——‘廉洁警钟’,寓意廉政教育要警钟长鸣 ”5月30
可能有很多塞尔达传说王国之泪童鞋不知道塞尔达传说王国之泪滑翔伞改色攻略指南,下面将由第一资讯网小编收
[连载]一辆萨博95轿车拐入夏莱的车库白子从车窗内探出头,示意后面的卡车绕过她半个小时后,几十把凯撒的M1
近日,开拓者球星达米安-利拉德陷入了交易旋涡之中,他个人都在直播间调侃有可能加盟湖人。ESPN记者布莱恩-
每个孩子都是含苞待放的花朵,需要细心呵护。在今年六一国际儿童节前夕,最高人民法院、最高人民检察院、公
同花顺F10数据显示,2023年6月1日达华智能(002512)新增“集成电路概念”。 入选理由是:2023年5月
6月1日起,电价开启新一轮调整,调整不涉及居民生活与农业用电。
边境上线后虽然在线人数不多,但是官方一直在认真收集玩家给出的各种反馈且及时进行了优化和调整,这里将分
市场上龙虾售卖正火热连日来,合肥小龙虾集中上市,小龙虾进入销售高峰。5月31日,记者走访合肥多个水产市
日前,平山街道象棋团体精英邀请赛在该街道园岭社区党群服务中心举行。本次活动采取积分单循环赛制,旨在为
大河网讯持续的阴雨天气打乱了今夏河南麦收的节奏,当天气一放晴,多地小麦抢收工作立即展开。5月30日至31
连日来,武当路街道马家河村坚持抓早、抓细、抓小,严格落实省市区关于开展群众身边腐败问题专项整治工作的
据路透社报道,这个由16名成员组成的机构于2022年6月成立,汇集了从物理学到天体生物学等各领域专家,主要
沃尔沃计划于明年在英国开始大规模的自动驾驶试验,作为该公司全球计划的一部分,该计划旨在加快一项技术的
1、在手机上下载4399游戏盒,挣盒币,再换游币。2、最后换金币(1000盒币=10游币=100金币)或直接充值。本文就
美国经济仍在增加大量新的就业岗位,但强劲的劳动力市场似乎正在出现裂痕。以下是将于周五上午公布的美国5
改性塑料龙头普利特拟加码新能源业务,公司与浏阳经开区达成共识,将投资102亿元建设30GWh钠离子及锂离子电