文心评分:百度ChatGPT版才能若何?
人工智能的飞速开展,让“将来已来”成为时髦语。从AlphaGo战胜围棋世界冠军,到AIContentCreation(AIGC)上市,短短7年时间,人类智能在退步。
(围棋世界冠军柯洁)
3月15日,ChatGPT-4发布。OpenAI发布的一份陈述展现,ChatGPT-4在人类程度长进行了各类专业和学术测试。例如,他在模仿律师测验的考生中名列前10%。同时撑持插进图片,能够识别图片内容。网友测试发现,仅通过发问也能间接写出网页设想和贪食蛇游戏的准确代码。
3月16日,百度开创人、董事长兼CEO文心在发布会上展现了文心的各项功用,并公布起头内测。记者立即通过内测合格。在本文中,记者将从多模态才能、语义理解、内容可靠性和心理成熟度等方面临文心的话停止评判。
多式联运才能
在发布会上播放的一段演示视频中,文心一言展现了文本转语音和基于文本的图像和视频生成的三种多形式选项。记者测试发现,目前只要文字转语音功用比力不变可靠。
展开全文
据记者测试,发布会上展现的“文字生成视频”功用目前根本无法利用。记者屡次变更发问体例,以至用与发布会不异的用词和话题向文心发出指令,但都得到“无法生成视频”的答复。从某种意义上说,文心在发布会上的视频生成演示也算是一种造假。
至于生成图像,我们必需利用“画...”如许的号令,而文心只需一个字就能够生成图像。也就是说,文心会反应本身不具备生成图像的才能。记者认为,他创做的画做量量不错,但经常呈现图文不符、画错图的情状;同时,操做微调困难,生成的图片无法编纂;并且画的清晰度也欠好。高的。比拟之下,利用开源的StableDiffusion可能是更好的抉择。
语义理解和内容可靠性
生成的内容实假难辨,不断是语言模子的一大难题。寡所周知,ChatGPT也经常一本正经的说废话。因而,文心义言在内容可靠性方面事实强于仍是弱于其他语言模子,处于何种程度,只能通过记者的亲测,难以科学揣度。
但通过测试比照,记者逐步意识到,电脑也有“答错”的门槛。因为一个“错误谜底”意味着AI起首要准确理解问题自己。只要当他大白问题是什么时,他才气给出“编造的错误谜底”。假设问题自己没有输出,谜底只会是错误的。记者认为,文心一言在语义理解上与ChatGPT-3仍有差距。
(文心3月20日志者发问后的话语输出)
趁便一提,2022年11月,斯坦福大学大模子中心对全球30款支流大模子停止了综合评测,GLM-130B是亚洲独一进选的大模子。比来那个系列的ChatGLM-6B也开源了,能够在通俗电脑上摆设运行。有兴致的读者伴侣在评论区反应不错,小编也会和各人分享ChatGLM-6B的摆设安拆过程和使专心得。
心智成熟
种种事实表白,人工智能并不是没有成见,它映射的是数据成见。AI在差别的人手中,也会饰演差别的角色。纵看人类汗青,好手艺被用来做坏事的例子数不堪数。因而,掌握人工智能生成的内容,隔离不安康的色情、暴力和反社会内容十分重要。
记者重点存眷了网友在ChatGPT和新必应上发现的问题,也对文心的话停止了测试。根据记者性格各方面的测试成果,他对灵敏问题十分隆重,目前没有涉及政治灵敏话题。
同时,记者也考验了文心的同理心。
错误自信心测试是一种心理尝试,用来权衡儿童理解别人思惟和自信心的才能,被称为心智理论。4岁以下的儿童和黑猩猩不会始末通过此测试。研究表白,在利用英文时,ChatGPT能够比力不变地通过测试。可见,文心目前还不具备不变过关的才能。