文心一言VS通义千问,谁更懂学习?
比尔·盖茨上周二在圣地亚哥举行的ASU+GSV峰会上发表主旨演讲时表示:AI聊天机器人将18个月内,可以做到教孩子阅读,辅导家庭作业。
今年3月和4月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
未来,大模型将会朝着多模态(文本、图像、视频、音频等)继续发展,也将越来越逼近人类的智慧。
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波AI技术的爆发非常值得教育领域关注。
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问PK了一下。
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是10道题目。
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
01、作为出卷人:题目正常、不算偏怪难
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
点评:文心一言每道给出了A、B两套题,通义千问按要求给出了5道题。我们给了文心一言两次机会,它依然出了A、B卷,有些看不懂[挠头]……我们最后从每道题中选择了一道题,除了第4题外,其他题目都选择了A题目。
对于这5道题目,通义千问看起来更灵活,也更有针对性,更像一个出卷人。比如,第3题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
来看他们下面的作答情况——
02、翻译题目
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是翻译成哪门语言,考虑得更周到一些。
来看通义千问出的这道翻译题目:
点评:文心一言翻译的是请问我怎么读这个词?,通义千问翻译的是 你能告诉我这个词是什么意思吗?文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
要么跟通义千问换一个问法吧,回答如下:
越来越离谱了。。
通义千问多轮对话的能力堪忧……
03、数学题目
来看初中的数学题:
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是1/8,即0.125,这是一个确定的值,不明白为什么最后它写的是约等于号,不知道是因为不自信,还是因为马虎写错了?
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
通义千问出的初中数学题目:
点评:让文心一言回答了两次,都是x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
有点不死心,再次问了文心一言:
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
这……好吧o(╥﹏╥)o,文生图的能力还得加油啊~~
04、写作题目
来看文心一言出的写作题目,双方的作答情况:
点评:从题目来说,这道题让人想到央视2012年的采访,你幸福吗?这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述幸福,不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
来看通义千问出的作文题目,双方的作答情况:
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
05、代码生成
来看代码生成的相关题目:
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:核心段是一样的,不过,文心一言没有声明变量。懂编程的老师们可以留言点评一下~~
再来看通义千问出的这道代码生成题目,二者作答情况:
点评:同样来自程序员的评价:这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。
06、心理辅导
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
最后一道题目,由通义千问提出的问题,看看双方的解答:
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了焦虑和压力形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
07、总结
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了A、B两套题,可能想提供更多的方案,但有的题目比较宽泛。
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个思考的过程。
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如ChatGPT一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是GPT-4,在专业和学术上接近人类水平。
盖茨说AI聊天机器人将18个月内可以辅导作业,指的应该是国外的大模型,国内的或许还需要更长时间。
-
上一篇
2023年4月6日 ~ 2023年4月12日
4月12日 |历史上的今天
今天是4月12日星期三,在1981年4月12日,美国发射成功了世界上第一架航天飞机哥伦比亚号。
···
01OpenAI:最高悬赏两万美元在全球范围内找AI漏洞
4月11日,据路透社报道,OpenAI推出漏洞赏金(Bug Bounty Program)计划,向那些举报其AI系统漏洞的用户提供奖励,根据报告漏洞的严重程度,每个漏洞的奖励金额奖从200美元到20000美元不等。
据了解,在这一漏洞悬赏计划中,OpenAI表示,其使命是创建造福所有人类的AI(人工智能)系统,该公司已经大力投资研发,以确保AI系统安全可靠。
据美国商业内幕网站报道,为了管理提交和奖励流程,OpenAI正在与众包安全平台 Bugcrowd公司合作,让其帮忙管理提交和奖励流程。
据悉,用户提交的漏洞内容会在两小时内被拒绝或接受,这一计划发布当天已有七个漏洞报告得到奖励,但是漏洞不包含由 OpenAI 系统生成的不正确或恶意内容。Bugcrowd公司表示,将根据对方报告问题的严重性提供现金奖励,金额为200美元到20000美元不等。
据报道,目前OpenAI 已邀请研究人员审查 ChatGPT 的某些功能以及 OpenAI 系统与第三方应用程序通信和共享数据的框架。该公司表示,启动该计划的原因是,他们认为解决任何复杂技术中出现的漏洞和缺陷,透明度和合作至关重要。
02中国版OpenAI:王小川创立百川智能正式入局AI大模型
4月10日,搜狗创始人王小川正式对外宣布开启人工智能大模型领域创业。据21世纪经济报道消息,王小川与前搜狗COO茹立云联合创立了人工智能公司——百川智能。
据报道,作为一家研发并提供通用人工智能服务的中国公司,百川智能旨在打造中国版的OpenAI,致力于研发并提供通用 AI 服务、基础大模型及颠覆性上层应用。王小川在接受红星新闻专访时表示,百川智能大模型的训练也已经启动,并且进展顺利。创业方向是以大模型这一波新技术为核心,去做一个中国版的ChatGPT。它是既能通过大模型创造通用智能去赋能各种行业,也会打造ToC端的超级个人助理。他说。
据悉,该公司早前已获得5000万美元启动资金,主要来自于王小川与其业内好友的个人支持。目前,该创业团队共拥有包括前搜狗、百度、华为、微软、字节、腾讯等知名科技公司以及其他创业公司核心成员在内的数十位顶尖AI人才。据王小川透露,筹建百川智能不到两个月,已有多位技术合伙人和领军人物的加入,到4月底将会有近50人规模的精英团队。
此外,王小川还对媒体表示,面向机构的融资会在近期启动,该公司将会在年底发布面向To B(企业端)领域的大模型产品。
03阿里版ChatGPT通义千问正式开放:未来所有产品都将接入
4月11日,阿里巴巴正式宣布开放阿里版ChatGPT通义千问,未来所有产品都将接入。
据报道,在阿里云峰会上,阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇宣布,钉钉、天猫精灵等产品已经接入通义千问大模型进行测试,未来,阿里所有产品都将接入通义千问进行全面改造,包括淘宝、天猫、高德地图、菜鸟、饿了么等所有国民级产品。他认为,面向AI时代,所有产品都值得用大模型重新升级。
据了解,接入通义千问后,钉钉可实现近10项新AI功能;而新天猫精灵则变得更拟人更聪明,知识、情感、个性、记忆能力大幅跃升。
张勇表示,AI大模型的出现是一个划时代的里程碑,人类将进入到一个全新的智能化时代,就像工业革命一样,大模型将会被各行各业广泛应用,带来生产力的巨大提升,并深刻改变我们的生活方式。
同时,阿里云智能CTO周靖人也提出,所有软件都值得接入大模型升级改造,阿里将开放通义千问的能力,帮助每家企业打造自己的专属大模型。
据悉,目前已有OPPO、吉利汽车、智己汽车、奇瑞新能源、毫末智行、太古可口可乐、波司登、掌阅科技等企业表态,将与阿里云在大模型相关场景展开合作。
科技周报|OpenAI悬赏找漏洞,阿里通义千问正式开放
-
下一篇
实测:通义千问和文心一言大PK,前者让天下果然没有难做的生意
通义千问和文心一言大PK:通义千问让天下果然没有难做的生意今日4月7日中午,阿里云宣布自研大模型通义千问开始邀请用户测试体验。通