DeepSeek-R1大战豆包、Kimi,国产AI大模型第一花落谁家?
-
日活用户突破2000万,与中国移动、华为、金山办公、吉利汽车等企业相继达成合作,DeepSeek迎来了高光时刻。在互联网巨头争相进入AI行业的今天,企业为实现技术领先,纷纷斥巨资买数据和算力芯片,打造万卡集群。然而DeepSeek却选择了与众不同的以“花小钱办大事”路线,推出的V3模型训练成本仅557.6万美元,最新的R1模型,则以V3模型为基座,号称能力不输OpenAI开发的o1大模型。在训练成本仅为其他AI大模型数十分之一的前提下,DeepSeek-R1真的能够持平o1大模型,傲视国内诸多AI大模型吗?实践出真知,小雷决定将其与国内用户数量较高、名气较大的豆包、Kimi、文心一言、通义千问四款AI大模型进行对比,测试DeepSeek-R1是否真如宣传中一般强大。
图片
挑战四大AI大模型,DeepSeek技高一筹?架构优化、算力升级后、参数量增加后,AI大模型的功能愈发丰富,值得挖掘的细节也越来越多。本次测试,小雷选择了我们日常使用较多的内容分析、创意写作、数学推理三个项目。参与测试的五款大模型,具体版本分别为DeepSeek-R1、豆包云雀、Kimi-k1.5、文心3.5、通义千问2.5,均可免费使用。内容分析:DeepSeek-R1傲视群雄为加快工作效率,不少职场人士会使用AI工具帮忙总结文档、PDF等文件。小雷挑选了京东、第一财经联合发布的《2024年轻人生活方式及营销趋势》文档,测试各大AI大模型能否总结出重点内容,帮助小雷快速了解2024年年轻消费群体的特点。此前小雷评测AI大模型时,曾吐槽AI大模型难以分析出文档的核心内容,导致输出的结果车轱辘话来回转,但短短三四个月时间过去,AI大模型的文档总结能力已得到了飞跃性的提升。本轮测试中,除了通义千问没有明显进步,总结的内容过于简略,信息缺失严重外,其他几款大模型均表现出色,尤其是豆包和Kimi,不但总结出了2024年的十大趋势,还对2025年的生活方式趋势展望进行了归类。同时,Kimi还指出,90后和00后消费占比过半,强调了年轻消费群体的重要性。文心一言表现则中规中矩,总结出了2024年的十大趋势,却忽略了2025年展望的相关内容。图片
(图源:通义千问截图)作为本次评测的主角,DeepSeek-R1表现更为出色,在总结出的每一个趋势下,还会加入一些数据或产品作为事例,与观点互相印证,增强内容的可靠性。许多AI撰写的文章能够一眼认出,原因就在于AI生成的内容较为空虚,没能落到实处,经常缺乏例证,DeepSeek-R1显然已进入了更高层次。图片
(图源:DeepSeek截图)总的来说,本轮测试中DeepSeek-R1证明了自己名副其实,表现超越其他四款AI大模型。而另外四款AI大模型中,豆包和Kimi的表现则明显高出一个层次,免费版的文心3.5表现一般,通义千问则表现较差。创意内容撰写:DeepSeek再胜一场2月5日,小说平台阅文集团和数字出版社中文在线接连宣布,已接入DeepSeek-R1,将通过AI提高作者的创作效率,但AI真的能够取代网文作者吗?小雷要求AI大模型以古龙风格写一篇5000字到10000字的武侠小说,并输入大纲:天南剑宗第一高手叶飞霜与太玄门掌门慕容宸约战华山之巅,双方各带本门弟子助阵。慕容宸却暗中与五大黑道势力合作,企图彻底消灭天南剑宗。然而天南剑宗实则为六扇门安插在江湖的势力,目的便是借助此次门派约战引出黑道势力,并将其一举消灭。在黑道势力联手太玄门围攻天南剑宗弟子时,六扇门大军背后包抄,彻底消灭了为祸一方的黑道势力和太玄门。与此前限定范围的测试不同,写武侠小说虽有大纲限制,但可发挥空间极大,各大AI大模型之间的差距和风格也会表现出较为明显的差异。本轮测试中,豆包和Kimi在撰写时,分别为其取名为《剑影风云录》和《龙影霜华录》,与古龙大多数小说的取名风格并不相符,反而更像梁羽生的习惯。DeepSeek-R1、文心一言并未为小说取名,通义千问则是简单地命名为《华山之巅》。图片
(图源:豆包截图)内容方面,通义千问依然是倒数,缺乏细节描写和转折,小雷未提到的人名或帮派名称,通义千问也没有主动加入任何一个。Kimi生成的内容质量更好一些,细节较为丰富,对于大纲的理解也更加到位,但与通义千问相同,仅仅是在大纲原定的人物着笔。DeepSeek-R1、文心一言、豆包生成的内容质量更好,人物、招式、门派名称齐全,且剧情存在不少转折,还主动丰富了细节。例如DeepSeek-R1撰写的小说中,两位主人公原本是好朋友,因女人反目成仇,为续写埋下了伏笔;文心一言生成的内容中,叶飞霜在战斗中差点走火入魔,得到师兄相助才反败为胜;豆包则主动续写了一段内容,加入了叶飞霜功成名就后,被身边挚友背叛的情节。图片
(图源:DeepSeek截图)遗憾的是,文心一言生成的内容忽视了大纲中的六扇门,将故事完全写成了江湖恩怨,豆包续写的内容反派刻画太少,导致小雷对其的评分稍微降低了一些。这一轮测试DeepSeek-R1的表现依然远远领先其他AI大模型,但并不是其他几款AI大模型表现不好,文心一言和豆包的表现已经超过了小雷的预期,只是DeepSeek-R1的表现太好了,有情感纠葛、剧情转折,尤其是结尾部分的内容,颇有古龙遗风。现阶段AI大模型写小说依然会有些吃力,需要用户尽可能将大纲细化。小雷匆忙想出的大纲过于笼统,或许是通义千问和Kimi表现不好的原因之一。数学推理:AI大模型永远的痛2024年苹果工程师曾发表了一篇论文,吐槽AI大模型并没有真实的数学推理能力,AI企业的宣传存在夸大成分。随后,各大AI企业纷纷以“复杂推理”为噱头,陆续推出了全新的大模型版本。然而数月时间过去,AI大模型真的具备推理能力了吗?本轮测试小雷选择的数学题是2024年高考一卷第十四题,具体内容为:甲、乙两人各有四张卡片,每张卡片上标有一个数字,甲的卡片上分别标有数字1,3,5,7,乙的卡片上分别标有数字2,4,6,8,两人进行四轮比赛,在每轮比赛中,两人各自从自己持有的卡片中随机选一张,并比较所选卡片上数字的大小,数字大的人得1分,数字小的人得0分,然后各自弃置此轮所选的卡片弃置的卡片在此后轮次中不能使用则四轮比赛后,甲的总得分不小于2的概率为?(正确答案:1/2)站在人类的角度上,这道题的难度其实并不高,哪怕将每一种可能全部列出来再计算,所需的时间也不会特别多。然而在AI大模型眼中,这道题却是难上了天,DeepSeek-R1、豆包给出的答案都是17/24,Kimi、文心一言、通义千问给出的答案分别是1971/4096、243/256、551/576,居然再一次全部阵亡。图片
(图源:DeepSeek截图)随后小雷又用OpenAI的o1、o3 mini、GPT-4o三款大模型进行了计算,这三款大模型都算出了正确答案,但细节上也存在一些问题,如o1模型输出内容时出现了2=1/2,但不影响其计算出了正确答案。该情况表明,在数学推理方面,DeepSeek-R1与OpenAI旗下的大模型可能还有一定的差距。图片
(图源:o1大模型截图)最有趣的不是这些离谱的答案,而是AI大模型的推理过程,DeepSeek-R1和Kimi-k1.5会不断打断自己的思考过程,选择新的方案。数学推理依然是当前AI大模型难以攻克的关隘,前两项测试领先其他国产AI大模型的DeepSeek-R1,也在本轮测试中未能拉开差距。图片
盛名之下无虚士,DeepSeek的荣耀实至名归2024年12月,DeepSeek-V3大模型刚上线之时,小雷便对其进行了测试。当时小雷的评价是,DeepSeek-V3在内容总结、文字生成方面能够媲美豆包、Kimi,但功能丰富性远不及其他AI智能体。仅一个多月时间过去,基于V3大模型调整的R1大模型就实现了质的飞跃,在内容总结、文字生成方面相较赫赫有名的豆包、Kimi、文心一言、通义千问等AI大模型居然领先不少。当然,数学推理方面大家还是一样地“菜”,OpenAI仍处于领先地位。DeepSeek-R1仅仅做到能力强,无法造成这么大的影响,最关键的是其训练成本大约只有600万美元,远低于GPT-4,预计只有GPT-5的1/200甚至更低。图片
(图源:豆包AI生成)过去我们的认知中,提升AI大模型的行业需要堆算力、买数据,AI企业也确实在这样做,如小米要建万卡集群、字节跳动计划在2025年投入400亿元购买AI算力芯片。Macquarie分析师质疑DeepSeek隐瞒了开发成本,经过他们的计算,R1大模型的训练成本应该在26亿美元左右。DeepSeek却告诉我们,只需要数百万美元,折合人民币不到9位数,就能训练出媲美OpenAI o1大模型的产品。因DeepSeek-R1的冲击,最近一段时间全球算力芯片主要提供者NVIDIA股价一路狂跌,近两天虽有所回暖,但依然未能回到巅峰时期。借助DeepSeek-R1的卓越表现,DeepSeek瞬间成为了AI行业的香饽饽,与各行各业巨头达成合作,甚至在工业AI领域实力超群的华为,也让小艺接入了DeepSeek-R1。因用户数量太多,近期DeepSeek官网频频出现服务器繁忙,API调用充值入口也因人数太多被关闭。DeepSeek-R1训练和推理成本虽低,可大量用户涌入,DeepSeek当前拥有的算力,已无法满足用户的需求。中国企业最擅长的就是从1到正无穷,DeepSeek指明了道路,其他AI企业将快速跟上。DeepSeek若想留住这波流量,增加算力规模、提高用户体验迫在眉睫。End2024科技大盘点:
1、24年最伟大10款科技产品榜单出炉:款款王炸,AI为王!
2、雷科技编辑2024买了啥?手机、耳机最受宠,可穿戴无人问津?
手机行业的2024:1、2024年十大爆款手机:款款都凶残,国产厉害了
2、24年国产手机赢麻了!苹果三星全面溃败
3、2024旗舰手机盘点:影像和AI才是今年的关键词
4、千元机,逆袭了!!!
5、2024年,线下手机彻底杀疯了!
6、2024年,细分手机杀疯了!
7、果味手机,彻底火了!!!
8、2024年手机狂卷创新:十大技术起飞,一切为了“更实用”
9、手机影像卷疯了!九大趋势下,安卓全面碾压iPhone
10、2024年,年度最无用的手机设计!
11、24年手机配置开倒车!摄像头减少、屏幕变小,连充电都慢了!
智能硬件的2024:1、2024年,无线耳机杀疯了!2、2024年的运动相机:大疆GoPro影石斗法,“御三家”死磕产品3、智能清洁的2024:七大硬核技术突破,产品创新空间依然巨大4、2024年平板电脑卷疯了:AI强化生产力,告别“泡面盖”5、2024年教育硬件大爆发!5款经典产品,款款AI驱动6、2024年智能眼镜杀疯了!不只是AI,还有这七大变化7、智能手表2024的五大趋势:健康、AI、颜值、续航…… 8、2024年度电视盘点:MiniLED成白菜价,国产旗舰狂卷画质9、2024年年度游戏机出炉!性能升级成大主题,“移动时代”来了10、智能门锁狂卷2024:价格战、AI化和出海成了主旋律?11、仅重19g!24年鼠标太能卷了:有的带屏幕,有的模块化PC行业的2024:1、2024年8大年度PC榜单出炉:靠设计创新,用AI破局2、PC DIY的2024:从低迷中走出,大厂纷纷押注AIAI软件的2024:1、2024年十大国产大模型盘点:款款超能打,黑马却是这家?2、九大年度APP出炉!要么AI原生应用,要么AI重塑应用3、AI输入法谁最强?2024年度大模型输入法榜单来了!4、AI影像,彻底爆发!!!科技公司的2024:1、苹果的2024:产品平庸,AI遇阻,生态墙倒塌!2、高通骁龙的2024:从移动之王到智能世界的基石3、联发科的2024:甜点芯守基本盘,旗舰芯冲高端,靠AI赢麻了智能汽车的2024:1、2024十大爆款神车出炉!比亚迪占了一半,智能化还只是小众需求2、自主五常销量公布:比亚迪赢麻了,25年五常变四强?3、2024智驾风云榜:华为小鹏争霸,“蔚小理”加速,老车企转身4、2024年汽车十大技术趋势盘点:智能化成了潮水的大方向5、25年车圈淘汰赛加速!哪吒、远航危险了,微小型车被逼上绝路?汽车公司的2024:1、2024,比亚迪活成“卷王”2、2024年,鸿蒙智行彻底杀疯了!!!3、2024深蓝汽车赢麻了!多亏了华为?4、小鹏汽车的2024:上演教科书式逆袭,四面出击下忧患犹存5、理想的2024:Mega出师不利,卖车、智驾、出海步步为营6、暴涨300%!赛力斯过肥年:问界太猛了!
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。
- 上一篇:瑞蛇迎春,辞旧岁
- 下一篇:没有了