黄龙翔 吕赐杰:当DeepSeek遇上ChatGPT
1月26日,深度探索(DeepSeek)在大众视野里初次“探头”,竟成“深度惊奇”!这家中国AI新秀宣称以10%的成本训练出能匹敌与现有大语言模型的新模型,选在乙巳大年前的周末推出,有战略玄机――春节长假,闲下来的中文用户“心痒难搔”安装App尝鲜,并通过社媒迅速传播而引爆话题。“蛇形”还不够,再出“刁手”――小年夜,深度探索发布文生图模型Janus-Pro7B,誓要把这个时间窗口“用到尽”?
不仅大中华圈,全世界使用其他大模型的网民也跃跃欲试,,一探中方宣称的“DeepSeek V3和R1模型可匹敌ChatGPT 4o和o1模型”(下文分别简称为DS-V3, DS-R1, CG-4o, CG-o1)是否所言不虚。社交网络涌现大量测试帖,但有人甚至分不清 V3 和 R1,更别说知道如何切换;就算有跨平台对比,也多是随机提问后直觉下结论,测试方式五花八门,结论也大相径庭。
深度探索官网列出 DS-V3 与 CG-4o 及其他主流模型的推理效率基准测试成绩,显示 DS-V3 表现稳健,甚至部分指标略胜。但这些“考试成绩”只反映模型在选择题或限制性问答上的平均表现,模型可针对性优化,如同“应试教育”。可现实中的 AI 任务远不止答题那么简单——真正考验的是知识广度、灵活检索和深度考据。考场高分不代表江湖无敌,AI 的真功夫,得在“荒野求生”(不可预测的实际任务提示)中见真章。
我们在大年初一及初二,以科普角度给四个模型进行三轮测试,厘清它们的优势、短板,及适用场景。CG-4o 和 DS-V3 是通用型选手,知识广、推理强,适用于各种任务。CG-o1 和 DS-R1 在特定任务上表现突出,但在更复杂或开放的问题上,各有优劣。
三轮测试,主题分别为:“文化考据”、“创意写作”和“规划决策”,涵盖知识精准度、语言风格驾驭力、任务逻辑与执行性等多维度能力。每轮测试,四个模型各自生成两次答案,我们择优筛选“决赛作品”进行比较,并以内容精确度、结构条理性、表达完整度、语言清晰度、主题贴合度、创新性等六项指标打分。
测试一:“马名测试”
本测试要求模型检验41种马的古称及定义(如“骓”指苍白毛色的马,“驹”指两岁以下的马)。DS-V3 只是逐条复述列表,修正个别错误,六项评分均落在2/5至3.5/5之间。CG-4o、DS-R1 和 CG-o1 都补充了历史背景、现代应用及例句,其中 DS-R1 和 CG-o1 甚至进行了深度学术考据,内容详实,逻辑清晰。综合表现最强的是 CG-o1,思路完整,分析精确, 5/5。DS-R1 在考据上更胜一筹,但语言较偏学术化,表达清晰度略低(3.5/5,相较于 CG-o1 的 4.5/5)。CG-4o 语言流畅,文化补充丰富,适合一般读者。
测试二:“仿鲁迅文测试”
四个模型以鲁迅杂文风格撰写讽刺文章,避免使用网络用语,仅限文学性表达,同时展现鲁迅式的批判精神、语言风格及思维模式。结果最贴近鲁迅风DS-R1 的《屏奴正传》,充满象征寓言手法,虚构“即时显圣大欢喜天尊”讽刺手机崇拜,并设计如“戒手机所”等象征场景(创意、表达深度 5/5)。读了它如见鲁迅再生,提笔讽世。
CG-o1 的《自由的囚笼》以冷峻剖析方式批判社交媒体上瘾,逻辑清晰,富有哲思,但象征性较少,仍保持一定的鲁迅风格(表达深度 4.5/5)。CG-4o 的《低头族传》 批判有力,结构完整,适合现代杂文风格,但讽刺性相对温和(表达深度 4/5)。DS-V3 的《手机狂人日记》 则较平淡,像个人反思记录,讽刺力度与批判深度皆较弱(表达深度 3/5)。
整体来看,DS-R1 在鲁迅风格的模仿及寓言式讽刺上表现最突出,CG-o1 更偏理性分析,CG-4o 适合一般读者,而 DS-V3 则较无特色。
测试三:“新春大扫除规划测试”
四个模型围绕春节大扫除规划七天断舍离策略,且每天清理任务有递进关系(如先易后难),还要提供克服“舍不得扔”的心理调适建议。DS-R1 以仪式感和游戏化(gamification)手法强化清理体验,如“留白提示卡”“庆祝音乐”,强调心理建设,让整理成为观念转变;CG-o1 采用“断舍离三原则”,筛选标准清晰,逻辑严谨,适合务实派;CG-4o 逐日推进,每天针对不同区域清理,结合心理调适,执行性与适用性兼具;DS-V3 框架合理,但细节不足,任务安排笼统,心理引导弱。从评分来看,DS-R1 在心理调适和创意上拔得头筹(皆 5/5);CG-o1 执行性与逻辑性最佳(皆 5/5);CG-4o 兼顾心理建设与可操作性(皆 5/5); DS-V3 则是“懒人包”,适合只需大致指南的用户(执行性和心理调适皆 3/5)。整体而言,DS-R1 让断舍离更具沉浸感,CG-O1 最适合高效执行,CG-4o 则是二者的折中方案。
三轮测试揭示四个模型的不同侧重,关键在于任务适配度。CG-4o 是全能型选手,适合广泛应用。CG-o1 逻辑清晰、考据扎实,适合精确执行任务;DS-R1 在文化表达、象征寓言上胜出,适合创意类任务;DS-V3 更适合信息整理或大致方向引导,适合“懒人包”需求者。此外,模型的训练数据影响了它们的特定任务表现。如,DS-R1 在仿鲁迅风格测试中表现优异,或因其中文文学语料丰富;但若改为“以莎士比亚风格撰写AI工程师求职信”,ChatGPT 可能更胜一筹。
这次测试结果只是“此时此刻”;模型升级后,战况随时生变。这次测试未涵盖编程、数学、多语种能力,仅适用于华文文本生成任务。不同用户需求不同,适合自己的 AI,才是最好的 AI。
生成式 AI 竞赛,果然高潮迭起。阿里巴巴在大年初一火速宣布 Qwen 2.5 Max 版本,显然不想让 DeepSeek 抢尽风头。而若 DeepSeek 真的能以 10% 的训练成本打造出对标顶级模型的 AI,无疑是性价比的颠覆式突破,可能重塑整个行业生态。
AI 大战方兴未艾,与其被宣传和测评牵着走,不如自己多试多用。模型的优劣,最终要靠实战应用来验证。更重要的是,AI 进化从不停歇——今天的强弱,不代表明天的格局。与其停留在旧印象里,不如带着开放的心态,多测试、多体验,真正让 AI 成为得力助手。
黄龙翔是南洋理工大学国立教育学院高级研究科学家、印度尼西亚玛琅国立大学客座教授。
吕赐杰是香港教育大学讲座教授、南洋理工大学终身名誉教授。
Read the original article here.
Source: Lianhe Zaobao © SPH Media Limited. Permission required for reproduction.