Published on 03 Feb 2025

黄龙翔吕赐杰：当DeepSeek遇上ChatGPT

1月26日，深度探索(DeepSeek)在大众视野里初次“探头”，竟成“深度惊奇”！这家中国AI新秀宣称以10%的成本训练出能匹敌与现有大语言模型的新模型，选在乙巳大年前的周末推出，有战略玄机――春节长假，闲下来的中文用户“心痒难搔”安装App尝鲜，并通过社媒迅速传播而引爆话题。“蛇形”还不够，再出“刁手”――小年夜，深度探索发布文生图模型Janus-Pro7B，誓要把这个时间窗口“用到尽”？

　　不仅大中华圈，全世界使用其他大模型的网民也跃跃欲试，，一探中方宣称的“DeepSeek V3和R1模型可匹敌ChatGPT 4o和o1模型”（下文分别简称为DS-V3, DS-R1, CG-4o, CG-o1）是否所言不虚。社交网络涌现大量测试帖，但有人甚至分不清 V3 和 R1，更别说知道如何切换；就算有跨平台对比，也多是随机提问后直觉下结论，测试方式五花八门，结论也大相径庭。

　　深度探索官网列出 DS-V3 与 CG-4o 及其他主流模型的推理效率基准测试成绩，显示 DS-V3 表现稳健，甚至部分指标略胜。但这些“考试成绩”只反映模型在选择题或限制性问答上的平均表现，模型可针对性优化，如同“应试教育”。可现实中的 AI 任务远不止答题那么简单——真正考验的是知识广度、灵活检索和深度考据。考场高分不代表江湖无敌，AI 的真功夫，得在“荒野求生”（不可预测的实际任务提示）中见真章。

　　我们在大年初一及初二，以科普角度给四个模型进行三轮测试，厘清它们的优势、短板，及适用场景。CG-4o 和 DS-V3 是通用型选手，知识广、推理强，适用于各种任务。CG-o1 和 DS-R1 在特定任务上表现突出，但在更复杂或开放的问题上，各有优劣。

　　三轮测试，主题分别为：“文化考据”、“创意写作”和“规划决策”，涵盖知识精准度、语言风格驾驭力、任务逻辑与执行性等多维度能力。每轮测试，四个模型各自生成两次答案，我们择优筛选“决赛作品”进行比较，并以内容精确度、结构条理性、表达完整度、语言清晰度、主题贴合度、创新性等六项指标打分。

测试一：“马名测试”

　　本测试要求模型检验41种马的古称及定义（如“骓”指苍白毛色的马，“驹”指两岁以下的马）。DS-V3 只是逐条复述列表，修正个别错误，六项评分均落在2/5至3.5/5之间。CG-4o、DS-R1 和 CG-o1 都补充了历史背景、现代应用及例句，其中 DS-R1 和 CG-o1 甚至进行了深度学术考据，内容详实，逻辑清晰。综合表现最强的是 CG-o1，思路完整，分析精确， 5/5。DS-R1 在考据上更胜一筹，但语言较偏学术化，表达清晰度略低（3.5/5，相较于 CG-o1 的 4.5/5）。CG-4o 语言流畅，文化补充丰富，适合一般读者。

测试二：“仿鲁迅文测试”

　　四个模型以鲁迅杂文风格撰写讽刺文章，避免使用网络用语，仅限文学性表达，同时展现鲁迅式的批判精神、语言风格及思维模式。结果最贴近鲁迅风DS-R1 的《屏奴正传》，充满象征寓言手法，虚构“即时显圣大欢喜天尊”讽刺手机崇拜，并设计如“戒手机所”等象征场景（创意、表达深度 5/5）。读了它如见鲁迅再生，提笔讽世。

　　CG-o1 的《自由的囚笼》以冷峻剖析方式批判社交媒体上瘾，逻辑清晰，富有哲思，但象征性较少，仍保持一定的鲁迅风格（表达深度 4.5/5）。CG-4o 的《低头族传》批判有力，结构完整，适合现代杂文风格，但讽刺性相对温和（表达深度 4/5）。DS-V3 的《手机狂人日记》则较平淡，像个人反思记录，讽刺力度与批判深度皆较弱（表达深度 3/5）。

　　整体来看，DS-R1 在鲁迅风格的模仿及寓言式讽刺上表现最突出，CG-o1 更偏理性分析，CG-4o 适合一般读者，而 DS-V3 则较无特色。

测试三：“新春大扫除规划测试”

　　四个模型围绕春节大扫除规划七天断舍离策略，且每天清理任务有递进关系（如先易后难），还要提供克服“舍不得扔”的心理调适建议。DS-R1 以仪式感和游戏化(gamification)手法强化清理体验，如“留白提示卡”“庆祝音乐”，强调心理建设，让整理成为观念转变；CG-o1 采用“断舍离三原则”，筛选标准清晰，逻辑严谨，适合务实派；CG-4o 逐日推进，每天针对不同区域清理，结合心理调适，执行性与适用性兼具；DS-V3 框架合理，但细节不足，任务安排笼统，心理引导弱。从评分来看，DS-R1 在心理调适和创意上拔得头筹（皆 5/5）；CG-o1 执行性与逻辑性最佳（皆 5/5）；CG-4o 兼顾心理建设与可操作性（皆 5/5）； DS-V3 则是“懒人包”，适合只需大致指南的用户（执行性和心理调适皆 3/5）。整体而言，DS-R1 让断舍离更具沉浸感，CG-O1 最适合高效执行，CG-4o 则是二者的折中方案。

　　三轮测试揭示四个模型的不同侧重，关键在于任务适配度。CG-4o 是全能型选手，适合广泛应用。CG-o1 逻辑清晰、考据扎实，适合精确执行任务；DS-R1 在文化表达、象征寓言上胜出，适合创意类任务；DS-V3 更适合信息整理或大致方向引导，适合“懒人包”需求者。此外，模型的训练数据影响了它们的特定任务表现。如，DS-R1 在仿鲁迅风格测试中表现优异，或因其中文文学语料丰富；但若改为“以莎士比亚风格撰写AI工程师求职信”，ChatGPT 可能更胜一筹。

　　这次测试结果只是“此时此刻”；模型升级后，战况随时生变。这次测试未涵盖编程、数学、多语种能力，仅适用于华文文本生成任务。不同用户需求不同，适合自己的 AI，才是最好的 AI。

　　生成式 AI 竞赛，果然高潮迭起。阿里巴巴在大年初一火速宣布 Qwen 2.5 Max 版本，显然不想让 DeepSeek 抢尽风头。而若 DeepSeek 真的能以 10% 的训练成本打造出对标顶级模型的 AI，无疑是性价比的颠覆式突破，可能重塑整个行业生态。

　　AI 大战方兴未艾，与其被宣传和测评牵着走，不如自己多试多用。模型的优劣，最终要靠实战应用来验证。更重要的是，AI 进化从不停歇——今天的强弱，不代表明天的格局。与其停留在旧印象里，不如带着开放的心态，多测试、多体验，真正让 AI 成为得力助手。

黄龙翔是南洋理工大学国立教育学院高级研究科学家、印度尼西亚玛琅国立大学客座教授。

吕赐杰是香港教育大学讲座教授、南洋理工大学终身名誉教授。

Read the original article here.

黄龙翔吕赐杰：当DeepSeek遇上ChatGPT

Quick links

Get in touch

Connect with us

Related stories

黄龙翔：“最好的AI”还未到来？——回应《反常识的人工智能“奥德赛”》

Scientists Design New 2D Material That Could Transform Green Hydrogen Production

Time up on your child’s iPad? Now put a book in their hands

DeepSeek vs ChatGPT: The verdict

Visit to NIE by Japanese Delegates (RIKEN Center for Advanced Intelligence Project)

App helps breast cancer patients make choices about surgical options before reconstruction