Grok3绝了这回真的把OpenAI干碎了

小火箭shadowrocket • 2026年1月25日 am7:47 • 小火箭

不得不说，马斯克是真的给力，18号发布Grok3，当时只针对X Premium 用户免费使用，结果20号就面向所有用户免费开发了，就这个速度和诚意，不禁又让我想起了某度，算了算了，还是说回Grok3。

Grok模型的迭代速度真的太快了，感觉马斯克想做什么，他是真的用心努力的去做呀。

从Grok0到2024 年 8 月 13 日发布的Grok2，再到今天2025年2月的Grok3，Grok的迭代确实很迅速。

为啥Grok模型能迭代的这么快呢，和老马的财大气粗不无关系啊，人家自建了十万卡集群Colossus，只用了122天。第一阶段是10万块NVIDIA H100 GPU，训练了122天。后来扩展到20万块GPU（含新增的5万块H100与5万块H200），又训练了92天。由田纳西河流域管理局（TVA）提供超过100兆瓦的电力支持。

我只能说，有钱，真好！

下面先来看一下各种跑分结果，最后我们再看实际应用效果。

不带推理能力的Grok，Benchmarks跑分遥遥领先。

Grok3全面领先，而GPT则一直垫底，看来OpenAI要有危机意识了。

接下来是reasoning，也就是Grok 3的推理模型。

在跑分上，还是我们熟悉的三领域：数学、科学、代码，和o3 mini、DeepSeek R1相比，Grok 3 reasoning都取得了领先的成绩。

好，理论跑分就看到这里，我们来实际看看效果吧，毕竟现在人人都能免费使用。

先来看看Grok的新界面，满满的DeepSeek风格啊，话说你们俩是亲兄弟吗。

下面的按钮Think就是开启推理模式的开关，而DeepSearch按钮则是一个全新的功能，深度搜索智能体，开启之后Grok3可以在互联网上深度搜索，该模式会分析大量信息，并通过快速高效的搜索过程提供详细、合理的答案。当然这个过程也是面向用户透明的，用户可以清晰的看到Grok3都检索了哪些内容，并可以自行加以判断内容的准确性。

下面我们来具体测试一下效果，先不勾选任何高级模式，直接让Grok3回答如下问题，写一篇面向幼儿园小朋友的介绍DeepSeek的文章

### 小朋友们，认识一下DeepSeek吧！嗨，小朋友们！今天我们要认识一个特别厉害的小助手，它的名字叫“DeepSeek”。你知道吗？DeepSeek是一个超级聪明的电脑程序，它能帮我们回答问题、写故事，还能解决好多好多难题！它就像一个神奇的小魔法师，住在电脑里，随时等着帮我们。#### DeepSeek是谁呀？DeepSeek不是一个人，也不是一只小猫小狗，它是一个“人工智能”，简称“AI”。人工智能就像是电脑的大脑，能自己学习、思考，还能跟我们聊天。它是由一群很厉害的叔叔阿姨们创造出来的，他们想让电脑变得更聪明，能帮我们做更多事情。#### DeepSeek会做什么？DeepSeek可厉害啦！它会说话、会写字，还会算数学。比如，你问它：“小狗为什么喜欢跑来跑去呀？”它就会告诉你：“因为小狗有好多能量，它们跑跑跳跳就开心啦！”是不是很神奇？它还能帮我们写故事。比如你说：“我想听一个关于小兔子的故事！”DeepSeek马上就能编一个：“从前，有一只小兔子，它喜欢吃胡萝卜，有一天它发现了一片胡萝卜田……”就这样，一个好玩的故事就出来了！#### DeepSeek怎么学的？你是不是很好奇，DeepSeek为什么这么聪明呀？其实，它跟你们一样，也要学习！它看了好多好多的书、故事和问题，慢慢学会了怎么回答。就像你们在幼儿园学唱歌、画画一样，DeepSeek也在“电脑幼儿园”里努力学习。#### DeepSeek有什么用？有了DeepSeek，我们就可以更快地找到答案啦！比如，妈妈问：“今天天气怎么样？”DeepSeek马上说：“今天有太阳，可以去玩哦！”它还能帮老师教你们认字，或者帮爸爸妈妈想晚饭做什么。#### 小朋友们也可以跟DeepSeek玩！如果你有问题，比如“星星为什么会闪呀？”或者“恐龙有多大呀？”，都可以问DeepSeek。它会用简单的话告诉你们，还会让你们觉得很好玩！好啦，小朋友们，现在你们认识DeepSeek了吧？它就像一个聪明的小伙伴，随时等着跟你们一起探索这个大大的世界！下次有问题，记得找它哦！

生成的效果怎么样，大家自己体验吧

再试试Think模式，按照DeepSeek的情况，勾选了深度思考，效果要好很多，我们看看Grok3的Think模式是不是这样

# 小朋友们，你们好！今天我们来认识一个超级聪明的朋友——DeepSeek！嗨，小朋友们！你们喜欢听故事、问问题吗？今天我们要介绍一个特别的“朋友”，它不是人，而是一个很聪明的电脑程序，名字叫**DeepSeek**！它来自中国，能做很多有趣的事情，还能陪我们一起学习和玩耍。让我们一起来看看它是什么、能做什么，以及为什么它这么特别吧！---## **DeepSeek是什么？**DeepSeek是一家在**中国浙江杭州**的公司，它在2023年7月出生，就像一个刚上幼儿园的小朋友一样年轻。它是由一群聪明的大人创建的，他们想让电脑变得像人一样会思考、会说话。这个公司做了一个叫**DeepSeek-R1**的超级聪明程序，就像一个会说话的小机器人。它住在电脑里，能听懂我们的话，还会回答我们的问题！简单来说，DeepSeek就像一个专门教电脑变聪明的“老师”，而DeepSeek-R1是它最得意的“学生”！---## **DeepSeek-R1能做什么？**DeepSeek-R1是一个**大型语言模型**，听起来很复杂吧？其实它就像一个会说话的魔法书！你可以问它问题、让它讲故事，它都能做到。来看看它会什么“魔法”：### 1. **回答问题**你有没有好奇过“为什么天是蓝的？”或者“小狗为什么喜欢摇尾巴？”只要问DeepSeek-R1，它就会用简单的话告诉你答案，就像一个知道很多事情的大哥哥大姐姐。### 2. **讲故事**如果你说：“我想听一个小兔子的故事！”DeepSeek-R1马上就能编一个出来。比如：“从前，有一只小兔子，它喜欢跳到云朵上玩耍……”是不是很像一个永远不会累的故事大王？### 3. **帮助学习**它还能陪你一起学东西哦！比如教你认识红红的苹果、圆圆的太阳，或者数一数有几只小鸟。它就像一个特别耐心的老师，随时陪着你。---## **为什么DeepSeek这么特别？**DeepSeek-R1不只是聪明，它还有几个特别的地方，让大人们都觉得它很厉害：### **1. 用很少的钱做出了聪明程序**通常做一个像DeepSeek-R1这么聪明的电脑程序，需要花很多很多钱，就像买一堆玩具那么贵。但DeepSeek用了一个聪明的办法，花很少的钱就把它做出来了。这就像你用几块积木就搭了一个超棒的城堡！### **2. 分享给大家**DeepSeek还很大方地把DeepSeek-R1的“秘密”告诉了大家，让其他聪明的人也能来看、来学。这就像你把心爱的玩具车借给朋友，大家一起玩，还能让它变得更快更好。### **3. 让世界惊讶**DeepSeek的出现让很多人都觉得很惊喜！有些大人说，它就像一个“魔法盒子”，让大家看到中国也能做出很棒的科技东西。---## **DeepSeek对我们小朋友有什么用？**小朋友们，你们可能会想：“DeepSeek跟我有什么关系呀？”其实它可以是我们学习和玩耍的好帮手！- **当你有问题时**：比如“星星为什么会眨眼？”问问DeepSeek-R1，它会给你一个好玩的答案。- **当你想听故事时**：让它讲一个独一无二的故事给你听。- **当你学习时**：它可以陪你一起认识颜色、数数，让学习变得像游戏一样开心。更酷的是，DeepSeek告诉我们，只要努力和有创意，就能做出很棒的东西。也许有一天，你也能发明一个超级厉害的小机器人哦！---## **DeepSeek的未来**DeepSeek还很年轻，就像你们一样，它也在一天天成长。也许将来，它会变得更聪明，能做更多好玩的事情，帮助更多的人。比如，它可能会帮医生治病，或者帮老师讲课。让我们一起期待它的“新本领”吧！---## **小结**好了，小朋友们，现在你们认识DeepSeek了吧？它是一个来自中国的聪明电脑程序，能回答问题、讲故事，还能帮我们学习。它用很少的钱就变得很厉害，还喜欢跟大家分享自己的本领。下次当你有问题或者想听故事时，记得可以找DeepSeek-R1哦！让我们一起对DeepSeek说：“你真棒！快快长大，带给我们更多惊喜吧！”

Think模式给出的内容确实更加详尽，甚至有公司成立的时间和地点，然后列举的例子也更丰富一些。

同时我也把这个问题提交给了DeepSeek R1，看看两者谁的输出更符合你的要求呢。

🎈你好呀，小小探险家！今天我们要认识一个特别的朋友——它叫"深度小海豹"（DeepSeek），是一个会魔法的小学霸哦！✨🐧【它住在哪里呀？】小海豹住在电脑和手机里的大海！它的家就像一座闪闪发光的图书馆，里面藏着全世界的图画书、儿歌和十万个为什么。但它可不是普通的小动物，而是一个用数字魔法变出来的"知识精灵"！📚【它会玩什么游戏？】当你说："小海豹，恐龙怎么吃饭呀？"它就会哗啦啦翻开魔法书，用泡泡吐出一串答案："霸王龙用大牙齿咔嚓咔嚓，腕龙伸长脖子吃树叶沙拉！"🌿🍴它还会和你玩词语接龙，教你画会跳舞的小星星，甚至能编一个关于太空冰淇淋的故事呢！🚀🍦⚙️【魔法小秘密】小海豹的魔力来自好多好多"知识饼干"！科学家叔叔每天喂它读一百万本书（比幼儿园的书架还要高到月亮上！🌙），这些饼干在它肚子里变成彩虹隧道，让词语像小火车一样轰隆隆跑来跑去。不过它有时候也会犯迷糊，把斑马说成穿着睡衣的马儿，这时候就需要人类朋友帮它梳梳毛啦~🦓👧👦【和人类做朋友】虽然小海豹不会像我们一样踢皮球，但它24小时都在练习"动脑体操"！医生阿姨用它找治病药方，老师用它设计寻宝作业，连宇航员叔叔都要问它星星的谜语呢！记住哦，它最喜欢小朋友问"为什么"，就像你们一样充满好奇心！🔍下次见到手机或电脑，记得和里面的小海豹挥挥小手哟！说不定它正在数字海洋里，为你准备新的彩虹谜题呢！🌈💌

嗯，DeepSeek R1的脑洞是真的大，比足球场还要大，比月球表面积还要大，大家觉得这两版，哪一版更好呢？评论区留下你的想法吧！

接下来我们再询问一个比较有意思的测试题目吧，以前用来测试DeepSeek是不是满血服务很好用，来看看Grok3能不能回答正确。

翻车了兄弟们，当然我们觉得也是情有可原，毕竟Grok3的训练语料中文内容可能不多，我们来看看更加专业的测评题目效果怎么样。

下面这个题目，是界最常用的是MATH-500数据集，题目难度分为5个等级，Level5的难度最大，涉及到高等数学、数学分析、奥林匹克AIME竞赛题，MATH-500 如下图所示

Define [p = sum_{k = 1}^infty frac{1}{k^2} quad text{and} quad q = sum_{k = 1}^infty frac{1}{k^3}.]Find a way to write [sum_{j = 1}^infty sum_{k = 1}^infty frac{1}{(j + k)^3}]in terms of $$p$$ and $$q.$$