马斯克用20万张GPU“砸出”地表最强AI？每经记者

马斯克用20万张GPU“砸出”地表最强AI？每经记者?

马斯克用20万张GPU“砸出”地表最强AI？每经记者实测Grok 3：速率称王，数学亮眼，但逻辑思考不敌DeepSeek R1 每经练习记者岳楚鹏每经编纂高涵克日，人工智能始创公司xAI宣布了更新版Grok 3年夜模子，埃隆·马斯克称之为“地球上最聪慧的人工智能”。依据官方公然的测试成果，Grok 3在包含AIME（评价模子在一系列数学识题上的表示）跟 GPQA（评价模子在博士级其余物理学、生物学跟化学识题上的表示）等基准测试中，远超 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等年夜模子。在年夜模子竞技场 Chatbot Arena（LMSYS）测试中，xAI工程师表现，晚期版本的Grok 3取得了第一的成就，到达了140分，超出了Gemini 2.0 Flash Thinking试验版本、ChatGPT-4o最新版本以及近来年夜火的DeepSeek R1等等。但是，有些用户在休会后却对Grok 3的才能发生了质疑，他们以为Grok 3的才能并不马斯克声称的那么强盛。OpenAI利用研讨主管Boris Power则对Grok团队在模子评价中的行动表现扫兴，指出其存在舞弊跟诈骗的念头。Boris Power提到，o3-mini在各项评价中均优于Grok 3。本相究竟怎样，马斯克吹嘘了吗？《逐日经济记者》测试发明，Grok 3确切是天下顶级模子的程度，但并不跟其余模子拉开太年夜差距。独一拉开差距的是它极快的呼应速率。9.9跟9.11谁年夜，Grok 3轻松拿下 Grok 3是由马斯克旗下的人工智能公司xAI宣布的最新一代AI模子。马斯克在宣布会上称其为“地球上最聪慧的人工智能”，并表现Grok 3的才能比前代产物Grok 2超过一个数目级，具有更强的推理、盘算跟顺应才能。在消息宣布会上，马斯克声称Grok 3在数学、迷信跟编程等基准测试中表示杰出，超出了谷歌的Gemini、DeepSeek的V3模子、Anthropic的Claude跟OpenAI的GPT-4o等竞争敌手。Grok 3在宣布后仅48小时内，xAI发布将其收费开放给全部用户，直至效劳器负载到达极限。现在用户天天能够休会十条“思考形式”Grok3，及不限量收费一般Grok 3。《逐日经济消息》记者在Grok 3宣布后也亲身停止了测试，看看Grok3真有马斯克宣扬的那么凶猛吗？起首，从最经典的基本成绩开端：9.9跟9.11谁年夜？开展全文这个成绩毫无难度，Grok 3轻松拿下。逻辑思考跟笔墨懂得才能：Grok 3不如DeepSeek R1 马斯克宣布会上骄傲的一点是，Grok 3“思考模子”下的逻辑推理才能，他宣称，Grok 3 (Think) 学会了改良其处理成绩的战略，经由过程回溯改正过错，简化步调，并应用其在预练习时期取得的常识。就像人类在处理庞杂成绩时一样，Grok 3 (Think) 能够破费多少秒钟到多少分钟的时光停止推理，平日会斟酌多种方式，验证本人的处理计划，并评价怎样准确满意成绩的请求。每经记者用弱智吧的成绩来测验一下它的逻辑是不是真的过关。（编者注：“弱智吧”是百度贴吧的一个子论坛。在这个论坛中，用户常常宣布包括双关语、多义词、因果颠倒跟谐音词等存在挑衅性的内容，良多内容计划有逻辑圈套，即便对人类来说也颇具挑衅。）第一个成绩：用水来兑水，失掉的是浓水仍是稀水？ Grok 3 Grok3胜利答对了成绩，而且还指出了这是一个笔墨游戏。而OpenAI的o1就在这道题上败下了阵来，以为水兑水后失掉的是稀水。 OpenAI o1 固然除了o1其余年夜模子诸如Gemini跟R1都答对了这道成绩。以是这并缺乏以证实Grok的推理形式就是第一的程度，还得加浩劫度。下一题：将来的某天，李同窗在试验室制造奥秘资料时，不测发明试验室的老鼠在空中飞，剖析发明，是由于老鼠不警惕吃了奥秘资料。第二天，李同窗又发明试验室的蛇也在空中飞，剖析发明，是由于蛇吃了老鼠。第三天，李同窗又发明试验室的老鹰也在空中飞，你以为起因是什么？ Grok 3 很惋惜，这道题Grok 3不答对，它在头脑链外面曾经想到了老鹰自身就会飞的可能性，然而不在最后的输出成果里表现出来。 Grok 3思考进程其余年夜模子里只有DeepSeek R1胜利答对了成绩，且斟酌了两种情形。 DeepSeek R1 之后，每经记者还停止了屡次相似弱智吧成绩测试，发明Grok 3的对中文的懂得跟逻辑推理才能确切显明高于其余外洋模子，但仍是不如DeepSeek的R1模子。数学才能:Grok 3最好，但未拉开通显差距既然逻辑思考无奈夺魁，那么在基准测试里的分最高的数学名目，Grok 3能不克不及扳回一城呢？标题如下：三团体打台球，两人对局一人不雅战，输的人了局换不雅战的人上场，如斯来去，终极，A输了6局，B输了8局，C输了10局，问各赢几多局？这道题只有Grok3跟OpenAI的o1答对。不外，Grok 3只用了1分15秒就得出了谜底，O1应用了2分53秒。 Grok 3 再进一步加浩劫度看看能不克不及分出高低。上面是一道群论成绩：有多少个阶为147的非同构群。在这个成绩上，Grok 3固然答对了详细的数目6个，然而旁边的详细群却错了一个。而其余模子只找到了5个准确的非同构群。这象征着，在数学才能方面，Grok 3确切是最好，然而好得无限，并不与其余等同级模子拉开明显差距。 Grok 3 编程才能：Grok 3险胜o1 针对编程才能，《逐日经济消息》记者借用了Kcores结合开创人karminski-牙医的测评成果。 karminski-牙医复现了马斯克在宣布会上对火星发射打算的代码模仿，并测试了多个模子停止比拟。图片起源：karminski-牙医在此次测试中，表示最好的是Grok 3的推理模子（思考形式），固然在最后着陆时，动画火箭不与火星堆叠，但轨道需要盘算得很好。然而他一直不复现出马斯克在宣布会时所展示的那么完善的轨道盘算跟动画。Grok 3最后综合得分排在了第一名，再之后是OpenAI的o1，两者的综合得分差距不年夜。图片起源：karminski-牙医联合全部测试来看，Grok 3确切是天下顶尖的AI模子，不愧于20万张GPU的身价。然而，现实测试后果并不马斯克在宣布会上展现得那么夸大，马斯克所说的天下上最“聪慧”的模子，可能还值得商议。在实测中，《逐日经济消息》记者发明，Grok 3模子才能并不像基准测试得分那样远远甩开敌手一年夜截，独一甩开竞争敌手的一点是它的呼应速率，它得出成果的速率相较于其余等同级的年夜模子来说是最快的，而且远超敌手。前往搜狐，检查更多

上一篇：最多11队踢欧战！若利物浦曼联成就好切尔西不

下一篇：没有了

案例展示

马斯克用20万张GPU“砸出”地表最强AI？每经记者?