当前位置:首页 > 娱乐八卦 > 正文内容

史上最强 Grok 3 发布:马斯克,成了!


来源:笔记侠整理

01

Grok 3,地表最强AI?

就在今天,埃隆·马斯克扔出“大招”,正式发布新一代聊天机器人Grok 3,与OpenAI o1、DeepSeek-V3/R1等模型一决高下。

在此之前,马斯克称其为“地球上最聪明的人工智能”。

发布会开场时,马斯克解释了Grok这一名字的来历:Grok这个词来自罗伯特·海因莱因的小说《异乡异客》(Stranger in a Strange Land)。这是一个火星词,意思是充分而深刻地理解某事。随后,xAI在发布会上简单粗暴地摆起了数字。

随后,xAI在发布会上简单粗暴地摆起了数字。


图 | Chatbot Arena成绩(来源:xAI)

Grok 3和Grok 3 mini在数学、科学和编程基准测试上超越了所有主流模型,包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。


图 | Grok 3的数学、科学和编程基准测试成绩(来源:xAI)

同时,具备推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning则是超越了类似的推理模型,包括DeepSeek-R1和OpenAI的o3 mini等。


图 | Grok 3推理模型的数学、科学和编程基准测试成绩(来源:xAI)

xAI还现场演示了Grok 3的推理+编程能力,其中一个问题是“生成3D动画代码,演示从地球发射、着陆火星,然后在下一个发射窗口返回地球的过程”。

经过近两分钟的思考,Grok 3生成了可以直接跑起来的python代码,3D动画可以运行,但是否正确还有待验证。


图 | Grok 3生成的代码可以直接运行(来源:xAI)

Grok 3的最后一个新功能是代理/智能体(Agent)。发布会演示的是新产品DeepSearch,基于Grok 3的搜索引擎。

它不仅可以搜索网页,查找现有资料,还可以“推测用户的真正意图”并加以思考,在经过交叉对比不同信源后,确保“能够返回正确的信息”。

在演示中,它还能基于搜索资料给出一些推测性的结论。


图 | DeepSearch功能演示(来源:xAI)

发布会中,xAI谈到,Grok 3由Colossus超级计算机训练完成,这台计算机是在短短八个月内建成的,搭载了10万颗英伟达H100 GPU,提供了超过2亿GPU小时的计算资源——是Grok 2的10倍。


图 | Colossus设施(来源:xAI)

据介绍,xAI最开始搭建这个10万GPU集群用了122天,后续拓展到20万集群仅用了92天。

马斯克表示,这一显著的算力提升让Grok 3能够更高效地处理庞大数据集,缩短训练时间,并提升AI模型的准确性。

据介绍,在训练方法上,xAI采取了一些新的策略来优化Grok 3的能力,包括合成数据集、自我纠错机制和强化学习。

Grok 3的推出标志着xAI在AI竞赛中的又一次重大尝试。凭借强大的计算能力、优化的训练方法以及对逻辑推理的改进,马斯克寄希望于它能在AI市场上占据一席之地。


图 | Grok 3 在Arena排行榜中拿到了1402的高分(来源:lmarena.ai)

不过,在这场AI诸神之战中,这并不是一个容易实现的目标。

02

6个月完成10倍升级,

Grok 3背后的第一性原理

从特斯拉到Space X,再到xAI,马斯克在不断颠覆这个世界。

而这背后,离不开他极力推崇的决策框架:第一性原理。

马斯克曾说:“运用第一性原理而不是比较思维,思考问题是非常重要的。我们在生活中总是倾向于比较,别人已经做过或者正在做的事情,我们也都去做,这样发展的结果只能产生细小的迭代发展。”

举个例子,特斯拉研制电动汽车期间,曾遇到一个难题:电池成本居高不下。当时储能电池的市场价格是每千瓦时600美元,这个市场价格很稳定,短期内不会有太大的变动。

但是马斯克从第一性原理角度进行思考:电池组到底是由什么材料组成的?这些电池原料的市场价格是多少?如果我们购买这些原材料然后组合成电池,需要多少钱?这个答案是,每千瓦时只需要80美元。

从最本质出发,研究电池都是由什么材料组成,再推算这些原材料加在一起的价格,从而得到电池的最低价格,通过这样的思维方式,马斯克让电动车的商业化成为可能。

多数人考虑问题的出发点是这件事情的现有情况是既定事实,我无法改变,但是马斯克的想法是,如果这件事在物理层面行得通,那么我也能做成。

再举个例子,马斯克在Space X成立之初,面临成本难题。因为美国国家航空航天局向波音公司采购用于发射卫星或者宇宙飞船的大型运载火箭,单次发射成本高达16亿美元。

因为“运载火箭只能进行一次性使用”,这在传统的火箭运载技术中基本是“行业共识”,而这大大降低了美国国家航空航天局向外太空进行探索的速度与效率。

要想实现“到2050年将100万人送往火星工作和生活”的伟大理想,埃隆·马斯克又是如何解决这一重大难题的呢?

第一步:“挖”思维盲区

“运载火箭只能一次性使用”这一传统火箭运载技术中的“行业共识”被马斯克从思维盲区中揪出来了。

在普通人看来,这种集体共识、信念与假设,就是隐形存在的教条,而马斯克在心里反复追问:“这个共识成立吗?总是成立吗?有没有例外?能打破吗?除非……”用层层追问的好奇心与逻辑思维抓住了火箭升空成本问题的本质,他说:

“只能使用一次的消耗性运载火箭,看起来就像是航空公司在每次完成飞行时丢掉他们的客机,而可重复使用的火箭则可以节省巨额成本。”

第二步:“破”思维边界

找到火箭升空成本问题的本质后,SpaceX经历多年艰苦研发与巨资投入,在一次又一次推迟发射与试飞失败,并面临现金流断裂的情况下,终于在2018年2月实现了可重复利用的猎鹰重型火箭的成功试飞,创造了航天领域的奇迹。

猎鹰重型火箭成功试飞,让火箭的单次发射成本从16亿美元降到了9000万美元,只有传统一次性运载火箭成本的5%。这为马斯克移民火星的伟大理想助力向前迈进了一大步。

面对移民火星火箭发射成本居高不下的问题,马斯克深挖通过第一性原理找到“成本”背后真正的阻碍问题,破除了“一次性使用”的心智界限。

而在Grok 3的训练上,马斯克和xAI团队也是靠着第一性原理,从最基本的假设出发,快速试错,才能在6个月的事件内,实现计算能力的10倍增长。

03

DeepSeek和Grok 3的区别

xAI(Grok 3)和深度求索(DeepSeek)的出发点就不太一样。

xAI的目标是加速人类的科学发现,让Grok 3成为一个“宇宙通识者”,能帮人类解答从物理学到哲学的各种问题。

而深度求索更多是冲着技术性能和成本效率去的,特别在编程、数学推理这类具体任务上表现得很抢眼。

1.训练目标和风格

Grok:Grok 3的训练数据是个“大杂烩”,涵盖了广泛的知识领域,目的是让Grok 3尽可能全面、灵活,能应对各种奇怪的问题。Grok 3的训练过程可能更注重语言的流畅性和对话的自然感,而不是单纯追求某个领域的极致性能。

DeepSeek:DeepSeek的训练目标更聚焦,尤其是V3用了混合专家模型(MoE),这是一种聪明的方法,能让模型在处理具体任务时只激活一部分参数,节省计算资源。R1则进一步强化了推理能力,比如解决复杂的数学或代码问题。DeepSeek的训练明显更偏向技术优化,追求高效率和低成本。

2.数据和方法

Grok:Grok 3的数据来源很广,可能包括科学文献、公开文本,甚至一些对话数据,目的是让Grok 3更贴近人类的表达方式。

DeepSeek:DeepSeek V3号称用了14.8万亿个token(文本片段)训练,涵盖多语言,特别是数学和编程相关的数据。DeepSeek还用了FP8低精度计算和多token预测这样的创新,减少内存占用,加快训练速度。R1甚至直接用强化学习(RL)从V3基础上提炼推理能力,这种“蒸馏”方法挺有意思。

3.资源和成本

Grok:Grok 3的训练可能更依赖高端硬件,比如NVIDIA的最新GPU,成本比DeepSeek多。

DeepSeek:他们厉害的地方在于用相对“弱势”的硬件(NVIDIA H800,比H100差一档)训练出了顶级模型。V3 reportedly 只花了558万美元,靠的是算法优化和自研框架,而不是堆砌昂贵的硬件。

4.结果上的差异

Grok:更像个“聊天大师”,适合探讨开放性问题,提供有趣的思路。如果问Grok 3宇宙的意义,他可能会给你一个既深刻又带点调侃的回答。

DeepSeek:更像“技术专家”,如果你扔给它一道复杂的数学题或者一段代码调试任务,它可能会直接给出精确解法,效率很高。

参考资料:1.《Grok 3来了!马斯克宣称“地球上最聪明的AI”,20万张GPU能否颠覆AI格局?》,DeepTech深科技;2.《马斯克:第一性原理,是最好的思考方式》,笔记侠。

THE END

扫描二维码推送至手机访问。

版权声明:本文由0538资讯网整理发布,内容均来自互联网,如有侵权联系8641340@qq.com删除。

本文链接:https://www.0538ta.cn/post/90377.html

分享给朋友:

“史上最强 Grok 3 发布:马斯克,成了!” 的相关文章

2万人发动总攻,反扑20轮遭绞杀,歼灭11名军官,全军乱套

2万人发动总攻,反扑20轮遭绞杀,歼灭11名军官,全军乱套

乌克兰军队在库尔斯克地区搞了个大动作,集结了差不多两万号人马,准备来一场说打就打的大反攻。乌军高层们琢磨着,要是能在库尔斯克这儿打开个缺口,就能长驱直入俄罗斯腹地,彻底改变这场仗的局面。他们对这次行动可是信心满满,觉得只要攻破库尔斯克的防线,就能扭转整个战局...

闽商富豪,输掉全部身家

闽商富豪,输掉全部身家

作者: 陈思美来源:商业人物(ID:biz-leaders)困境中苦苦挣扎多时,拉夏贝尔近日再次发布公告,披露公司破产重整程序的最新进展及相关风险提示。拉夏贝尔的重整之路开启已有一年多,重整计划草案两度延期,一切似乎并不顺利。资本市场上,两年前公司已被上交所...

过气老戏骨窘况:住养老院、领救济金、瘫痪在床,一地尴尬与心酸

过气老戏骨窘况:住养老院、领救济金、瘫痪在床,一地尴尬与心酸

文|乐乐编辑|先锋谷红是一种“玄学”,这是娱乐圈的“铁律”。有人“一面成名”,有人“强捧不红”,更有人经历大起大落,饱尝从巅峰坠入谷底的痛苦。年轻时享受掌声追捧,享尽荣华富贵。谁曾想岁月不饶人,老年却落了个“无人问津”的下场。住养老院、靠救济金生存、子女争夺...

炸裂!吃播网红直播中调侃9·18,说自己“不是中国人”,身份被扒

炸裂!吃播网红直播中调侃9·18,说自己“不是中国人”,身份被扒

—^【引 言】^—大家都知道“918”是我国为了警示民众,勿忘国耻,铭记历史的日子。而就在近日,一名网红,竟在直播中“调侃918”并且还说自己“不是中国人”!据了解,这个网红名叫“娟子”是一名吃播,在某视频平台上拥有40多万的粉丝。9月18号的一场直播中,她...

王子文前男友疑再曝恋情!和新女友现身在纽约,新女友侧脸像混血

王子文前男友疑再曝恋情!和新女友现身在纽约,新女友侧脸像混血

说起来娱乐圈的那些事儿,真是比电视剧还精彩呢!今天咱们聊聊王子文和她那前男友吴永恩的故事。王子文,大伙儿应该都不陌生,内地演技派女演员,演过不少好剧,人长得也挺有特色,不是那种千篇一律的美,是那种能让人记住的脸,反正斩获过许多的粉丝。想当年,王子文和吴永恩那...

打造理想家居:普陀区装修公司求推荐(急)

打造理想家居:普陀区装修公司求推荐(急)

在选择普陀区装修公司的时候,找到一家信誉良好的装修公司是非常重要的。毕竟,只有与专业的装修公司合作,才能确保完成的装修项目符合您的期望和标准。在上海,有很多装修公司可以选择,但如何挑选出最适合您的一家呢?接下来,我们将为您介绍一些选择上海装修公司的建议,希望...

妈妈吐槽女儿要养的狗,抱回来又不管,都扔给她照顾了!引发热议

妈妈吐槽女儿要养的狗,抱回来又不管,都扔给她照顾了!引发热议

大家好,我是小乐,每天分享话题,欢迎大家一起来唠嗑。喜欢小编的朋友,可以动动金贵的小手,点个关注哦。现在很多小孩子都喜欢养宠物了,比如可爱的猫啊狗啊的,有些小孩子能够自己照顾,有些小孩子新鲜几天就不管了,都扔给妈妈伺候。有位妈妈吐槽,她家女儿之前一直闹着要养...

原来男生才爱计较, 网友:男人没心机是我这辈子听过最大的谎言!

原来男生才爱计较, 网友:男人没心机是我这辈子听过最大的谎言!

哈喽!漂亮的小姐姐,帅气的小哥哥们,感谢你们点进我的文章,喜欢就给我点个赞吧,爱你们哟!原来男生才爱计较, 网友:男人没心机是我这辈子听过最大的谎言!在人们的传统观念中,男性通常被认为是理性、直接和不拘小节的。然而,现实生活中的情况却并非如此。越来越多的证据...

你能接受孩子的平庸吗?网友:我爸怕我创业败家,索性往废了培养

你能接受孩子的平庸吗?网友:我爸怕我创业败家,索性往废了培养

很多时候,简单就是快乐幸福!成功与平庸,没有绝对的标准。如果孩子的智力水平不够高或家庭环境不好…… 作为家长也只有顺其自然的好!鸡娃不如给娃找个好配偶,别人家鸡出来的娃给你分一半不香吗!?[灵光一闪][灵光一闪][灵光一闪]我对我的孩子也是这么要求。健康,不...

14年一家4口在华山跳崖,负债达3亿,只留下2月大的女婴

14年一家4口在华山跳崖,负债达3亿,只留下2月大的女婴

2014年11月,李妍和丈夫岳钲带着双方的母亲来到华山,不过他们不是来游玩的,而是相约好了自杀。在此之前,他们夫妻二人一人是华润万家的供货商经理,一人是稳定的银行职员,二人还开了一家公司,名下的别墅豪车不计其数。更重要的是,他们还有一个两个月大的女儿,这一家...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。