当前位置:首页 > 娱乐八卦 > 正文内容

DeepSeek 这把火,为何烧疼了硅谷?

七夏17小时前娱乐八卦30


作者:刘润

来源:刘润(ID:runliu-pub)

很多人在后台给我留言,要我讲讲DeepSeek。这大过年的。本来想睡个懒觉。然后看个电影。然后再睡个懒觉。然后再看个电影。什么也不想写。但是但是但是,DeepSeek实在是太火了。

火到什么程度呢?

美国的一把山林大火,几个星期烧掉了加州2500亿美元。而DeepSeek横空出世,纳斯达克大跌3%,瞬间烧掉了5000多亿。

什么概念?如果把这5000多亿换成百元美刀,用飞机来运到焚烧厂去烧,需要87架满载的空客380。

美国人吓坏了。

可是,DeepSeek这把火,为何烧疼了硅谷?DeepSeek,到底厉害在什么地方?他被高估了吗?有人指责DeepSeek“偷窃”,是真的吗?

今天。我们就来聊聊这件事。从哪里开始呢?就从美国人为什么这么怕开始。这种怕,源于心中的一根刺。一根针不能碰,一碰就疼的针。

这根刺的名字叫:斯普特尼克时刻。

01

斯普特尼克时刻

1957年10月的一天,很多美国人走出家门,惊恐地望向天空。他们听说,(前)苏联人发了一颗“篮球”上天,绕着地球飞行。时速29000公里。他们试着用肉眼,寻找这颗不断在他们头顶上绕圈的“篮球”。

这颗“篮球”的名字,就叫斯普特尼克(sputnik)。它当然不是篮球。它是一颗人造卫星。

人类历史上第一颗人造卫星。

人类历史上第一颗人造卫星,“居然”不是自己发射的。美国人很难接受。你能想象吗?这就像连续三年的全年级第一,突然发现清华唯一提前录取的,不是自己。

斯普特尼克号卫星,就像一根刺一样,扎痛了那一代美国人。

然后,美国正式成立了NASA(美国航天局),并举全国之力完成了登月。这才拔掉了心头那根叫“斯普特尼克”的刺。

68年后的今天,DeepSeek让美国人看到了另一个“斯普特尼克”时刻。


02

大模型届的拼多多

你试过DeepSeek了吗?

赶快去试试。真不错。推理能力,直逼OpenAI的ChatGPT o1。而且,不用翻墙。不用美国信用卡。也不用担心,因为不慎被发现是中国用户,而被系统“歧视性”封号。太扬眉吐气了。

但这都不是最重要的。最重要的是:DeepSeek实在是太太太便宜了。

ChatGPT o1完成一次训练的成本,据说要上亿美金。而DeepSeek,只需要不到600万美金。

1/20。便宜到不敢相信。

这就像有人指着一台20万的新能源车,说1万卖给你。便宜到难以置信。你忍不住问,这台是不是只会唱:爸爸的爸爸是爷爷?

美国科技界迅速对DeepSeek做了各种评测。然后,震惊了。这个“大模型届的拼多多”,推理能力真和ChatGPT o1非常接近。

随即,英伟达股票大跌17%。原来,训练一个模型,并不需要像你们说的那么多GPU啊。DeepSeek,居然做到了所有硅谷科技巨头都没做到的事。

那么,DeepSeek,到底是怎么做到的呢?

被“逼”的。被“年级第一”的“小院高墙”策略逼的。


03

小院高墙

2018年,美国首次提出对华科技防御策略:小院高墙。关系到美国国家安全的“小院”(半导体和微电子,量子信息技术,和人工智能等等),对中国建设“高墙”(出口管制,限制签证,和审查投资等等)。

随后,2022年,美国开始禁止英伟达对中国出口高端GPU。这些GPU,对训练AI大模型至关重要。

为什么啊?好好做朋友不行吗?不做朋友,做生意也行啊。公平竞争,共谋发展。有必要这么藏着掖着防着吗?

哎。你不理解“年级第一”的心态。

在一个班里,倒数第一和倒数第二,一般都是铁哥们。但是正数第一和正数第二,基本都是死对头。

以前我帮你辅导作业,是因为你是后进。你进步我很高兴。可是万万没想到,你居然不识好歹,才帮了几天你就想取代我的“年级第一”了。这怎么行。橡皮是我的。GPU也是我的。以后再也不借给你了。

这就是“年级第一”的心态。

那怎么办呢?就这么认输吗?没有GPU,怎么训练AI模型呢?

创新。

资源无限的时候,不需要创新。真正的创新,都发生在匮乏的时候。

比如:混合专家系统。


04

混合专家系统

混合专家系统,也就是Mixure of Experts。简称MoE。

我们去医院看病。医院的50个医生,每个都是最好的全科医生。内科、外科、儿科、心血管科、脑科、甚至妇科。什么都懂,什么都能治。这当然最好。但这样的成本实在是太高了。因为每个医生可能都要30年才能毕业。

这就像大模型。一个模型,有50个博士学位,能回答所有问题。这当然好。但是实在是太烧GPU了。

而且,GPU都在美国的小院里。我没有啊。怎么办呢?

也许你可以试试,把医院分成不同的科室。内科的只管内科,外科的只管外科。这样,“训练”医生难度不就降低了吗?

用50个便宜的专科医生,取代一个昂贵的全科医生。然后,再设一个导诊台,根据病情,把患者分配给不同的医生,问题不就解决了吗?

这就是混合专家系统。

混合专家系统,大大降低了AI的训练成本。


05

强化学习

训练大模型还有一项重要的成本,是人工打标签。

这张照片,是只小狗。那张照片,是只小猫。清楚标记出来,人工智能才不会学错。用人工标签,监督AI的学习过程。这就是“监督学习”(Supervised Learning)。

“监督学习”,给很多第三世界国家,创造了大量工作岗位。所以有句开玩笑的话:

有多少“人工”,就有多少“智能”。

那这个成本,能不能也省了呢?

孩子学习走路的时候,可没有用什么打标签的照片吧。这个姿势是正确的,那个姿势是错误的。孩子,请按照片上的姿势走。从来没有吧。

那孩子是怎么走路的?就是只管走就好了。摔倒了屁股会疼。走好了妈妈会抱。孩子会根据这种惩罚和奖励的反馈,不断自动调整姿势,直到终于在一个瞬间,就突然会走路了。

这就是:强化学习。Reinforcement Learning。简称RL。用激励函数,而不是打标签的数据,来学习。从而大大降低训练成本。

MoE+RL。

真不容易。为什么美国人没有先做出来?

因为他们不缺GPU啊。很多创新,都是被“逼”出来的。

DeepSeek还有一个独特之处,那就是:开源。


06

开源

有一个挺讽刺的事。你已经知道了吧。OpenAI,其实并不Open。

什么,你还不知道?那听我和你好好说说。

ChatGPT 2.0之前,OpenAI是开源的。模型的代码和权重,是对所有人公开的。但自从ChatGPT 3.0开始,OpenAI选择了闭源。“OpenAI”变为了“CloseAI”。

其实,这也可以理解。训练大模型实在是太烧钱了。逐渐大家也开始接受了:想要高质量的模型,就要选择闭源。

直到,DeepSeek R1出现。并且开源。

可是,就算你的成本很低,只有OpenAI的1/20,也没必要开源吧?毕竟你也要活下去啊?你开源,图什么啊?

图:生态。

我只有200个工程师。就算他们全是浙大、北大、清华毕业,也只有200个人。这点人手,根本无法和微软、谷歌、OpenAI比。

那怎么办?团结整个开发者生态。

我把所有的研究成果,模型代码和权重,都免费公开给全世界。这样,就会吸引大量开发者,来使用我的模型,测试我的模型,改进我的模型。

代码很重要。但是生态更重要。

用代码换取整个生态的帮助,可能才是对抗巨头们的唯一方法。

明白了。可是,那你怎么活下去呢?

别担心。开源大模型,也能赚钱。


07

开源也能赚钱

开源大模型,至少有三种赚钱的办法。

第一种,是“双代码模式”。

免费公开的基础代码。这对大部分人来说够用了。但是对于一些大型企业来说,他们希望有的权限管理,分级管理,等等各种“高级能力”,可以收费。

第二种,是“保险费模式”。

是代码,就会出问题。大公司对服务的稳定性、响应的及时性,要求很高。所以,大公司很可能会购买“保险”服务,确保遇到问题时,会有人会处理。

第三种,是“云服务模式”。

而对中小企业和个人,可以像用水和用电一样,直接调用DeepSeek的API,使用DeepSeek的云端“智能资源”,然后按“度”(百万token)付费。

不管是开源,还是闭源。只要创造了价值,都能赚到钱。所以,不用为DeepSeek担心。

也不用为英伟达担心。


08

杰文斯悖论

DeepSeek这个“大模型届的拼多多”横空出世。英伟达股票当天暴跌17%。投资人担心大家不再需要那么多GPU了。

其实,大家不用太担心。给你讲个故事。

1776年,瓦特改良了蒸汽机。瓦特蒸汽机,比老式蒸汽机,节省2/3的煤炭。于是人们欢呼:煤炭的消耗,将从此大大减少。

但实际情况,恰恰相反。英国经济学家杰文斯发现,蒸汽机的效率提高了10倍的同时,煤炭的消耗量不但没有下降,反而上升了100倍。

为什么呢?

因为蒸汽机效率提升后,原来用不起煤炭的人,觉得自己用得起了。于是纷纷办厂。工厂数量的激增,反而引起煤炭用量的剧烈反弹。

这就是著名的“杰文斯悖论”。

英伟达的显卡同理。

DeepSeek大大提升了GPU的使用效率。这在短期内,可能会导致GPU的用量下降。但很快,就会有更多人因此加入模型训练阵营,从而导致显卡的需求激增。

果然。懵了的纳斯达克,第二天就清醒了过来。英伟达股票回涨了8%。

回过神来后,在一片赞叹声中,也逐渐出现了各种质疑和批评。

比如:蒸馏。


09

蒸馏

美国白宫顾问David Sacks公开表示,有“实质性证据”证明,中国AI公司DeepSeek“蒸馏”(distill)了OpenAI模型。他把这种“蒸馏”行为,比作“偷窃”。

嗯……打不过,就诬陷吗?“蒸馏”这个指控,很严重啊。

首先解释一下,什么是“蒸馏”?

有两个模型。一个老师模型(teacher model),一个学生模型(student model)。学生不断向老师提问,并把“问题-答案”记录下来。然后用这些“问题-答案”的数据,来训练学生,从而让学生拥有和老师非常接近的知识和能力。这就叫:蒸馏。

这就是蒸馏啊?可是,学生向老师学习,也没什么问题吧?

是的。学习是没什么问题。但是,ChatGPT的用户协议里明确写着,不允许用我的模型,来训练新的模型,尤其是训练用来和我竞争的模型。也就是说,禁止蒸馏。用ChatGPT,就要遵守ChatGPT的使用协议。这是诚信问题。

另外,牛顿花了30年创造了万有引力定律。我花了3天学会了万有引力定律。虽然结果是,我们都懂了万有引力定律。但是,我不能用我的3天,去嘲笑牛顿的30年。

所以,David的这个“蒸馏”指控,还是挺重的。

那么,我亲爱的读者朋友,你相信DeepSeek蒸馏了ChatGPT的模型吗?

我确实不知道。我希望没有。因为如果真有,那这篇文章前面所有文字,可能有部分就白写了。

如果真的没有,DeepSeek,我希望你能你起诉David。请求法院罚他赔偿1美元。加在小红书上连续道歉30天。

这样的污蔑,太欺负人了。


10

曼哈顿计划 2.0

DeepSeek这把火,为何烧疼了硅谷?

用游戏科学的创始人冯骥的话来说:因为这是一个“国运级”的机会。

为什么?因为AI不是一项普通的技术。它是一门能改变几乎所有其他技术的技术。

哪个国家能率先实现通用人工智能(AGI),也许谁就能率先解决材料科学问题(武器更先进),率先解决蛋白质问题(医疗更先进),率先解决可控核聚变问题(能源更先进),以及其他很多问题。

这也是为什么,美国人把AI称作曼哈顿计划 2.0。

上个世纪,美国人发誓,一定要比德国人先研发出原子弹。这项计划,就叫做作:曼哈顿计划。现在,他们一定要比中国人先实现通用人工智能。甚至不惜各种封锁。

哎。至于吗。一起发展不好吗?必须对中国封锁吗?

我用这个问题问AI。

中国的DeepSeek给我的回答是:

否。技术竞合催生共赢,封锁反噬创新生态。

说得真好。

而美国的ChatGPT给我的回答是:

否。但出于竞争与安全考量,美国可能选择部分领域封锁以维护技术优势。

嗯。果然是美国的GPT。

THE END

扫描二维码推送至手机访问。

版权声明:本文由0538资讯网整理发布,内容均来自互联网,如有侵权联系8641340@qq.com删除。

本文链接:https://www.0538ta.cn/post/86581.html

分享给朋友:

“DeepSeek 这把火,为何烧疼了硅谷?” 的相关文章

从传奇企业家到丑恶资本家,人民日报都批评,马云到底犯了什么错

从传奇企业家到丑恶资本家,人民日报都批评,马云到底犯了什么错

马云,曾是中国商业界的传奇,他从零开始,凭借坚韧不拔的奋斗,跻身中国乃至全球商业领袖的行列。然而,仅仅几年后,便被人们骂的体无完肤,甚至连人民日报也做出了批评,官方的处罚更是让公众哗然。那么,究竟是什么原因让马云从神坛跌落?他又犯了什么错?马云出生在一个普通...

黄晓明晒中秋家宴,小海绵与爷爷奶奶举杯欢庆,祖孙三代幸福满满

黄晓明晒中秋家宴,小海绵与爷爷奶奶举杯欢庆,祖孙三代幸福满满

声明:本文内容均是根据权威资料,结合个人观点撰写的原创内容,文中标注文献来源及截图,请知悉。前言中秋节是我们众多家庭团圆的日子,一大家人在一起聊聊过往和未来,吃上一口团圆饭,那幸福的感觉总是让人沉浸在其中。与此同时许多公众人物也借此机会在网络上分享自己的中秋...

这一次,装穷人的“网红小英”,如今底裤都快被网友扒光了

这一次,装穷人的“网红小英”,如今底裤都快被网友扒光了

近日,网红界再曝猛料,知名博主“苦瓜队队长”小英,疑似塌房了。网红小英造梗无数,如“饿出直角肩的牛”、“被饿僵的鸡”等荒诞不经却又直击笑点的梗。迅速在网络平台上积累了大批忠实粉丝,更被誉为创意无限的“梗王”。然而,好景不长,随着网友对小英过往行为的深入挖掘;...

都散了吧!小杨哥这次又挺过去了,三只羊复播,直播间骂声一片!

都散了吧!小杨哥这次又挺过去了,三只羊复播,直播间骂声一片!

大家好,我是香蕉君!给大家捋一捋三只羊的事件目前为止的时间脉络:三只羊卖月饼➡️月饼被质疑➡️网络发酵➡️合肥市监局介入➡️人民日报发声点评➡️香港头条报道➡️三只羊旗下账号停播➡️广州花都区介入调查确认企业无违法行为➡️合肥市监局发布情况通报,两次通报内容...

《凡人歌》7位颜值明星狂飚演技,老戏骨意外败给年轻一代

《凡人歌》7位颜值明星狂飚演技,老戏骨意外败给年轻一代

《凡人歌》大结局了,带火了一波影视剧流量,在这部都市家庭剧中,7位颜值主角狂飚演技,结果如何呢?一起来评个分!女主角殷桃饰演沈琳。成功塑造了二宝妈妈、职场白领、月 嫂保姆和小摊业主的不同角色,传承了《人世间》中美丽、贤惠、坚强的妻子形象,演技中规中矩。除了开...

笑死,全红婵单纯的想来接姐姐回过中秋,没想到惊动了校领导作陪

笑死,全红婵单纯的想来接姐姐回过中秋,没想到惊动了校领导作陪

中秋佳节之际,回到老家迈合村的全红婵只不过单纯的想来学校接姐姐回去过中秋节,却没想到还是惊动了校领导作陪,引起了广大网友的围观和热议!全红婵的姐姐因为高考没考好,但又想去更好的学校,就选择复读了一年。由于学习任务重,所以从婵宝回家后也没有见到过姐姐。中秋节是...

男子从墓地爬出来,质问医生为什么没把他救活,要被评论区笑死了

男子从墓地爬出来,质问医生为什么没把他救活,要被评论区笑死了

好家伙,这确实得赔点钱,都差点把人给活埋了![震惊][震惊]那到时候变成鬼魂了还是照样找![泪奔][泪奔]怎么不算救活了呢,突然被强行开机了![泣不成声][泣不成声]医生:你不是都活了吗?你还要钱干嘛?![笑哭][笑哭]医生看见他的时候天都塌了![捂脸][捂...

笑不活了,重庆气象局:你莫管,我有哈数,要被评论区笑死了

笑不活了,重庆气象局:你莫管,我有哈数,要被评论区笑死了

无情嘲笑,摇裤儿危机,气象局改名,太有实力了,怎么会闯这么多的大祸![大笑][大笑]摇裤儿危机中的抽象浪漫,有一种不顾死活的浪漫![捂脸][捂脸]四川:你莫打喽!又打到我们这里来喽,就莫名其妙的被淋了两次![机智][机智]没注销,改名成:重庆天气传媒了![泪...

为什么很多女人陷在讨厌婆婆里出不来?网友的分享太扎心了

为什么很多女人陷在讨厌婆婆里出不来?网友的分享太扎心了

[微笑]我就觉得各自安好互不干扰就是对彼此最大的尊重。真的,不帮忙还看不得幸福一直作妖是真的心累,别说经济援助了,不来追养育儿子承认的债算是仁慈,不过主要还是看作为儿子的怎么处理,他拎得清小家天下太平,拎不清及早逃离,保存彼此吧。他们本就是一家子,老公护着...

有人刺伤日本儿童,有人笑忘9·18

有人刺伤日本儿童,有人笑忘9·18

今天是9·18,一个特殊的日子。今天应该万众一心,铭记历史,鞭策奋进,实现国强民福。但今天发生了两件事,却让人看到撕裂,嗅到了一丝危机。第一件事:9月18日中午,深圳南山区警方在通报,当天上午,区内发生一起持刀伤害路人警情,未成年人沈某受伤。伤人者44岁钟某...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。