当前位置：首页 > 娱乐八卦 > 正文内容

DeepSeek 这把火，为何烧疼了硅谷？

七夏17小时前娱乐八卦30

作者：刘润

来源：刘润（ID：runliu-pub）

很多人在后台给我留言，要我讲讲DeepSeek。这大过年的。本来想睡个懒觉。然后看个电影。然后再睡个懒觉。然后再看个电影。什么也不想写。但是但是但是，DeepSeek实在是太火了。

火到什么程度呢？

美国的一把山林大火，几个星期烧掉了加州2500亿美元。而DeepSeek横空出世，纳斯达克大跌3%，瞬间烧掉了5000多亿。

什么概念？如果把这5000多亿换成百元美刀，用飞机来运到焚烧厂去烧，需要87架满载的空客380。

美国人吓坏了。

可是，DeepSeek这把火，为何烧疼了硅谷？DeepSeek，到底厉害在什么地方？他被高估了吗？有人指责DeepSeek“偷窃”，是真的吗？

今天。我们就来聊聊这件事。从哪里开始呢？就从美国人为什么这么怕开始。这种怕，源于心中的一根刺。一根针不能碰，一碰就疼的针。

这根刺的名字叫：斯普特尼克时刻。

斯普特尼克时刻

1957年10月的一天，很多美国人走出家门，惊恐地望向天空。他们听说，（前）苏联人发了一颗“篮球”上天，绕着地球飞行。时速29000公里。他们试着用肉眼，寻找这颗不断在他们头顶上绕圈的“篮球”。

这颗“篮球”的名字，就叫斯普特尼克（sputnik）。它当然不是篮球。它是一颗人造卫星。

人类历史上第一颗人造卫星。

人类历史上第一颗人造卫星，“居然”不是自己发射的。美国人很难接受。你能想象吗？这就像连续三年的全年级第一，突然发现清华唯一提前录取的，不是自己。

斯普特尼克号卫星，就像一根刺一样，扎痛了那一代美国人。

然后，美国正式成立了NASA（美国航天局），并举全国之力完成了登月。这才拔掉了心头那根叫“斯普特尼克”的刺。

68年后的今天，DeepSeek让美国人看到了另一个“斯普特尼克”时刻。

大模型届的拼多多

你试过DeepSeek了吗？

赶快去试试。真不错。推理能力，直逼OpenAI的ChatGPT o1。而且，不用翻墙。不用美国信用卡。也不用担心，因为不慎被发现是中国用户，而被系统“歧视性”封号。太扬眉吐气了。

但这都不是最重要的。最重要的是：DeepSeek实在是太太太便宜了。

ChatGPT o1完成一次训练的成本，据说要上亿美金。而DeepSeek，只需要不到600万美金。

1/20。便宜到不敢相信。

这就像有人指着一台20万的新能源车，说1万卖给你。便宜到难以置信。你忍不住问，这台是不是只会唱：爸爸的爸爸是爷爷？

美国科技界迅速对DeepSeek做了各种评测。然后，震惊了。这个“大模型届的拼多多”，推理能力真和ChatGPT o1非常接近。

随即，英伟达股票大跌17%。原来，训练一个模型，并不需要像你们说的那么多GPU啊。DeepSeek，居然做到了所有硅谷科技巨头都没做到的事。

那么，DeepSeek，到底是怎么做到的呢？

被“逼”的。被“年级第一”的“小院高墙”策略逼的。

小院高墙

2018年，美国首次提出对华科技防御策略：小院高墙。关系到美国国家安全的“小院”（半导体和微电子，量子信息技术，和人工智能等等），对中国建设“高墙”（出口管制，限制签证，和审查投资等等）。

随后，2022年，美国开始禁止英伟达对中国出口高端GPU。这些GPU，对训练AI大模型至关重要。

为什么啊？好好做朋友不行吗？不做朋友，做生意也行啊。公平竞争，共谋发展。有必要这么藏着掖着防着吗？

哎。你不理解“年级第一”的心态。

在一个班里，倒数第一和倒数第二，一般都是铁哥们。但是正数第一和正数第二，基本都是死对头。

以前我帮你辅导作业，是因为你是后进。你进步我很高兴。可是万万没想到，你居然不识好歹，才帮了几天你就想取代我的“年级第一”了。这怎么行。橡皮是我的。GPU也是我的。以后再也不借给你了。

这就是“年级第一”的心态。

那怎么办呢？就这么认输吗？没有GPU，怎么训练AI模型呢？

创新。

资源无限的时候，不需要创新。真正的创新，都发生在匮乏的时候。

比如：混合专家系统。

混合专家系统

混合专家系统，也就是Mixure of Experts。简称MoE。

我们去医院看病。医院的50个医生，每个都是最好的全科医生。内科、外科、儿科、心血管科、脑科、甚至妇科。什么都懂，什么都能治。这当然最好。但这样的成本实在是太高了。因为每个医生可能都要30年才能毕业。

这就像大模型。一个模型，有50个博士学位，能回答所有问题。这当然好。但是实在是太烧GPU了。

而且，GPU都在美国的小院里。我没有啊。怎么办呢？

也许你可以试试，把医院分成不同的科室。内科的只管内科，外科的只管外科。这样，“训练”医生难度不就降低了吗？

用50个便宜的专科医生，取代一个昂贵的全科医生。然后，再设一个导诊台，根据病情，把患者分配给不同的医生，问题不就解决了吗？

这就是混合专家系统。

混合专家系统，大大降低了AI的训练成本。

强化学习

训练大模型还有一项重要的成本，是人工打标签。

这张照片，是只小狗。那张照片，是只小猫。清楚标记出来，人工智能才不会学错。用人工标签，监督AI的学习过程。这就是“监督学习”（Supervised Learning）。

“监督学习”，给很多第三世界国家，创造了大量工作岗位。所以有句开玩笑的话：

有多少“人工”，就有多少“智能”。

那这个成本，能不能也省了呢？

孩子学习走路的时候，可没有用什么打标签的照片吧。这个姿势是正确的，那个姿势是错误的。孩子，请按照片上的姿势走。从来没有吧。

那孩子是怎么走路的？就是只管走就好了。摔倒了屁股会疼。走好了妈妈会抱。孩子会根据这种惩罚和奖励的反馈，不断自动调整姿势，直到终于在一个瞬间，就突然会走路了。

这就是：强化学习。Reinforcement Learning。简称RL。用激励函数，而不是打标签的数据，来学习。从而大大降低训练成本。

MoE+RL。

真不容易。为什么美国人没有先做出来？

因为他们不缺GPU啊。很多创新，都是被“逼”出来的。

DeepSeek还有一个独特之处，那就是：开源。

开源

有一个挺讽刺的事。你已经知道了吧。OpenAI，其实并不Open。

什么，你还不知道？那听我和你好好说说。

ChatGPT 2.0之前，OpenAI是开源的。模型的代码和权重，是对所有人公开的。但自从ChatGPT 3.0开始，OpenAI选择了闭源。“OpenAI”变为了“CloseAI”。

其实，这也可以理解。训练大模型实在是太烧钱了。逐渐大家也开始接受了：想要高质量的模型，就要选择闭源。

直到，DeepSeek R1出现。并且开源。

可是，就算你的成本很低，只有OpenAI的1/20，也没必要开源吧？毕竟你也要活下去啊？你开源，图什么啊？

图：生态。

我只有200个工程师。就算他们全是浙大、北大、清华毕业，也只有200个人。这点人手，根本无法和微软、谷歌、OpenAI比。

那怎么办？团结整个开发者生态。

我把所有的研究成果，模型代码和权重，都免费公开给全世界。这样，就会吸引大量开发者，来使用我的模型，测试我的模型，改进我的模型。

代码很重要。但是生态更重要。

用代码换取整个生态的帮助，可能才是对抗巨头们的唯一方法。

明白了。可是，那你怎么活下去呢？

别担心。开源大模型，也能赚钱。

开源也能赚钱

开源大模型，至少有三种赚钱的办法。

第一种，是“双代码模式”。

免费公开的基础代码。这对大部分人来说够用了。但是对于一些大型企业来说，他们希望有的权限管理，分级管理，等等各种“高级能力”，可以收费。

第二种，是“保险费模式”。

是代码，就会出问题。大公司对服务的稳定性、响应的及时性，要求很高。所以，大公司很可能会购买“保险”服务，确保遇到问题时，会有人会处理。

第三种，是“云服务模式”。

而对中小企业和个人，可以像用水和用电一样，直接调用DeepSeek的API，使用DeepSeek的云端“智能资源”，然后按“度”（百万token）付费。

不管是开源，还是闭源。只要创造了价值，都能赚到钱。所以，不用为DeepSeek担心。

也不用为英伟达担心。

杰文斯悖论

DeepSeek这个“大模型届的拼多多”横空出世。英伟达股票当天暴跌17%。投资人担心大家不再需要那么多GPU了。

其实，大家不用太担心。给你讲个故事。

1776年，瓦特改良了蒸汽机。瓦特蒸汽机，比老式蒸汽机，节省2/3的煤炭。于是人们欢呼：煤炭的消耗，将从此大大减少。

但实际情况，恰恰相反。英国经济学家杰文斯发现，蒸汽机的效率提高了10倍的同时，煤炭的消耗量不但没有下降，反而上升了100倍。

为什么呢？

因为蒸汽机效率提升后，原来用不起煤炭的人，觉得自己用得起了。于是纷纷办厂。工厂数量的激增，反而引起煤炭用量的剧烈反弹。

这就是著名的“杰文斯悖论”。

英伟达的显卡同理。

DeepSeek大大提升了GPU的使用效率。这在短期内，可能会导致GPU的用量下降。但很快，就会有更多人因此加入模型训练阵营，从而导致显卡的需求激增。

果然。懵了的纳斯达克，第二天就清醒了过来。英伟达股票回涨了8%。

回过神来后，在一片赞叹声中，也逐渐出现了各种质疑和批评。

比如：蒸馏。

蒸馏

美国白宫顾问David Sacks公开表示，有“实质性证据”证明，中国AI公司DeepSeek“蒸馏”（distill）了OpenAI模型。他把这种“蒸馏”行为，比作“偷窃”。

嗯……打不过，就诬陷吗？“蒸馏”这个指控，很严重啊。

首先解释一下，什么是“蒸馏”？

有两个模型。一个老师模型（teacher model），一个学生模型（student model）。学生不断向老师提问，并把“问题-答案”记录下来。然后用这些“问题-答案”的数据，来训练学生，从而让学生拥有和老师非常接近的知识和能力。这就叫：蒸馏。

这就是蒸馏啊？可是，学生向老师学习，也没什么问题吧？

是的。学习是没什么问题。但是，ChatGPT的用户协议里明确写着，不允许用我的模型，来训练新的模型，尤其是训练用来和我竞争的模型。也就是说，禁止蒸馏。用ChatGPT，就要遵守ChatGPT的使用协议。这是诚信问题。

另外，牛顿花了30年创造了万有引力定律。我花了3天学会了万有引力定律。虽然结果是，我们都懂了万有引力定律。但是，我不能用我的3天，去嘲笑牛顿的30年。

所以，David的这个“蒸馏”指控，还是挺重的。

那么，我亲爱的读者朋友，你相信DeepSeek蒸馏了ChatGPT的模型吗？