当前位置：首页 > 新闻资讯 > 正文内容

评论丨DeepSeek“横空出世”，成功的关键源于这两点

七夏3天前新闻资讯60

技术自会找到自己的出路，而技术又总会在意想不到的方向萌发出来

近段时间，中国国产大模型DeepSeek持续引发业内震动。据报道，1月27日，DeepSeek应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜，在美区下载榜上超越了ChatGPT。

Deepseek来自国产大模型公司深度求索，1月20日，该公司正式发布推理大模型DeepSeek-R1。一经推出，DeepSeek-R1便凭借其“物美价廉”的特性在海外开发者社区中引发了轰动，更是凭借极低的训练成本震撼了硅谷。

根据报道，作为一款开源模型，R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版。更令市场惊讶的是，据DeepSeek介绍，R1的预训练费用只有557.6万美元，在2048块英伟达H800 GPU（针对中国市场的低配版GPU）集群上运行55天完成，仅是OpenAI GPT-4o模型训练成本的不到十分之一。DeepSeek表示，R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。

较低的训练成本使得DeepSeek的使用成本也较低，因此具有了较强的竞争力。而这也是其引发业内震动的一大原因，有媒体报道，脸书母公司Meta成立了四个专门研究小组来研究DeepSeek的工作原理，其中两个小组正在试图了解该公司如何降低训练和运行DeepSeek的成本。此外，OpenAI、Meta和其他顶级人工智能团队的开发人员一直在仔细研究DeepSeek模型，并试图搞清楚其为何能够比一些美国制造的模型更便宜、更高效地运行。

从目前来看，DeepSeek的成就，当得起全球业界的由衷惊叹与中国社会的赞美之词。它的成功至少带来两个启示：

一是开源的力量。一方面，DeepSeek体现了国产大模型的能力，甚至有可能追赶、反超世界先进水平。另一方面，DeepSeek源于开源研究和开源项目，比如PyTorch和来自Meta的Llama。Meta首席AI科学家杨立昆（Yann LeCun）在其发表在Threads上的一篇文章中指出，比起“中国AI超越了美国”的观点，DeepSeek-R1更重要的是证明了开源模型正在超越专用模型，这就是开放研究与开源的力量。

开源是技术上“开放”的结果，开源为创新提供了诞生的土壤，也让全球的开发者可以共同参与进来，探索人工智能的下一个边界。

二是技术自会找到自己的出路，从意想不到的地方萌发出来。DeepSeek源于一家量化私募公司幻方量化。所谓量化私募，就是私募基金管理人，把自己的投资理念数学模型化，再利用计算机进行大量股票历史数据处理和模型计算，最终通过模型筛选合适投资标的。说白了，是利用计算机、算法、人工智能在资本市场进行投资。

一家量化基金为什么要做这样一件事？从之前的访谈来看，幻方量化想搞清楚什么样的范式可以完整地描述整个金融市场，他们注意到神经网络AlexNet带来的新趋势。出于研究的需要，他们就开始逐渐储备GPU、人才。从最早的1张卡，到2015年的100张卡、2019年的1000张卡。2021年，幻方量化有先见之明地储备了1万枚GPU，成为大厂外唯一一家储备万张A100芯片的公司。与此同时，幻方量化独建了一个名为深度求索的新公司做大模型，这时的业务其实跟量化和金融都没有直接关系了。

这就是所谓的技术自会找到自己的出路，而技术又总会在意想不到的方向萌发出来。于是，一家做量化交易的投资公司，最终占据了全球AI的高地。某种程度上，幻方量化的路径和英伟达也是相似的。

英伟达最初是做游戏显卡芯片GPU，随着游戏的发展，GPU越来越强大，如此强大的芯片，如果只是作为显卡就太浪费了，于是，2006年英伟达发布新一代显示芯片GPU G80，正式推出通用计算单元概念（CUDA）。所谓通用计算，指GPU芯片不但可以处理游戏图形，也可以处理一些原本由CPU处理的计算。

当时的一家IT媒体评价：G80远不止一个新的GPU那么简单。但那个时候，即便黄仁勋也没想到如今CUDA会有如此广泛而重要的用途，涵盖了区块链、人工智能、深度学习、大规模并行运算等多个方面。但技术在发展自身的过程中，自然会找到其他应用。现在，英伟达也成为人工智能、数据运算、自动驾驶的底层芯片提供商。

从这两点来看，DeepSeek的成功，最终源于开放与市场，源于中国超大规模的市场优势。

红星新闻特约评论员刘远举

编辑汪垠涛

红星评论投稿邮箱：hxpl2020@qq.com

扫描二维码推送至手机访问。

本文链接：https://www.0538ta.cn/post/86277.html

分享给朋友：

返回列表

上一篇：留意！春节这八天，广州打出租车每单加收10元

下一篇：Ai东郊，潮玩成都！为期8天，快来东郊记忆与机器人共度春节

评论丨DeepSeek“横空出世”，成功的关键源于这两点

“评论丨DeepSeek“横空出世”，成功的关键源于这两点” 的相关文章

A股收评：沪指收涨0.49% 两市成交额不足5000亿

受美联储降息影响纽约股市三大股指18日震荡收跌

台风“普拉桑”将登陆！北方秋凉加重南方高温消退全国天气一览

深圳一女子发58页PPT举报管培生男友多次嫖娼出轨，银行回应

中证协下发券商网络安全事件舆情处置新规

九龙山社区邻里有“她”田园音乐集市与居民共赴“仲夏之夜”

“成都制造”赋能世运会，开拓“低空+体育”新场景

一斤螃蟹半斤绳？男子60元买螃蟹20元是绳，下架整改！

钱江观潮正当时

寻呼机爆炸事件幕后黑手被曝是以8200部队，操控空壳公司制售植入爆炸物的“特殊产品”

发表评论

鲁ICP备20023396号-1

评论丨DeepSeek“横空出世”，成功的关键源于这两点

“评论丨DeepSeek“横空出世”，成功的关键源于这两点” 的相关文章

发表评论取消回复

鲁ICP备20023396号-1 var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?a833e1c295e4cddaf213a76cdceab4b3"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })();

发表评论

鲁ICP备20023396号-1