评论丨DeepSeek“横空出世”,成功的关键源于这两点
技术自会找到自己的出路,而技术又总会在意想不到的方向萌发出来
近段时间,中国国产大模型DeepSeek持续引发业内震动。据报道,1月27日,DeepSeek应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。
Deepseek来自国产大模型公司深度求索,1月20日,该公司正式发布推理大模型DeepSeek-R1。一经推出,DeepSeek-R1便凭借其“物美价廉”的特性在海外开发者社区中引发了轰动,更是凭借极低的训练成本震撼了硅谷。
根据报道,作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版。更令市场惊讶的是,据DeepSeek介绍,R1的预训练费用只有557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上运行55天完成,仅是OpenAI GPT-4o模型训练成本的不到十分之一。DeepSeek表示,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
较低的训练成本使得DeepSeek的使用成本也较低,因此具有了较强的竞争力。而这也是其引发业内震动的一大原因,有媒体报道,脸书母公司Meta成立了四个专门研究小组来研究DeepSeek的工作原理,其中两个小组正在试图了解该公司如何降低训练和运行DeepSeek的成本。此外,OpenAI、Meta和其他顶级人工智能团队的开发人员一直在仔细研究DeepSeek模型,并试图搞清楚其为何能够比一些美国制造的模型更便宜、更高效地运行。
从目前来看,DeepSeek的成就,当得起全球业界的由衷惊叹与中国社会的赞美之词。它的成功至少带来两个启示:
一是开源的力量。一方面,DeepSeek体现了国产大模型的能力,甚至有可能追赶、反超世界先进水平。另一方面,DeepSeek源于开源研究和开源项目,比如PyTorch和来自Meta的Llama。Meta首席AI科学家杨立昆(Yann LeCun)在其发表在Threads上的一篇文章中指出,比起“中国AI超越了美国”的观点,DeepSeek-R1更重要的是证明了开源模型正在超越专用模型,这就是开放研究与开源的力量。
开源是技术上“开放”的结果,开源为创新提供了诞生的土壤,也让全球的开发者可以共同参与进来,探索人工智能的下一个边界。
二是技术自会找到自己的出路,从意想不到的地方萌发出来。DeepSeek源于一家量化私募公司幻方量化。所谓量化私募,就是私募基金管理人,把自己的投资理念数学模型化,再利用计算机进行大量股票历史数据处理和模型计算,最终通过模型筛选合适投资标的。说白了,是利用计算机、算法、人工智能在资本市场进行投资。
一家量化基金为什么要做这样一件事?从之前的访谈来看,幻方量化想搞清楚什么样的范式可以完整地描述整个金融市场,他们注意到神经网络AlexNet带来的新趋势。出于研究的需要,他们就开始逐渐储备GPU、人才。从最早的1张卡,到2015年的100张卡、2019年的1000张卡。2021年,幻方量化有先见之明地储备了1万枚GPU,成为大厂外唯一一家储备万张A100芯片的公司。与此同时,幻方量化独建了一个名为深度求索的新公司做大模型,这时的业务其实跟量化和金融都没有直接关系了。
这就是所谓的技术自会找到自己的出路,而技术又总会在意想不到的方向萌发出来。于是,一家做量化交易的投资公司,最终占据了全球AI的高地。某种程度上,幻方量化的路径和英伟达也是相似的。
英伟达最初是做游戏显卡芯片GPU,随着游戏的发展,GPU越来越强大,如此强大的芯片,如果只是作为显卡就太浪费了,于是,2006年英伟达发布新一代显示芯片GPU G80,正式推出通用计算单元概念(CUDA)。所谓通用计算,指GPU芯片不但可以处理游戏图形,也可以处理一些原本由CPU处理的计算。
当时的一家IT媒体评价:G80远不止一个新的GPU那么简单。但那个时候,即便黄仁勋也没想到如今CUDA会有如此广泛而重要的用途,涵盖了区块链、人工智能、深度学习、大规模并行运算等多个方面。但技术在发展自身的过程中,自然会找到其他应用。现在,英伟达也成为人工智能、数据运算、自动驾驶的底层芯片提供商。
从这两点来看,DeepSeek的成功,最终源于开放与市场,源于中国超大规模的市场优势。
红星新闻特约评论员 刘远举
编辑 汪垠涛
红星评论投稿邮箱:hxpl2020@qq.com
扫描二维码推送至手机访问。
版权声明:本文由0538资讯网整理发布,内容均来自互联网,如有侵权联系8641340@qq.com删除。