当前位置:首页 > 新闻资讯 > 正文内容

评论丨DeepSeek“横空出世”,成功的关键源于这两点

技术自会找到自己的出路,而技术又总会在意想不到的方向萌发出来

近段时间,中国国产大模型DeepSeek持续引发业内震动。据报道,1月27日,DeepSeek应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。


Deepseek来自国产大模型公司深度求索,1月20日,该公司正式发布推理大模型DeepSeek-R1。一经推出,DeepSeek-R1便凭借其“物美价廉”的特性在海外开发者社区中引发了轰动,更是凭借极低的训练成本震撼了硅谷。

根据报道,作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版。更令市场惊讶的是,据DeepSeek介绍,R1的预训练费用只有557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上运行55天完成,仅是OpenAI GPT-4o模型训练成本的不到十分之一。DeepSeek表示,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。

较低的训练成本使得DeepSeek的使用成本也较低,因此具有了较强的竞争力。而这也是其引发业内震动的一大原因,有媒体报道,脸书母公司Meta成立了四个专门研究小组来研究DeepSeek的工作原理,其中两个小组正在试图了解该公司如何降低训练和运行DeepSeek的成本。此外,OpenAI、Meta和其他顶级人工智能团队的开发人员一直在仔细研究DeepSeek模型,并试图搞清楚其为何能够比一些美国制造的模型更便宜、更高效地运行。

从目前来看,DeepSeek的成就,当得起全球业界的由衷惊叹与中国社会的赞美之词。它的成功至少带来两个启示:

一是开源的力量。一方面,DeepSeek体现了国产大模型的能力,甚至有可能追赶、反超世界先进水平。另一方面,DeepSeek源于开源研究和开源项目,比如PyTorch和来自Meta的Llama。Meta首席AI科学家杨立昆(Yann LeCun)在其发表在Threads上的一篇文章中指出,比起“中国AI超越了美国”的观点,DeepSeek-R1更重要的是证明了开源模型正在超越专用模型,这就是开放研究与开源的力量。

开源是技术上“开放”的结果,开源为创新提供了诞生的土壤,也让全球的开发者可以共同参与进来,探索人工智能的下一个边界。

二是技术自会找到自己的出路,从意想不到的地方萌发出来。DeepSeek源于一家量化私募公司幻方量化。所谓量化私募,就是私募基金管理人,把自己的投资理念数学模型化,再利用计算机进行大量股票历史数据处理和模型计算,最终通过模型筛选合适投资标的。说白了,是利用计算机、算法、人工智能在资本市场进行投资。

一家量化基金为什么要做这样一件事?从之前的访谈来看,幻方量化想搞清楚什么样的范式可以完整地描述整个金融市场,他们注意到神经网络AlexNet带来的新趋势。出于研究的需要,他们就开始逐渐储备GPU、人才。从最早的1张卡,到2015年的100张卡、2019年的1000张卡。2021年,幻方量化有先见之明地储备了1万枚GPU,成为大厂外唯一一家储备万张A100芯片的公司。与此同时,幻方量化独建了一个名为深度求索的新公司做大模型,这时的业务其实跟量化和金融都没有直接关系了。

这就是所谓的技术自会找到自己的出路,而技术又总会在意想不到的方向萌发出来。于是,一家做量化交易的投资公司,最终占据了全球AI的高地。某种程度上,幻方量化的路径和英伟达也是相似的。

英伟达最初是做游戏显卡芯片GPU,随着游戏的发展,GPU越来越强大,如此强大的芯片,如果只是作为显卡就太浪费了,于是,2006年英伟达发布新一代显示芯片GPU G80,正式推出通用计算单元概念(CUDA)。所谓通用计算,指GPU芯片不但可以处理游戏图形,也可以处理一些原本由CPU处理的计算。

当时的一家IT媒体评价:G80远不止一个新的GPU那么简单。但那个时候,即便黄仁勋也没想到如今CUDA会有如此广泛而重要的用途,涵盖了区块链、人工智能、深度学习、大规模并行运算等多个方面。但技术在发展自身的过程中,自然会找到其他应用。现在,英伟达也成为人工智能、数据运算、自动驾驶的底层芯片提供商。

从这两点来看,DeepSeek的成功,最终源于开放与市场,源于中国超大规模的市场优势。

红星新闻特约评论员 刘远举

编辑 汪垠涛

红星评论投稿邮箱:hxpl2020@qq.com

扫描二维码推送至手机访问。

版权声明:本文由0538资讯网整理发布,内容均来自互联网,如有侵权联系8641340@qq.com删除。

本文链接:https://www.0538ta.cn/post/86277.html

分享给朋友:

“评论丨DeepSeek“横空出世”,成功的关键源于这两点” 的相关文章

A股收评:沪指收涨0.49% 两市成交额不足5000亿

A股收评:沪指收涨0.49% 两市成交额不足5000亿

9月18日,A股三大指数今日涨跌不一,截至午盘,沪指涨0.49%,深成指涨0.11%,创业板指跌0.11%,北证50指数跌0.91%,两市成交额4817亿元,较上日缩量468亿元。两市超3600只个股下跌。板块题材上,光刻机、房地产、多元金融、保险板块涨幅居...

受美联储降息影响 纽约股市三大股指18日震荡收跌

受美联储降息影响 纽约股市三大股指18日震荡收跌

受美联储降息影响,18日美国股市震荡收跌。截至当天收盘,道琼斯工业平均指数比前一交易日下跌103.08点,收于41503.10点,跌幅为0.25%;标准普尔500种股票指数下跌16.32点,收于5618.26点,跌幅为0.29%;纳斯达克综合指数下跌54.7...

台风“普拉桑”将登陆!北方秋凉加重南方高温消退 全国天气一览

台风“普拉桑”将登陆!北方秋凉加重南方高温消退 全国天气一览

台风“普拉桑”今天(9月19日)将登陆浙江沿海,并将在未来三天给浙江、江苏、安徽、上海等地带来强降雨天气,部分地区有大暴雨,影响区域与“贝碧嘉”有所重叠,需注意防范降雨叠加可能引发的次生灾害。气温方面,今天起至22日,较强冷空气将影响我国中东部大部地区,北方...

深圳一女子发58页PPT举报管培生男友多次嫖娼出轨,银行回应

深圳一女子发58页PPT举报管培生男友多次嫖娼出轨,银行回应

9月18日,广东省深圳市一女子制作58页PPT爆料其男友招商银行管培生史某某,与多名女性约炮、嫖娼、出轨。内容显示其与史某某于2023年10月确立恋爱关系。PPT从5个方面列举史某某的约炮、嫖娼等证明,列举了10次嫖娼记录。其中8月25日打网约车到深业有居金...

中证协下发券商网络安全事件舆情处置新规

中证协下发券商网络安全事件舆情处置新规

据悉,中证协近期向券商下发了《证券公司网络安全事件舆情处置示范案例》,进一步完善证券行业网络安全事件应对机制,其适用范围包括应对处置网络上出现的关于券商因网络安全事件引发的新闻报道或微信、微博、论坛、贴吧转帖,或对券商网络安全可能产生重大影响的相关信息等突发...

九龙山社区邻里有“她”田园音乐集市与居民共赴“仲夏之夜”

九龙山社区邻里有“她”田园音乐集市与居民共赴“仲夏之夜”

2024年9月14日晚,福城街道九龙山社区妇联邻里有“她”妇儿共融项目田园音乐集市在金域九悦花园举行,本次活动旨在以“社区搭平台、巾帼摆摊位、居民齐参与”的形式,携手社区巾帼志愿者通过表演节目、开设集市,不断提升辖区妇女儿童及亲子家庭的幸福感和归属感。夕阳西...

“成都制造”赋能世运会,开拓“低空+体育”新场景

“成都制造”赋能世运会,开拓“低空+体育”新场景

今日(9月19日),2024中国(成都)国际低空经济合作伙伴大会暨2024成都国际低空装备及服务博览会在成都盛大开幕。据了解,大会聚焦“空域监管、技术创新、基础设施、运营服务、应用场景”五大核心,通过展演、赛事、研讨等多形式,邀请各方代表分享低空经济政策、实...

一斤螃蟹半斤绳?男子60元买螃蟹20元是绳,下架整改!

一斤螃蟹半斤绳?男子60元买螃蟹20元是绳,下架整改!

秋风起,蟹脚痒;菊花开,闻蟹来。眼下正是螃蟹肉满膏肥之时,然而市民们在购买螃蟹时,总能发现螃蟹身上捆绑着重重绳索,或者装在很厚的塑料袋内,“一斤螃蟹半斤绳”现象常被消费者诟病。近日,广州市民王先生报料称,自己在超市花了60多元购买了两只“五花大绑蟹”,回家一...

钱江观潮正当时

钱江观潮正当时

这是9月19日拍摄的钱塘江潮水(无人机照片)。每年中秋节前后是钱塘江潮水的最佳观赏期。当钱塘江大潮经过杭州市区时,潮水、大桥与两岸林立的高楼组成了壮观景象。新华社记者 江汉 摄(来源:新华网)...

寻呼机爆炸事件幕后黑手被曝是以8200部队,操控空壳公司制售植入爆炸物的“特殊产品”

寻呼机爆炸事件幕后黑手被曝是以8200部队,操控空壳公司制售植入爆炸物的“特殊产品”

据央视新闻报道,9月17日下午,黎巴嫩多地发生寻呼机爆炸事件,造成至少12人死亡、2800人受伤。18日下午,黎巴嫩多地又发生对讲机爆炸事件,已造成20人死亡、超过450人受伤。 另据报道,在黎巴嫩连续两天发生的寻呼机和对讲机爆炸事件,被认为是自真主党成立以...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。