达观数据于敬:700亿参数规模让大模型实现“七步成诗”
于2024年年底召开的中央经济工作会议在部署今年重点经济发展任务时明确指出,开展“人工智能+”行动,积极运用数字技术、绿色技术改造提升传统产业。
作为人工智能的三大支柱之一,算法就像一把开启魔法之门的钥匙,加速技术与场景的结合。南方都市报推出“以算谋新”人物专访系列,采访在第三届琶洲算法大赛上新获评的“琶洲领军算法师”。他们是国内算法领域的佼佼者、探路者,其运用算法的思路和所形成的案例阐述了“人工智能+”的无限可能。
信息流通的海量增长,使数据已经不知不觉渗透到各个领域。面对庞大的数据信息,专业化的处理方式已是迫在眉睫。“大数据生态时代”正在来临,大数据领域存在着一座巨大的金矿,等待着去挖掘。
就在2015年,一家专注于智能文本处理技术的国家高新技术企业在上海面世。这便是达观数据有限公司(后称“达观数据”)。达观数据成立之初,于敬以联合创始人身份加入了这一团队,此后一直从事算法研发及团队管理等工作。
于敬表示,算法的构建打磨是一个无止境的过程,充满了未知性。“对个人而言,算法有很多可以持续学习的地方,能让我产生强烈的驱动力,立志把模型算法的效果做得更好”,他说,“算法工作能够让人愿意持续投入,永远保持新鲜感。”
于敬,达观数据有限公司联合创始人。
逐步提升参数规模
让大模型实现“七步成诗”
打开手机上电商类APP,往往能看到“推荐”或者“猜你喜欢”的栏位,用户通过上下滑,不断刷新出个性化的推演结果,且每次的结果都是不重复的。这背后的缘由或许可以用达观数据首创的“召回+排序+后处理+兜底”四段式推荐流程加以解释。
于敬解释,当用户做出上下滑动的操作时,实际上就启动了推演结果的生存逻辑。基于用户的兴趣点,算法可从待推荐的商品中挑选用户可能感兴趣的商品集合,通过多路召回将数量控制在千数量级。随后通过算法模型进行预测打分,按照打分的高低对商品进行排序。再对排序的结果进行干预,便可让用户每次刷新只需浏览10条推荐结果。而兜底是保险机制,避免推荐结果数量不足导致推荐栏位“开天窗”。
这是达观数据自2016年开始研发的企业级智能推荐平台。其后,达观数据自主研发的智能知识管理系统、智能文本处理、智能推荐、智能搜索、智能写作、图像文字识别技术等产品,更是帮助了千余家企业实现降本增效,助力企业实现数字化转型。
在图像文字识别技术上,达观数据实现了中英文字符识别率能达到99%以上,这依赖于达观数据研发多年的智能图像识别平台。于敬称:“这需要将计算机视觉相关的技术以及自然语言处理技术进行深度融合,比如研发图像的矫正模型、文字检测模型、文字识别模型等。想要做得更完美,则需要大量的算法优化,达观数据融合了大量的来自金融、制造、能源等数十个行业的海量数据,不断优化模型。”
成立多年,达观数据一直在稳步前进。2023年,达观数据发布“曹植”大模型并进行公测。于敬解释:“该大模型取名自曹植七步成诗的典故,希望让大模型上演现实版的七步成诗。”
“曹植”大语言模型具有长文本、多语言、垂直化三大特点。
据介绍,曹植大模型是国内首个垂直行业专用的自主可控的GPT大语言模型,可准确完成多类型、复杂结构的长文本写作。“曹植大模型主要应用于金融、政务、制造等垂直领域场景,且已达到业界比较领先的水平。”
一年过去,达观数据在模型上进行了不少探索,参数规模逐步提升,目前主力模型参数规模已达到700亿。于敬表示:“参数量的多少直接反映了模型的复杂度及学习能力。参数越多,意味着模型能够存储或者处理更复杂更精细的知识信息,生成自然语言时也能更准确。”
“从应用的角度来说,拥有700亿参数的大模型可以为很多行业带来很多新的应用机会。比如在工业制造、金融分析或者医疗等方面都可以发挥很好的作用,能够帮助企业做决策并提供个性化服务,实现实际产业化应用。”
做好算法工作需绞尽脑汁
获评是职业生涯一大里程碑
从业多年,于敬经手的项目涉及了各种行业,“大家打开手机后看到的各种业务场景,我基本都有涉猎。”“算法工作极具挑战性。”于敬将之比作百米赛跑,“百米赛跑的成绩跑到10秒多或许很容易,但想突破10秒则需要绞尽脑汁。”
回顾工作生涯,加班加点优化算法、与客户打交道等已是家常便饭。
于敬表示,有时连续工作一个月,或许指标都没有很大的起色;但是有时候经过不断尝试后,突然有了那么一点灵感,思路一下子就豁然开朗了。“算法工作中碰到挫折,心情跌入谷底后又反弹,并且顺利实现工作目标,是一件非常有成就感的事情。”
2024年,于敬带队参加了第三届琶洲算法大赛。达观数据基于大模型的个性化推荐系统脱颖而出,荣获亚军。谈及参赛初衷,他称:“希望通过这次大赛,能够跟业内各家企业进行更多的交流,也希望专家可以从更高的维度评价达观数据的项目,从而帮助达观数据将产品做得更好。”
而被评选为“琶洲领军算法师”更是意外之喜。“得知评选结果后,内心非常激动。这是我职业道路上的一大里程碑,是对我在算法领域工作十余年的认可。”于敬称,这一路充满了挑战,也获得了成长。
通过本次比赛的机会,于敬对琶洲有了更深的了解。
去年,琶洲算力中心获批,计划于2025年10月竣工。琶洲算力中心将用于科技产业研发,以满足各类高精尖产业的发展需求,打造集产、算、芯一体的广州智算新高地。于敬称,不难看出,在发展人工智能三大支柱上,即算法、算力、数据方面,琶洲具有明显优势,发展潜力巨大。
“重磅的政策支持对企业及人才的引进都具有很大的吸引力,”于敬表示,“相信通过政策、基础设施建设、人才引进,技术创新等,琶洲会成为全国领先的大模型产业聚集地,必定能推动区域、甚至是全国人工智能产业的快速发展。”
南都·琶洲π出品
采写:南都·琶洲π记者 何茵桃 代国辉
图片:受访者提供
扫描二维码推送至手机访问。
版权声明:本文由0538资讯网整理发布,内容均来自互联网,如有侵权联系8641340@qq.com删除。