当前位置:首页 > 新闻资讯 > 正文内容

语料含“原材料”和“半成品” 要让大模型“吃”得下能“消化”

七夏2小时前新闻资讯20



  开篇语

  继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后,中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布,构建公共数据资源开发利用“1+3”政策规则体系。南都大数据研究院策划推出“乘数而上”系列报道,继关注公共数据授权运营以及广东创新实践之后,本期通过三篇深度调研报道,聚焦高质量中文语料数据产品供给等AI语料新生态,以期更好赋能AI产业创新发展。

  如果将AI大模型视为疾驰的科技列车,语料数据就是珍贵“燃料”。语料数据从哪里来?如何提升语料质量?面对AI对多知识、多模态、标准化高质量中文语料数据需求,深圳、上海等地数据交易所聚焦语料数据产品供给,通过打造语料专区,上架语料数据产品与服务,在保证数据合规安全前提下,实现企业间的可信流通,满足数据提供方与消费方的需求,为AI产业发展提供更可靠的数据流通支持,并助力数据驱动型企业数据资源向数据资产体系化转化。

  多地AI发展政策明确加快语料供给

  2022年11月30日,OpenAI推出的人工智能技术驱动的自然语言处理工具——ChatGPT在社交媒体走红,引爆人工智能大模型兴起。而在人工智能发展中,算法、算力、数据是三大关键要素,语料数据是决定大模型能力的重要环节,具有“赋能”“教化”的双重功能。

  南都大数据研究院梳理各地网信部门公开信息显示,截至2024年11月全国已有252个生成式AI大模型通过备案、57个大模型完成登记。据行业媒体不完全统计,2023年至今国内已发布超过300个生成式AI大模型。随着AI进入数据智能时代,质量与规模拉动算料数据需求快速成长,模型复杂度、算力提升拉动AI语料需求量剧增。

  同济大学经济与管理学院教授陈强此前提出,当前语料资源供给水平较低,与大模型高强度训练需求之间存在矛盾。语料涉及海量数据、文本、图片、语音、视频等资源,既有“原材料”也有“半成品”,要让大模型“吃”得下去,需要靠数据库技术解决“消化”问题。语料对于人工智能的“思维方式”“行为模式”具有潜移默化的影响,应促进高质量中文语料资源建设的提速扩容。

  “高质量语料缺乏,日益成为限制大模型发展瓶颈”,哈尔滨工业大学(深圳)计算机科学与技术学院教授邵睿道出当下大模型发展共性问题,解决中文语料不足与质量问题迫在眉睫。2024年以来全国多地为抢占人工智能领域先机,陆续出台大模型产业相关发展支持措施,强化高质量中文语料建设,加速大模型应用落地。

  南都大数据研究院注意到,2023年5月31日发布的《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023-2024年)》明确要求,建立多模态公共数据集,打造高质量中文语料数据;2024年5月26日印发的《广东省关于人工智能赋能千行百业的若干措施》提出“建设高质量中文数据集”,鼓励企业建设面向行业的高质量中文语料数据库,推动典型行业数据汇集、共享和使用,到2027年建设50个以上高质量行业数据集;7月25日发布的《上海市促进工业服务业赋能产业升级行动方案(2024-2027年)》要求“加快培育为制造业提供人工智能解决方案的供应商,开发故障分析、流程工艺等工业语料产品”,等等。值得一提的是,国家数据局等17个部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》明确“提升数据供给水平”,打造高质量人工智能大模型训练数据集。全国多地也在组织开展高质量数据集征集,满足模型训练与优化数据需求,毕竟高质量的行业知识库与训练数据已经成为AI大模型赋能千行百业的制胜关键。

  高质量语料数据 全流程场内交易

  除了政策加持,深圳、上海、北京、杭州等地依托数据交易所建立语料数据交易板块,联合研究机构、数据型企业打造更多高质量、多模态的语料数据产品挂牌上架,为国内大数据及人工智能行业提供安全、可靠的中文语料资源。

  2023年7月7日,上海数据交易所正式上线语料库,牵头发起语料数据生态创新合作伙伴计划,当时累计挂牌近30个语料数据产品。南都大数据研究院梳理发现,截至10月22日上数所语料专区已有252条产品信息,以语料数据集为主,共218个,占比高达86.5%,例如语源多语种双语对照平行语料、法源司法知识语料、飞天元宇宙3D语料库以及应用语言学百科全书等。贵阳大数据交易所去年也面向全国征集拥有海量、优质条数据、文本、图文、音视频等数据企业,希望共建合规安全大模型数据语料库专区,目前上架的语料数据集超300个,包括“听书音频语料库”“数字图书馆语料库”“社会主义核心价值观语料集”“热点信息问答语料”等。

  深圳数据交易所官网也上架了“多语言多领域文本语料”“智译——多语种平行语料库”等语料数据产品,广州数据交易所上架“语义检索算法模型服务”“安达数据全国纸媒文本语料库数据集”等。深数所总经理古亮告诉南都记者,2023年ChatGPT 4.0版本发布以来,我国人工智能产业进入高速发展阶段,截至2023年底全国人工智能核心产业规模接近6000亿元,诸如盘古、智谱AI、文心一言等通用大模型与细分行业大模型商用化日益成熟。深数所创新推动人工智能数据专区、开放群岛开源社区大模型SIG建设,率先实现首批国家备案大模型公司入场以及首批大模型产品上市并完成场内数据商品交易,加快推进国内外高质量语料数据汇集。

  2024年9月份信通院、华为云、数鑫科技等联合升级可信数据空间创新实验室,在人工智能领域创新打造可信数据空间技术应用于大模型语料安全合规流通新路径,实现全国首单语言语料数据场内实质闭环案例落地。在数鑫科技创始人兼CEO吴会才看来,普通技术手段很难确保语料提供方数据不会出现被转存转售、滥用,即缺乏必要技术合规保障手段来保障语料提供方数据权益。通过可信数据空间,大模型语料可以更高效流通,降低数据获取成本与风险,为人工智能产业发展提供更可靠的数据流通支持,提高数据的质量和安全性。

  推动数据资源向数据资产体系化转化

  对于语料类数据产品,数据交易所开始探索上市、入表、评估、授信全路径。南都大数据研究院注意到,2024年9月9日深译信息科技(珠海)有限公司(简称深译科技)发布全国首个高价值、多模态、多语种AI算料数据资产包,估值超过2亿元,主要应用于人工智能大模型研发训练及调优,覆盖57种语言以及医疗、法律、电商、文旅、金融、安全、科技等多个领域。

  “AI算料数据资产包主要有几个特点:多语言,包含多个语种特别是葡语系、一带一路小语种;多模态,有文本、语音等多个模态数据;高价值,数据量大质量高,具备很高应用场景价值、市场价值”,深译科技创始人林余楚告诉南都记者,深译科技创立之初就致力于成为以高质量数据为驱动的AI公司,立足高质量、高价值、稀缺性AI数据采集和标注,经多年沉淀积累,算料数据集无论数量还是质量均属国内第一梯队。这些算料是以中文为核心的多语言、多模态、多领域语料数据,提供AI算法模型开发所需的专业数据集。

  10月22日,深数所携手交通银行深圳分行、广东数联数据要素有限公司、深圳市同致诚资产评估土地房地产估价顾问有限公司,共同完成为新译信息科技(深圳)有限公司(简称新译科技)提供“智译——多语种平行语料库”数据产品合规、评估、上市、入表、质押、授信全流程服务,这是全国首笔以市场法进行数据资产评估的1000万元贷款全额投放,也是全国首例以“市场法”为数据资产价值评估方法并成功入表实际放款的项目,为数据产品提供更有力的流通交易和金融支持。

  上海市人工智能社会治理协同创新中心、上海交通大学清源研究院研究员刘志毅告诉南都记者,当前大模型竞争焦点正从算法创新转向数据质量的竞争,高质量语料不仅仅是单纯的数据集合,而且需要深度加工的数字产品。从技术视角来看,语料数据产品化仍面临三大挑战:首先是评价标准的确立,需要从覆盖度、时效性、准确性等维度建立科学的质量评估体系;其次是定价机制创新,要考虑数据的稀缺性、使用场景和更新成本;最后是产品形态的设计,需要标准化接口和完整的技术服务支持。这些挑战的破解,决定AI行业能否建立可持续数据要素市场。

  知多D

  语料数据

  指用于开发和训练人工智能系统的海量数据资源,包括文本、语音、图像、视频等多种形式,广泛应用于自然语言处理、图像识别、语音识别等领域。

  语料数据可以从多种来源获取,包括网页、百科、书籍、专利、教材、考题等。这些数据经过清洗和预处理后,可以用于模型的训练和优化。例如,文本数据可以来自科技、文学、媒体、教育、法律等领域;图像数据可以来自公开网页,涵盖新闻事件、人物、自然景观等;视频数据则可以来自新闻、影视等多种类型的节目影像。

  采写:南都记者 袁炯贤 实习生 纪依  

  部分图片由腾讯元宝AI生成

扫描二维码推送至手机访问。

版权声明:本文由0538资讯网整理发布,内容均来自互联网,如有侵权联系8641340@qq.com删除。

本文链接:https://www.0538ta.cn/post/59959.html

分享给朋友:

“语料含“原材料”和“半成品” 要让大模型“吃”得下能“消化”” 的相关文章

暑假档近乎腰斩,中秋档表现平淡,大家都不爱看电影了?

暑假档近乎腰斩,中秋档表现平淡,大家都不爱看电影了?

这个中秋档似乎延续了暑期档的“冷”。据国家电影局统计,2024年中秋档,全国电影票房收入3.89亿元,观影人次为957万。被业界称为最挤“中秋档”,仅有一部新片《野孩子》票房过亿元。此前的暑期档,票房达116.43亿,相较2023年的206.19亿元,缩水了...

海浪黄色警报:上海、浙江北部近岸海域将出现3到4米的大浪到巨浪

海浪黄色警报:上海、浙江北部近岸海域将出现3到4米的大浪到巨浪

国家海洋预报台9月19日08时发布海浪黄色警报:受今年第14号台风“普拉桑”(热带风暴级)的影响,预计:9月19日中午到20日早晨,东海将出现4到6米的巨浪到狂浪区,近海海域海浪预警级别为黄色;上海、浙江北部近岸海域将出现3到4米的大浪到巨浪,该近岸海域海浪...

持续晴热,重庆发布高温红色预警

持续晴热,重庆发布高温红色预警

今天(9月19日),重庆市气象局发布高温红色预警信号,预计19日13时-19时,大渡口、江北、两江新区、渝中、九龙坡、南岸、高新区、北碚、璧山、开州、云阳、奉节、巫溪等13个区县的海拔400米以下地区,日最高气温将升至40℃以上;沙坪坝、渝北、巴南、潼南、合...

“统征地”撂荒成废墟影响市容?惠城河南岸街道:已清理

“统征地”撂荒成废墟影响市容?惠城河南岸街道:已清理

日前,家住惠州市惠城区河南岸街道冰塘村小塘组的居民马先生向南都马上办栏目反映,他家门口有一块约200平方米的“统征地”,因未充分利用已变成废墟,地面杂草丛生,鼠虫出没,垃圾遍地。统征地撂荒影响市容“这不仅影响了我们的居住环境,也影响了市容市貌。”马先生表示,...

投入警力1.2万余人次,惠州中秋假期警情下降3成

投入警力1.2万余人次,惠州中秋假期警情下降3成

南都讯 今年中秋假期,惠州市公安机关累计投入警力1.2万余人次,接报刑事治安警情同比下降33.18%,道路交通事故同比下降38.89%。据介绍,节日期间,惠州公安严密社会面整体防控,加强公共安全监管,强化枪爆物品安全监管和行业场所检查,对大型活动和旅游景区严...

寻呼机爆炸让人细思极恐!全球潜在“爆炸物”数以十亿计,或对航空业影响最大

寻呼机爆炸让人细思极恐!全球潜在“爆炸物”数以十亿计,或对航空业影响最大

在黎巴嫩接连发生寻呼机、对讲机等爆炸事件后,有媒体指出,发生在黎巴嫩的个人设备大规模爆炸事件所波及的远不仅局限于中东地区,更是给全球敲响了警钟。▲爆炸后的寻呼机残片据此前报道,有分析认为发生爆炸的寻呼机在进入黎巴嫩之前就被安装了炸药或某种恶意软件,随即被远程...

蔡伟锋任惠东县吉隆镇党委书记

蔡伟锋任惠东县吉隆镇党委书记

日前,惠州市惠东县吉隆镇人民政府发布《关于调整吉隆镇领导班子成员分工的通知》,蔡伟锋职务及分工显示:吉隆镇党委书记、镇党委党校校长、一级主任科员,主持镇党委全面工作。公开信息显示,蔡伟锋历任平山街道党工委副书记、办事处主任,惠东县政务服务数据管理局局长,惠东...

从码头工人到非遗传承人,他用码头号子存住老汉口的声音

从码头工人到非遗传承人,他用码头号子存住老汉口的声音

极目新闻记者 王佳文通讯员 詹鸥 龚珏煜“汉口码头号子”是在汉口的水陆码头上形成并发展起来的码头工人搬运号子,主要分布在长江、汉水的交汇处武汉硚口地区一带,明显含有“汉味”“楚韵”,目前被认定为市级“非遗”。上个世纪70年代开始,熊建生便开始跟老码头工人们学...

我国成功发射两颗北斗导航卫星 杨长风院士:将为下一代北斗导航卫星技术升级进行相关试验

我国成功发射两颗北斗导航卫星 杨长风院士:将为下一代北斗导航卫星技术升级进行相关试验

9月19日上午,我国在西昌卫星发射中心用长征三号乙运载火箭,以“一箭双星”方式成功发射第五十九颗、六十颗北斗导航卫星。此次发射任务有何意义?北斗卫星导航系统工程总设计师、中国工程院院士杨长风向红星新闻记者介绍,此次发射的卫星属中圆地球轨道(MEO)卫星,是我...

网红“小英”被曝曾送走两个女孩,寻甸县民政局回应:未查到相关送养记录

网红“小英”被曝曾送走两个女孩,寻甸县民政局回应:未查到相关送养记录

9月18日,以记录云南农村生活走红的网红“小英”被曝疑似送走两个女孩。网传视频显示,小英曾在直播中表示“但是我就不想说的太详细,只能说这个事情是真的”“是小女生”,但该视频并未完整反映其回应的是何问题。网红“小英一家”抖音账号首页截图,粉丝破500万。公开报...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。