当前位置：首页 > 新闻资讯 > 正文内容

语料含“原材料”和“半成品” 要让大模型“吃”得下能“消化”

七夏2小时前新闻资讯20

　　开篇语

　　继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后，中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布，构建公共数据资源开发利用“1+3”政策规则体系。南都大数据研究院策划推出“乘数而上”系列报道，继关注公共数据授权运营以及广东创新实践之后，本期通过三篇深度调研报道，聚焦高质量中文语料数据产品供给等AI语料新生态，以期更好赋能AI产业创新发展。

　　如果将AI大模型视为疾驰的科技列车，语料数据就是珍贵“燃料”。语料数据从哪里来?如何提升语料质量?面对AI对多知识、多模态、标准化高质量中文语料数据需求，深圳、上海等地数据交易所聚焦语料数据产品供给，通过打造语料专区，上架语料数据产品与服务，在保证数据合规安全前提下，实现企业间的可信流通，满足数据提供方与消费方的需求，为AI产业发展提供更可靠的数据流通支持，并助力数据驱动型企业数据资源向数据资产体系化转化。

　　多地AI发展政策明确加快语料供给

　　2022年11月30日，OpenAI推出的人工智能技术驱动的自然语言处理工具——ChatGPT在社交媒体走红，引爆人工智能大模型兴起。而在人工智能发展中，算法、算力、数据是三大关键要素，语料数据是决定大模型能力的重要环节，具有“赋能”“教化”的双重功能。

　　南都大数据研究院梳理各地网信部门公开信息显示，截至2024年11月全国已有252个生成式AI大模型通过备案、57个大模型完成登记。据行业媒体不完全统计，2023年至今国内已发布超过300个生成式AI大模型。随着AI进入数据智能时代，质量与规模拉动算料数据需求快速成长，模型复杂度、算力提升拉动AI语料需求量剧增。

　　同济大学经济与管理学院教授陈强此前提出，当前语料资源供给水平较低，与大模型高强度训练需求之间存在矛盾。语料涉及海量数据、文本、图片、语音、视频等资源，既有“原材料”也有“半成品”，要让大模型“吃”得下去，需要靠数据库技术解决“消化”问题。语料对于人工智能的“思维方式”“行为模式”具有潜移默化的影响，应促进高质量中文语料资源建设的提速扩容。

　　“高质量语料缺乏，日益成为限制大模型发展瓶颈”，哈尔滨工业大学(深圳)计算机科学与技术学院教授邵睿道出当下大模型发展共性问题，解决中文语料不足与质量问题迫在眉睫。2024年以来全国多地为抢占人工智能领域先机，陆续出台大模型产业相关发展支持措施，强化高质量中文语料建设，加速大模型应用落地。

　　南都大数据研究院注意到，2023年5月31日发布的《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023-2024年)》明确要求，建立多模态公共数据集，打造高质量中文语料数据；2024年5月26日印发的《广东省关于人工智能赋能千行百业的若干措施》提出“建设高质量中文数据集”，鼓励企业建设面向行业的高质量中文语料数据库，推动典型行业数据汇集、共享和使用，到2027年建设50个以上高质量行业数据集；7月25日发布的《上海市促进工业服务业赋能产业升级行动方案(2024-2027年)》要求“加快培育为制造业提供人工智能解决方案的供应商，开发故障分析、流程工艺等工业语料产品”，等等。值得一提的是，国家数据局等17个部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》明确“提升数据供给水平”，打造高质量人工智能大模型训练数据集。全国多地也在组织开展高质量数据集征集，满足模型训练与优化数据需求，毕竟高质量的行业知识库与训练数据已经成为AI大模型赋能千行百业的制胜关键。

　　高质量语料数据全流程场内交易

　　除了政策加持，深圳、上海、北京、杭州等地依托数据交易所建立语料数据交易板块，联合研究机构、数据型企业打造更多高质量、多模态的语料数据产品挂牌上架，为国内大数据及人工智能行业提供安全、可靠的中文语料资源。

　　2023年7月7日，上海数据交易所正式上线语料库，牵头发起语料数据生态创新合作伙伴计划，当时累计挂牌近30个语料数据产品。南都大数据研究院梳理发现，截至10月22日上数所语料专区已有252条产品信息，以语料数据集为主，共218个，占比高达86.5%，例如语源多语种双语对照平行语料、法源司法知识语料、飞天元宇宙3D语料库以及应用语言学百科全书等。贵阳大数据交易所去年也面向全国征集拥有海量、优质条数据、文本、图文、音视频等数据企业，希望共建合规安全大模型数据语料库专区，目前上架的语料数据集超300个，包括“听书音频语料库”“数字图书馆语料库”“社会主义核心价值观语料集”“热点信息问答语料”等。

　　深圳数据交易所官网也上架了“多语言多领域文本语料”“智译——多语种平行语料库”等语料数据产品，广州数据交易所上架“语义检索算法模型服务”“安达数据全国纸媒文本语料库数据集”等。深数所总经理古亮告诉南都记者，2023年ChatGPT　4.0版本发布以来，我国人工智能产业进入高速发展阶段，截至2023年底全国人工智能核心产业规模接近6000亿元，诸如盘古、智谱AI、文心一言等通用大模型与细分行业大模型商用化日益成熟。深数所创新推动人工智能数据专区、开放群岛开源社区大模型SIG建设，率先实现首批国家备案大模型公司入场以及首批大模型产品上市并完成场内数据商品交易，加快推进国内外高质量语料数据汇集。

　　2024年9月份信通院、华为云、数鑫科技等联合升级可信数据空间创新实验室，在人工智能领域创新打造可信数据空间技术应用于大模型语料安全合规流通新路径，实现全国首单语言语料数据场内实质闭环案例落地。在数鑫科技创始人兼CEO吴会才看来，普通技术手段很难确保语料提供方数据不会出现被转存转售、滥用，即缺乏必要技术合规保障手段来保障语料提供方数据权益。通过可信数据空间，大模型语料可以更高效流通，降低数据获取成本与风险，为人工智能产业发展提供更可靠的数据流通支持，提高数据的质量和安全性。

　　推动数据资源向数据资产体系化转化

　　对于语料类数据产品，数据交易所开始探索上市、入表、评估、授信全路径。南都大数据研究院注意到，2024年9月9日深译信息科技(珠海)有限公司(简称深译科技)发布全国首个高价值、多模态、多语种AI算料数据资产包，估值超过2亿元，主要应用于人工智能大模型研发训练及调优，覆盖57种语言以及医疗、法律、电商、文旅、金融、安全、科技等多个领域。

　　“AI算料数据资产包主要有几个特点:多语言，包含多个语种特别是葡语系、一带一路小语种；多模态，有文本、语音等多个模态数据；高价值，数据量大质量高，具备很高应用场景价值、市场价值”，深译科技创始人林余楚告诉南都记者，深译科技创立之初就致力于成为以高质量数据为驱动的AI公司，立足高质量、高价值、稀缺性AI数据采集和标注，经多年沉淀积累，算料数据集无论数量还是质量均属国内第一梯队。这些算料是以中文为核心的多语言、多模态、多领域语料数据，提供AI算法模型开发所需的专业数据集。

　　10月22日，深数所携手交通银行深圳分行、广东数联数据要素有限公司、深圳市同致诚资产评估土地房地产估价顾问有限公司，共同完成为新译信息科技(深圳)有限公司(简称新译科技)提供“智译——多语种平行语料库”数据产品合规、评估、上市、入表、质押、授信全流程服务，这是全国首笔以市场法进行数据资产评估的1000万元贷款全额投放，也是全国首例以“市场法”为数据资产价值评估方法并成功入表实际放款的项目，为数据产品提供更有力的流通交易和金融支持。

　　上海市人工智能社会治理协同创新中心、上海交通大学清源研究院研究员刘志毅告诉南都记者，当前大模型竞争焦点正从算法创新转向数据质量的竞争，高质量语料不仅仅是单纯的数据集合，而且需要深度加工的数字产品。从技术视角来看，语料数据产品化仍面临三大挑战:首先是评价标准的确立，需要从覆盖度、时效性、准确性等维度建立科学的质量评估体系；其次是定价机制创新，要考虑数据的稀缺性、使用场景和更新成本；最后是产品形态的设计，需要标准化接口和完整的技术服务支持。这些挑战的破解，决定AI行业能否建立可持续数据要素市场。

　　知多D

　　语料数据

　　指用于开发和训练人工智能系统的海量数据资源，包括文本、语音、图像、视频等多种形式，广泛应用于自然语言处理、图像识别、语音识别等领域。

　　语料数据可以从多种来源获取，包括网页、百科、书籍、专利、教材、考题等。这些数据经过清洗和预处理后，可以用于模型的训练和优化。例如，文本数据可以来自科技、文学、媒体、教育、法律等领域；图像数据可以来自公开网页，涵盖新闻事件、人物、自然景观等；视频数据则可以来自新闻、影视等多种类型的节目影像。

　　采写:南都记者袁炯贤实习生纪依　　

　　部分图片由腾讯元宝AI生成