破解数据瓶颈,王江平:建设人工智能国家数据集具有迫切性
随着DeepSeek的火爆出圈,“人工智能+”加速渗透到产业竞技场。AI正如同水电一般,成为生产生活中不可或缺的基础设施。然而,数据作为人工智能发展的“燃料”,还存在高质量中文数据集供给严重不足的问题。
如何破解AI发展的“数据瓶颈”难题?今年两会,全国政协委员、工信部原副部长王江平关注的正是这一问题。他建议,比照国家教材委员会的模式,设立人工智能国家数据集建设委员会,同时引导多主体开展高质量行业数据集建设。
避免AI大模型产生幻觉,关键在数据集质量
数据、算法和算力是人工智能发展的三大核心要素。其中,大规模、高质量、多样化的数据集是大模型性能突破、落地应用的关键。
王江平表示,当前全球积极布局人工智能产业,数据资源已成为重要战略资产,加强人工智能国家数据集建设具有高度的必要性和紧迫性。
在他看来,这是提升人工智能技术水平,抢占国际竞争制高点的必然要求。“建设国家数据集有助于提高模型的准确性和泛化能力,同时降低算力消耗一定程度上弥补算力不足,将我国潜在的数据优势转化为技术优势,提升我国在人工智能领域的国际话语权。”
一直以来,AI大模型一本正经地“胡说八道”,备受争议。要避免AI大模型产生“幻觉”,确保训练数据的高质量和多样性至关重要。
王江平在接受南都等媒体采访时表示,人工智能有一个“补白机制”,通过调整权重、输出结果。“如果某些特定领域数据集不完整,没有丰富的数据集,就会降低它的权重,最后补白出来,因而产生幻觉。”归根究底,AI大模型幻觉是数据集质量的问题。
王江平认为,建设国家数据集可以对数据进行严格筛选、标注和管理,保证训练数据的质量和正确价值取向,从源头上降低伦理和安全风险。
当前,AI技术正在加速融入到多个行业。加强数据集建设,也是AI深入赋能行业的必要举措。王江平表示,建设国家数据集能够为垂直行业提供丰富且专业的数据支撑,充分释放AI在各垂直行业的应用潜力,形成“数据—模型—数据”的良性循环,推动产业升级和创新发展。
王江平告诉南都记者,人工智能的行业应用,离不开强大且优质的数据支撑,且数据的颗粒度越细越好。AI落地应用速度,取决于特定领域专业数据集的质量和丰富程度。
“开放的数据不好用,好用的数据不开放”
那么,当前国内数据集建设情况如何?
王江平观察发现,有关机构相继发布了“书生·万卷”、WuDaoCorpora、MNBVC等中文语料库,数据集规模和质量逐步提升。“但总的来看,高质量中文数据集供给仍严重不足,在国际竞争中处于弱势地位。”
据王江平介绍,美国在2009年启动了Data.gov平台建设,已汇集超过30万种数据集,数据体量和质量领先全球。在Hugging Face发布的数据集中,英语以37.7%的比重居首位,而中文仅占3.2%。
与此同时,国内高质量数据集建设还面临一些困境和挑战——比如规范性不足、专业性不强、数据流通不畅、公共数据开放共享不够等。
具体而言,由于数据集完整性、准确性、一致性、时效性等方面标准缺失,语料来源广泛但质量参差不齐。行业专家对数据治理的参与程度不高,当前仍缺乏既懂行业又懂数据治理的复合型人才,这使得数据集的专业性不强。
王江平还提到,出于商业秘密、数据安全等因素考虑,企业开放数据意愿不足,专业场景数据集缺乏。数据确权、定价、交易、流通等模式的不清晰,也制约了数据的开发与利用。在公共数据层面,政府部门的开放共享程度也有待提高。实践中往往是“开放的数据不好用,好用的数据不开放”。
大模型的开发与优化,离不开海量优质的数据“投喂”。长久来看,高质量数据将成为稀缺品。据人工智能研究机构epoch的研究预测,语言数据可能在2030~2040年耗尽,高质量训练数据或在2026年耗尽。
引导多主体开展高质量行业数据集建设
如何破解“数据瓶颈”,促进数据自由流通与高效配置,成为AI发展的一道必答题。
王江平建议,比照国家教材委员会的模式,设立人工智能国家数据集建设委员会,统筹规划国家数据集建设的战略方向、政策制定和资源调配。该委员会的成员包括政府部门代表、学术界专家、企业界代表等,确保决策的科学性和全面性。
在强化顶层设计的同时,王江平认为,还应分类别建设国家数据集标准。对于涉及国家安全、意识形态、实体制造、医疗健康等关键领域,分轻重缓急制定并实行强制性国家标准,明确数据采集、存储、标注、使用等各个环节的规范和要求,确保数据的安全性、准确性和一致性。其他领域可制定推荐性标准。同时加快制定通用/行业数据集质量标准,在壮大规模的同时更加关注数据专业性,开展数据集质量评估和提升行动。
为支持国家数据集的建设、维护和更新,吸引优秀科研团队和企业参与其中,王江平还建议设立国家人工智能数据集专项基金,其资金来源可包括政府财政拨款、企业捐赠、社会资本投资等。
聚焦行业数据集建设,王江平表示,可联合国家实验室、国家科研机构、高校、科技领军企业的力量,引导优势行业链主企业、地方龙头国有企业、人工智能园区基地、龙头数据服务商等多主体,围绕特定领域和场景,协同建设和储备一批高质量数据集。
他还提到,应探索数据共享机制,让更多专业化数据集“供”出来。对此,可鼓励龙头企业和行业协会牵头,建设行业和企业级可信数据空间,构建多方互信的数据流通利用环境,协同上下游主体开放共享数据资源。
据南都记者了解,可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的一种数据流通利用基础设施。去年11月,国家层面首次针对可信数据空间进行前瞻性的系统布局,明确提出到2028年,我国将建成100个以上可信数据空间,形成一批数据空间解决方案和最佳实践。
数据的流通与使用过程中,安全问题也不可忽视。王江平认为,应根据数据性质和用途,统筹好开源和闭源的关系,确保数据的充分利用和安全保护。
他建议,以开源方式建设可公开数据集,降低研究和开发门槛。以闭源方式建设敏感性、资产性数据集,加强数据全生命周期安全保护,配套必要的安全保障措施,防范安全风险。
王江平表示,应加快图书/期刊、视频、文献资料等高质量多模态公共数据开放,建立人大代表、政协委员监督保障机制。加强数据动态更新、安全开发利用等管理制度建设,充分释放数据要素价值。
采写:南都记者李玲 发自北京
南都全国两会报道组
扫描二维码推送至手机访问。
版权声明:本文由0538资讯网整理发布,内容均来自互联网,如有侵权联系8641340@qq.com删除。