当前位置:首页 > 新闻资讯 > 正文内容

语料“超级工厂”助力研发 多语言联盟实现“数”“质”齐飞



  AI语料新生态❸开源筑基

  “开源已经成为推动AI技术进步的重要力量”,上海人工智能实验室·大模型语料数据联盟去年联合发布多模态语料库首个开源版本——书生·万卷1.0,目前下载量超过149万人次,通过开源共建包容、开放、有序、共享的AI语料新生态。

  在上海市人工智能社会治理协同创新中心、上海交通大学清源研究院研究员刘志毅看来,开源语料的价值不仅在于降低创新门槛,更重要的是通过社区协作提升数据质量。

  开源社区帮AI开发者找到模型数据集

  2023年8月14日,上海人工智能实验室宣布联合语料数据联盟成员共同开源发布“书生·万卷1.0”多模态预训练语料,包含文本数据集、图文数据集、视频数据集,开源数据总量超过2TB。发布两周内下载量为18万人次,创下国内大模型兴起后公开的单体数据集下载量之最。  

  打造大模型语料“超级工厂” 

  南都大数据研究院注意到,书生·万卷1.0官网信息注明其为书生·万卷多模态语料库首个开源版本,具备多元融合、精细处理、价值对齐、易用高效等四大特征,已经被应用于书生·多模态、书生·浦语的训练。

  其中,文本数据集1.0由来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料组成,数据总量超过5亿个文档,经过细粒度的清洗、去重、价值对齐,形成了一份安全可信、高质量的预训练语料。图文数据集1.0数据主要来自公开网页,经处理后形成图文交错文档,总量超2200万个。视频数据集1.0来自中央广播电视总台、上海文广集团,包含多种类型的节目影像,视频文件数超过1000个。

  近年来,为满足大模型发展对高质量、大规模、安全可信语料数据资源的需求,全国多地采取一系列举措,包括组建大模型语料数据联盟,开源多批高质量语料资源,建设语料平台,打造大模型语料的“超级工厂”。随着人工智能快速发展,用于机器学习与AI大模型训练的语料数据开源平台越来越多,例如Kaggle、UCI、OpenML、ImageNet、OpenSLR等平台开源大量图像、文本与语音数据。  

  高质量与多样化数据集  

  如何为国内大数据及AI行业提供安全、可靠的语料资源?智源研究院联合拓尔思等单位共建的开源中文互联网语料库,是首个针对当前主流评测数据集进行过滤的开源数据集,数据来自高质量可信、中国境内的互联网站,在内容质量、价值观等方面进行针对性检测与过滤。而华东师范大学出版社联合上海智能教育研究院共同发布的“华师·无涯”开源数据集包含学前教育、基础教育、高等教育到职业教育全年龄、全学科内容等等。

  在华东师范大学计算机科学与技术学院青年研究员周杰看来,该数据集具备大规模、高质量、多样性及测评四大特点,从数据源、数据规范、数据处理、数据标准制定等方面控制数据质量,从教学知识、学生发展、内容知识三大模块,记忆、理解、运用、分析、评价、创造六个层级全面评估大模型在智能教育领域的应用性能。

  企业或者开源平台提供高质量与多样化数据集支持大模型训练优化,也为大模型开发中数据收集、清洗、标注和管理提供坚实基础,为AI算法提供必需语料资源。上海人工智能实验室发布的人工智能开源开放体系核心项目之一浦数平台OpenDataLab,汇聚7700多个大模型相关优质、开源数据集,覆盖计算机视觉、自然语言处理、多模态、通用机器学习、音频识别等领域的800多种任务类型。2024年6月20日,魔搭社区与浦数平台达成深度合作,开发者可直接调用平台上开源数据集,加速AI大模型研发。

  开源语料生态面临有效质量控制等挑战

  但刘志毅提到,开源生态的健康发展仍面临几个关键挑战:如何建立有效的质量控制机制、如何设计可持续的激励模式、如何处理多语言数据的协同等,这些需要在社区治理、商业模式、国际合作等方面进行深入探索,特别是在中文语料领域,开源社区的建设对提升本土AI技术竞争力产生深远影响。  

  设计可持续激励模式 

  在大模型开源语料生态建设中,建立有效的质量控制机制是确保语料库质量、提升模型性能和应用效果的关键,涉及数据采集与收集、数据清洗与预处理、数据标注与标签、数据存储和管理、数据安全和合规性、定期审查与更新等。

  具体而言,要明确数据从哪里获取,定义数据采集频率、数据范围等,要对数据进行规范化、归一化和转换以适应模型需求,确保标注准确性,数据采集、存储过程符合数据保护法规和隐私政策。此外,要为数据科学家、工程师和其他利益相关者提供易于理解的数据文档,定期审查确保数据保持高质量,更好提升模型性能应用效果。

  而设计可持续激励模式对于维持开源社区活跃度、贡献者积极性至关重要。专家建议采取开源许可证和贡献者协议、开源社区参与贡献奖励、开放教育培训资源等举措,鼓励更多开发者参与并贡献代码、数据和算法,常态化推出开源贡献者排行榜单、颁发贡献证书等为贡献者提供技术、资金以及名誉奖励,同时建立开放算力平台和数据共享机制降低开发成本,吸引更多参与者。

  至于多语言数据协同,可以通过收集、处理大规模多语言数据,确保模型能理解生成多种语言,打造多语言数据联盟,跨界联合共建宽领域语料库,打破数据壁垒,提升数据质量与多样性,推动大模型开源语料生态健康发展。

  需政府和社会力量更好协同  

  此前,阿里研究院高级行业研究专家王峥在大模型中文语料库的发展现状与高质量发展路径研讨会上提到,模型语料需要政府和社会力量更好协同。政府侧进一步加强应用于训练的公共数据开放,特别是具有科研属性的公共数据,鼓励社会力量参训练公共数据集开发建设,通过多方参与机制提高训练数据质量和安全性。

  对于受财政支持的科研和文化单位所有的知识产权类数据,鼓励通过开放共享等向社会公开,基于非营利性成本补偿原则明确合理收费标准。低质量语料可以用数据治理标准来去劣,而高质量语料应交给市场机制探索,不要预设前置标准。

  为应对大模型发展对高质量、大规模、安全可信语料数据资源需求,大模型语料数据联盟发起数据征集计划,即寻“数”计划,依托开放数据平台招募各类数据合作伙伴,致力于构建AI开放数据生态,推动数据要素对大模型领域全面赋能,截至10月29日平台汇聚7600多个数据集。

  构建高价值语料数据 互通可持续生态

  建立模型训练、语料供给、学术研究、第三方服务等多方机构合作机制,共同打造资源共享、互利共赢、国际融通的“大模型语料生态圈”,实现语料“数”“质”齐飞,是众多语料生态伙伴共同的愿景。  

  建立数据共享平台,鼓励合理共享  

  谈及如何强化AI语料生态建设,深译信息科技(珠海)有限公司创始人林余楚建议加强法律法规建设,制定和完善数据生产、确权、使用、保护等方面法律法规,建立数据共享平台,鼓励数据合理共享,促进AI技术发展。要鼓励语言学、计算机科学、法律等不同学科之间合作,加强对AI数据专业人才培养,提高行业专业水平。支持开源项目和标准化工作,以促进AI语料数据的广泛使用、国际交流,构建国际数字贸易枢纽港,为数据跨境提供基础条件。

  在2024北京人工智能生态大会上,国家区块链技术创新中心等10余家语料数据重点单位共同启动高价值语料可信流通基础设施建设,开展语料数据可信安全流通规范制定,保障语料数据可信安全流通、使用和管理。

  “在区块链、隐私计算等前沿信息技术护航下,支撑人工智能大模型高质量成长的语料数据将告别无序流通,转入规范运行的高速公路”,国家区块链技术创新中心相关负责人表示,高价值语料可信流通基础设施将运用我国自主可控、性能领先的区块链软硬件技术,搭建起覆盖全国分布式语料数据互联互通桥梁,形成高质量语料数据集。

  南都大数据研究院留意到,深圳数据交易所2022年联合50家国家智库、高校、大型企业共同发起成立首个致力于构建数据可信流通体系的开源社区,也是全国数据要素领域最大的技术生态型社团组织,加快推动高质量开源社区与开源语料数据平台建设,围绕技术开源协同、行业标准制定、数据要素场景落地等目标,开展隐私计算、大数据、区块链、人工智能等前沿技术探索与落地。  

  建立健全语料数据合规保障机制  

  作为数据要素市场的核心枢纽,数据交易所应当如何为AI大模型语料数据的流通交易与使用提供保障,促进高价值语料数据高效互通,构建可持续生态?

  深圳数据交易所总经理古亮告诉南都记者,可持续的语料数据流通生态有赖于语料合规保障、流通平台支撑、数据资源生态汇集、梯队人才培养、语料数据资产转化等全链条服务能力。

  人工智能技术应用已从单一场景向多场景应用转化,市场亟须高质量细分行业领域数据实现精细化场景应用,语料数据资产转化在帮助企业实现数据从资源向产品到资产转化同时,也将进一步促进企业扩展经营增长路径,推动数据“供得出”。

  为保障数据安全合规应用,预防企业隐私泄露,建立健全语料数据合规保障机制、实现技术赋能数据合规流转是语料数据流通的核心关键,并围绕人工智能技术和趋势、特定技术难题、人工智能战略和方案等企业核心痛点,通过构建梯队人才培养体系,丰富开发者培养计划,全方位赋能高价值语料数据流通可持续生态打造。

  行业

  语料“超级工厂”

  全国多地采取一系列举措,包括组建大模型语料数据联盟,开源多批高质量语料资源,建设语料平台,打造大模型语料的“超级工厂”。例如Kaggle、UCI、OpenML、ImageNet、OpenSLR等平台开源大量图像、文本与语音数据。  

  开源社区

  深圳数据交易所2022年联合50家国家智库、高校、大型企业共同发起成立首个致力于构建数据可信流通体系的开源社区,开展隐私计算、大数据、区块链、人工智能等前沿技术探索与落地。

  建议

  深译信息科技(珠海)有限公司创始人林余楚建议加强法律法规建设,制定和完善数据生产、确权、使用、保护等方面法律法规,建立数据共享平台,鼓励数据合理共享,促进AI技术发展。

  要鼓励语言学、计算机科学、法律等不同学科之间合作,加强对AI数据专业人才培养,提高行业专业水平。

  支持开源项目和标准化工作,以促进AI语料数据的广泛使用、国际交流,构建国际数字贸易枢纽港,为数据跨境提供基础条件。

  采写:南都记者 袁炯贤 实习生 纪依 图片由腾讯元宝AI生成

扫描二维码推送至手机访问。

版权声明:本文由0538资讯网整理发布,内容均来自互联网,如有侵权联系8641340@qq.com删除。

本文链接:https://www.0538ta.cn/post/62255.html

分享给朋友:

“语料“超级工厂”助力研发 多语言联盟实现“数”“质”齐飞” 的相关文章

广州黄埔科学城58万m²旧改项目中秋入市,单价2万+

广州黄埔科学城58万m²旧改项目中秋入市,单价2万+

在刚刚过去的中秋假期,广州多个楼盘入市。近两年相对少有新盘亮相的黄埔区科学城云埔板块,迎来前身为荷村旧改项目的融资区,即星河·盛世禧悦项目的登场。作为星河亮相黄埔的首个楼盘,星河·盛世禧悦打造了建面约88-108m²三至四房的新规产品,配置四或五开间朝南,2...

湖北一大爷持刀与执法人员对峙,当地称系酒后行为!无人受伤

湖北一大爷持刀与执法人员对峙,当地称系酒后行为!无人受伤

近日,湖北荆门京山“大爷持刀与执法人员对峙”的视频引发社会关注。9月18日晚,南都记者从京山新市街道综合执法中心获悉,该大爷并非摆摊卖菜商贩,现场未造成人员受伤,目前公安机关已介入调查。事发现场画面。相关画面显示,京山一超市门口,一大爷手持刀具和一穿制服男子...

在警方的帮助下,网恋被骗女子将计就计与骗子较量

在警方的帮助下,网恋被骗女子将计就计与骗子较量

极目新闻记者 陈勇通讯员 汪莎女子回乡探亲,向亲友介绍一个“赚钱”的投资平台,亲友一听,觉得是诈骗,劝她去找警察咨询。当女子求助警方时,才知道自己真的被骗。9月18日,极目新闻记者获悉,在湖北孝感市应城警方的帮助下,受骗女子将计就计与骗子周旋,不仅成功抓获2...

美诚月饼里有没有黑松露?王海晒配料表称“三只羊”该退一赔十

美诚月饼里有没有黑松露?王海晒配料表称“三只羊”该退一赔十

“三只羊”再起波澜。今年中秋节期间,合肥三只羊网络科技有限公司(以下简称“三只羊网络”)因为直播售卖“香港美诚月饼”而遭遇当地市场监管部门稽查。“黑松露入料,米其林大师调制”的宣传内容也遭公众质疑。职业打假人王海向现代快报(报料邮箱:xdkb123@163....

杭州曹某等5人,被采取刑事强制措施

杭州曹某等5人,被采取刑事强制措施

近日杭州淳安县公安局水上派出所民警在日常巡查中发现曹某(化姓)等人多次到千岛湖南浦大桥至鸠坑口水域采用活体泥鳅“打窝”的方式进行垂钓泥鳅“打窝”是指垂钓人员通过泥鳅的活动吸引周边肉食性鱼类大量聚集然后使用钓鱼工具进行捕捞经相关专业研究表明这种捕鱼方式会导致翘...

美联储降息落地,A股三大指数翻红,后市如何看?

美联储降息落地,A股三大指数翻红,后市如何看?

当地时间9月18日,美国联邦储备委员会宣布将联邦基金利率目标区间下调50个基点,降至4.75%至5.00%之间的水平。这也是2020年来美联储首次降息,标志着美联储由货币政策紧缩周期向宽松周期的转向。9月19日A股开盘,A股方面,沪指、深成证指、创业板指开盘...

今年以来,全国各地已成功预报地质灾害550多起,及时组织6700多人提前转移避险

今年以来,全国各地已成功预报地质灾害550多起,及时组织6700多人提前转移避险

9月19日,国务院新闻办公室举行“推动高质量发展”系列主题新闻发布会,自然资源部、国家林草局相关责任人介绍情况。会上,自然资源部总工程师何广顺介绍,近年来,受全球气候变化的影响,极端降雨这种现象已经呈现常态化的趋势,我国面临着地质灾害风险加剧、海洋灾害发生频...

港股午评:恒生指数涨1.81%,恒生科技指数涨3.05%

港股午评:恒生指数涨1.81%,恒生科技指数涨3.05%

9月19日港股午间收盘,恒生指数涨1.81%,恒生科技指数涨3.05%。康方生物跌超10%;美的集团涨超9%,万科企业涨超8%,快手、京东集团涨超5%。(来源同花顺,以上信息为南都·湾财社AI大数据自动生成)...

猪大腿肉涂抹猪血当牛肉,湖北枣阳警方破获销售假劣牛肉案

猪大腿肉涂抹猪血当牛肉,湖北枣阳警方破获销售假劣牛肉案

极目新闻记者 周萍英通讯员 徐子威为守护人民群众的“舌尖安全”,湖北枣阳市公安局治安大队以开展“昆仑2024”为契机,9月10日,成功抓获一名涉嫌销售伪劣产品罪的嫌疑人周某兴,破获一起销售假劣牛肉案。民警抓获销售假牛肉案犯罪嫌疑人(通讯员供图)今年1月,枣阳...

深圳一女子发58页PPT爆料男友嫖娼出轨,律师:慎用互联网曝光隐私,或构成侵权

深圳一女子发58页PPT爆料男友嫖娼出轨,律师:慎用互联网曝光隐私,或构成侵权

9月18日,网传广东深圳市一女子制作58页PPT爆料其男友、招商银行管培生史某某嫖娼、出轨。 这份PPT中,记录了史某某嫖娼等证明,并列举出9次嫖娼记录,在网上引起大量关注讨论。据百姓关注报道,招商银行工作人员回应称会将情况逐级反映核实调查。针对这一事件,湖...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。