当前位置:首页 > 新闻资讯 > 正文内容

国内大模型厂商加速追赶OpenAI,智谱晒考研数学成绩单

七夏2个月前 (12-31)新闻资讯370

12月31日,大模型独角兽智谱AI发布其首个基于扩展强化学习技术训练的推理模型GLM-Zero-Preview。据悉,该模型专注于增强AI推理能力,擅长处理数理逻辑、代码和需要深度推理的复杂问题,智谱AI还透露,在部分评测效果方面该模型也与OpenAI-o1-Preview相当。 南都记者关注到,自9月OpenAI推出旗下首款具备“推理”能力模型o1以来,国内大模型厂商也在逐渐追赶、加入军备竞赛,DeepSeek、昆仑万维、阿里云、月之暗面、智谱都先后推出了推理模型。近期OpenAI推出重磅的o3推理模型,该模型能进行更复杂的推理,或将引领大模型厂商下一轮布局热潮。

智谱最新推理模型考研数学拿到126分

据智谱介绍,GLM-Zero-Preview专注于增强模型推理能力,擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升,在部分评测效果方面也与OpenAI-o1-Preview相当。

目前用户可以在“智谱清言”官网中免费使用。根据目前的演示案例,GLM-Zero-Preview擅长逻辑推理、数学和代码方面的相关问题。以2025年考研数学一为例,GLM-Zero-Preview全卷得分为126(满分150),当输入考研数学最后一题的图片时,该模型读取图片后给出了完整解答过程;在代码编程方面,输入指令“帮我用html写一个有趣的第一人称射击游戏”后,GLM-Zero-Preview独立完成了游戏编程,同时也能识别代码错误并给出修复建议。


最新推理模型解答考研数学题。

不过,智谱方面提到,目前的GLM-Zero-Preview与OpenAI的o3模型还有不少的差距。未来将持续优化迭代强化学习技术并推出正式版GLM-Zero,将深度思考的能力从数理逻辑扩展到更多更通用的技术。

OpenAI推理模型o3将引领厂商下一轮布局热潮

9月22日,OpenAI旗下首款具备“推理”能力的模型o1和o1-mini正式发布。OpenAI o1系列模型被业界认为是AGI(通用人工智能)的一大进程,不仅解决了“13.11与13.8比谁大”的数学问题,还能解决科学、编程方面的问题,相比此前的模型能处理更为复杂的任务。o1发布后,OpenAI所指出的推理Scaling Law似乎带来了全新的实现AGI范式。

在o1推出以后,国内的大模型厂商也在逐渐追赶、加入军备竞赛。11月20日,AI六小龙之一DeepSeek发布了其推理模型DeepSeek-R1-Lite预览版。据悉DeepSeek R1系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上,已取得了媲美o1-preview的推理效果。

11月27日,昆仑万维正式推出具有复杂思考推理能力的系列模型——天工大模型o1版(Skywork o1)。其中,开源的Skywork o1 Open,在各项数学和代码指标上均有大幅提高,8B的Skywork o1 Open也解锁了包括当时GPT 4o无法完成的数学推理任务(如24点计算)。

11月28日,阿里Qwen团队发布首个开源推理大模型QwQ-32B-Preview。据悉QwQ(Qwenwith Questions)是通义千问Qwen系列的最新实验性研究模型,其中QwQ-32B-Preview在评测数据中表现出色,尤其在数学和编程领域的深度推理任务上,展现出研究生级别的能力。

12月16日月之暗面Kimi发布了视觉思考模型k1,据悉新一代模型通过激励模型生成更详细的推理步骤,形成高质量的思维链CoT(Chain of Thought),显著提升了解决更复杂、更难任务的成功率,同时k1模型的表现超过了全球标杆模型OpenAI o1。

在发布该模型时,月之暗面还提到,AI大模型行业的技术范式处于强化学习阶段,“‘强化学习’就像人类在遇到难题时,并不是立即给出答案,而是先分析问题、探索不同的解决方案、尝试各种方案、反思、改进策略和反复尝试一样”。当时,k1能解答数学题、经典物理电路题。

近期在OpenAI“双十二”活动中,OpenAI推出重磅的o3推理模型,该模型是OpenAI9月推出的o1推理模型的下一代。据OpenAI介绍,o3能够进行复杂任务的推理,在科学、编码、数学等领域的表现要优于前一代o1模型,同时花费的处理时间也会更长。以一项评估AI高级数学推理能力的测试EpochAI Frontier Math为例,以往所有模型都未达到2%的准确率,而o3准确率达到了创纪录的25%,该模型或将引领大模型厂商下一轮布局热潮。

采写:南都记者 林文琪

扫描二维码推送至手机访问。

版权声明:本文由0538资讯网整理发布,内容均来自互联网,如有侵权联系8641340@qq.com删除。

本文链接:https://www.0538ta.cn/post/78868.html

分享给朋友:

“国内大模型厂商加速追赶OpenAI,智谱晒考研数学成绩单” 的相关文章

纷纷宣布:全额退款

纷纷宣布:全额退款

今年第13号台风“贝碧嘉”于9月16日7时30分登陆上海浦东临港新城沿海成为自1949年以来登陆上海的第11个台风也是最强的台风并对江浙沪多地造成较大风雨影响多场演出改期或取消部分已宣布全额退票上海 · 苏打绿演唱会指定时间内可申请全额退款 原定于9月15日...

海口一幼儿园多名幼儿呕吐发热,初步判定为诺如病毒感染性腹泻疫情

海口一幼儿园多名幼儿呕吐发热,初步判定为诺如病毒感染性腹泻疫情

9月18日,海口市秀英区海秀镇中心幼儿园官微发布情况说明,内容如下:9月13日,我园有同一班级5名幼儿出现呕吐、腹痛、发热等症状。事发后,区教育局立即联合区卫健委、区疾控中心到园里开展溯源调查工作,初步判定本起疫情为患儿相互接触传播引起的诺如病毒感染性腹泻散...

肥东4.7级地震|家住合肥城中村的居民跑到室外

肥东4.7级地震|家住合肥城中村的居民跑到室外

大皖新闻讯中国地震台网正式测定:09月18日20时08分在安徽合肥市肥东县(北纬31.98度,东经117.60度)发生4.7级地震,震源深度12千米。大皖新闻记者家住合肥贵池路,家人带着老人、孩子外出下楼躲避。“我住在二楼,首先感到地下震动,然后窗户晃动,随...

杭州曹某等5人,被采取刑事强制措施

杭州曹某等5人,被采取刑事强制措施

近日杭州淳安县公安局水上派出所民警在日常巡查中发现曹某(化姓)等人多次到千岛湖南浦大桥至鸠坑口水域采用活体泥鳅“打窝”的方式进行垂钓泥鳅“打窝”是指垂钓人员通过泥鳅的活动吸引周边肉食性鱼类大量聚集然后使用钓鱼工具进行捕捞经相关专业研究表明这种捕鱼方式会导致翘...

美国在世最年长的前总统即将满100岁,1年半前已接受临终关怀,其任内中美正式建交

美国在世最年长的前总统即将满100岁,1年半前已接受临终关怀,其任内中美正式建交

据环球时报援引美国《华盛顿邮报》18日报道称,在美国民主党籍前总统吉米·卡特100岁生日即将到来之际,“吉米·卡特100岁:歌曲庆典”音乐会于当地时间17日在佐治亚州首府亚特兰大举行,多位美国戏剧、影视和体育界明星出席或参演。卡特的孙子杰森·卡特表示:“这是...

券商新一轮证券纠纷调解员聘任工作开启

券商新一轮证券纠纷调解员聘任工作开启

记者获悉,2022年中证协在全国范围内聘任的92名调解员聘期已满,如今新一轮证券纠纷调解员聘任工作已于近期开始,券商可积极推荐经验丰富、热心调解的专业人士参与。调解员应当由品行端正、公道正派、勤勉尽责,熟悉证券法律法规及业务知识,无违法或重大违规行为的人员担...

金店遭遇新型洗钱陷阱:代购18万元黄金,其中16万元是电诈赃款

金店遭遇新型洗钱陷阱:代购18万元黄金,其中16万元是电诈赃款

“给我准备20万元的黄金,有人来取,不验货。”近日,成都金牛法院审理了一起黄金专卖店销售主管被利用,诈骗分子购买黄金用于洗钱的案件,更多的黄金洗钱细节也随之曝光:顾客不现身,他人代刷卡,取金不验货、不要发票。事后调查发现,在购买黄金使用的18万元中,有16万...

《黑神话:悟空》之后实景三维中国来了!自然资源部称明年见

《黑神话:悟空》之后实景三维中国来了!自然资源部称明年见

南都讯 记者潘珊菊 王玮发自北京 近期上线的国产游戏《黑神话:悟空》采用三维测绘技术,场景逼真。自然资源部副部长、国家自然资源副总督察刘国洪在9月19日国新办专题发布会上回应介绍,自然资源部正在推进实景三维中国建设,按照精细程度划分为地形级、城市级和部件...

台风“苏力”生成 未来三天北部湾海面风雨强,广西局地有暴雨到大暴雨!

台风“苏力”生成 未来三天北部湾海面风雨强,广西局地有暴雨到大暴雨!

天气实况与预报天气情况9月19日天气:19日白天,崇左、南宁、贵港、玉林、防城港、钦州、北海等市多云有阵雨或雷雨、局地大雨到暴雨并伴有短时雷暴大风等强对流天气,其它地区多云有分散阵雨或雷雨。沿海地区有5~6级、阵风7~8级偏北风。台风“苏力”消息:热带低压已...

新规!下周起广州中介发二手房源需网签核验和当事人书面同意

新规!下周起广州中介发二手房源需网签核验和当事人书面同意

下周起广州中介发二手房源需网签核验,图为广州居民小区 资料图南都讯 记者魏凯 为了避免虚假二手房信息扰乱市场预期,9月19日下午,广州市房地产中介协会在其官网发布规范存量房房源信息发布的通知,明确从9月23日开始,凡是中介发布的二手房房源信息必须经市房地产管...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。