首页 小说推荐 实时讯息 百科知识 范文大全 经典语录
当前位置: 首页 > 实时讯息 >

阿里发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型

0次浏览     发布时间:2025-05-27 14:06:00    

IT之家 5 月 27 日消息,阿里通义千问 Qwen 团队昨日(5 月 26 日)发布 QwenLong-L1-32B 模型,是其首个通过强化学习训练的长文本情境推理模型(LRM)

在七个长文本 DocQA 基准测试中,表现超越 o3-mini 和 Qwen3-235B-A22B 等旗舰模型,与
Claude-3.7-Sonnet-Thinking 相当。

QwenLong-L1-32B 模型最大的亮点,在于上下文窗口最高支持 131072 个 tokens。该模型基于 QwenLong-L1 框架开发,采用了先进的 GRPO(Group Relative Policy Optimization)和 DAPO(Direct Alignment Policy Optimizatio)算法,结合基于规则和基于模型的混合奖励函数,显著提升了模型在长上下文推理中的准确性和效率。

具体而言,团队在监督微调(SFT)阶段建立一个稳健的初始策略,随后采用课程引导的分阶段强化学习技术来稳定策略演变,并结合难度感知的回顾采样策略来激励策略探索。

除了模型本身,阿里还发布了一套针对长文本推理问题的完整解决方案。该方案包含四个核心组件: 高性能的 QwenLong-L1-32B 模型、专门优化的训练数据集、创新的强化学习训练方法,以及全面的性能评估体系。

IT之家附上参考地址

相关文章

    阿里发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型

    IT之家 5 月 27 日消息,阿里通义千问 Qwen 团队昨日(5 月 26 日)发布 QwenLong-L1-32B 模型,是其首个通过强化学习训练的长文本情境推理模型(LRM)。在七个长文本 DocQA 基准测试中,表现超越 o3-mini 和 Qwen3-235B-A22B 等旗舰模型,与

    Excel用户反馈安装微软5月更新后,无法打开方括号开头文件

    IT之家 5 月 27 日消息,科技媒体 borncity 今天(5 月 27 日)发布博文,报道称 Office 2016 用户在安装 5 月安全更新之后,Excel 无法打开文件名以方括号开头的文档。在 5 月 13 日的补丁星期二活动日中,微软面向 Microsoft Office 2016、

    谷歌Chrome浏览器新特性:AIv3模型AI优化地理位置权限请求

    IT之家 5 月 22 日消息,科技媒体 Windows Report 昨日(5 月 21 日)发布博文,报道称在 Canary 频道最新 Chrome 浏览器版本中,谷歌邀请用户测试 AIv3 模型,处理地理位置(Geolocation)权限请求。谷歌正加速推进 Chrome 浏览器整合 AI 功

    青海大学蝉联五届ASC世界大学生超算竞赛一等奖 绿色算力培育西部科创新动能

    5月20日,记者从青海大学了解到,在第十二届ASC世界大学生超级计算机竞赛总决赛中,青海大学超算团队以卓越表现斩获全球一等奖,成为全球极少数蝉联五届该赛事一等奖的高校。 青海大学超算团队自2016年组建以来,秉持“以赛促学、以学促研”理念,构建起“系统化选拔、项目化训练、实战化检验”的人才培养体系

    百度,入账325亿!AI收入猛增,外资集体抢筹!

    百度AI战略加速落地之际,迎来一份新业务增势强劲的一季报!5月21日下午,百度集团在港交所发布的2025年一季度财报显示,今年1—3月,该集团总营收达325亿元,同比增长7%;归属于百度核心净利润为76.3亿元,同比大增48%。尤为强劲的增量来源于百度智能云业务的高速增长,一季度大涨42%,AI相关