0

0

软件所提出基于信息论的大模型强化学习微调框架

碧海醫心

碧海醫心

发布时间:2025-10-23 20:19:01

|

802人浏览过

|

来源于php中文网

原创

中国科学院软件研究所天基综合信息系统全国重点实验室的研究团队围绕大语言模型(llms)在复杂推理任务中的性能优化问题,提出了一种创新的强化微调框架——learning to think (l2t)。该框架基于信息论原理,致力于在提升模型推理能力的同时优化计算效率,为大语言模型在实际场景中的高效推理提供了全新的技术思路。

相关研究成果论文 Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs 已被人工智能领域顶级会议NeurIPS 2025接收并发表。论文的第一作者分别为博士生王婧瑶、副研究员强文文以及博士生宋泽恩。

近年来,随着大语言模型能力的持续增强,其应用已逐步从简单的文本生成扩展至需要多步逻辑推导的高难度任务。研究团队指出,当前大多数LLMs在处理此类复杂推理任务时,通常仅以最终输出结果作为奖励信号进行反馈训练,忽视了对中间推理过程的有效监督。这种机制容易导致模型生成大量无意义或重复的推理步骤,不仅消耗更多计算资源,还可能影响最终的推理准确性。

为解决这一问题,L2T框架首先将推理任务重新建模为一个多轮次、层次化的对话结构,并引入一种基于信息增益的过程奖励机制。该机制通过量化每一轮推理所带来的情报增量,结合改进的GRPO算法对模型策略进行精细化调整,有效激励关键推理行为,抑制无效或冗余输出,从而实现对整个推理路径的动态调控。

无涯·问知
无涯·问知

无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品

下载

软件所提出基于信息论的大模型强化学习微调框架

在AIME、AMC和HumanEval等多个主流推理基准上的实验表明,L2T在多种规模的基础模型(如DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B等)上均展现出一致且显著的性能优势。与传统依赖结果奖励的方法相比,L2T在准确率方面提升了超过3.2%,同时推理过程的token使用效率提高了一倍;相较于其他过程奖励方法,L2T仍能实现约2%的准确率增益,效率提升达1.2倍。此外,在跨任务综合评估中,L2T在不同难度等级的任务上平均准确率提升接近3%,并在各种token预算条件下均保持稳定的领先表现。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6097

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

808

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1062

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1257

2024.03.01

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

403

2023.08.14

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

411

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

305

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

628

2024.09.10

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

0

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.1万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号