EN
登录

李飞飞等领衔,来自七所高校的“三代AI人”联合提出强化学习新框架,将用于训练和评估大模型智能体

2025-04-25 DeepTech深科技 等1家媒体报道 科研进展

来自七所高校的“三代AI人”,包括00后王子涵、美国西北大学助理教授李曼玲和斯坦福大学教授李飞飞,联合提出了一种名为状态-思考-动作-奖励策略优化(StarPO)的新框架。该框架旨在解决强化学习中的回声陷阱问题,并通过引入轨迹过滤、评价融入和解耦裁剪等机制来提高稳定性。研究团队还开发了模块化系统RAGEN,用于训练和评估大模型智能体。通过在三种典型环境中的实验,他们发现多样化的初始状态、适中的交互粒度以及频繁的采样是优化强化学习的关键因素。此外,细粒度且符合推理逻辑的奖励信号对于智能体形成有效推理能力至关重要。这项研究为多轮次、轨迹级别的智能体训练提供了一个统一视角,并为未来基于强化学习的推理研究奠定了基础。(摘要由动脉网AI生成)