首页 > 科技 >

清华DSAC系列算法深度剖析:以50%显著优势超越OpenAI与DeepMind

发布时间:2025-01-17 19:08:34来源:

强化学习技术进展:

强化学习技术近年来快速发展,尤其在AlphaGo击败围棋世界冠军后展现出巨大潜力。然而,将其应用于真实世界的机器人仍面临挑战。清华大学深度强化学习实验室通过模拟人类对自然世界的感知模式,开发出DSAC及DSAC-T系列算法,在复杂环境中动态调整动作概率分布,性能大幅提升,领先OpenAI的PPO和DeepMind的DDPG算法50%以上。

算法与软件创新:

团队在NIPS2024中发布了DACER算法,结合扩散模型与在线强化学习,刷新了性能记录。此外,提出的RAD优化器确保训练稳定性,性能优于主流优化器。这些算法将集成入团队开源的GOPS软件中,该软件以强化学习为核心,兼容多种机器人和工业仿真环境,已应用于自动驾驶、物流机器人等领域。未来,随着GOPS的升级,有望推动具身智能时代的发展。

免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。