孙长银教授团队发布基于统一AI框架的深度强化学习智能决策平台—

本网讯（融媒体中心）近日，校党委常委、副校长孙长银教授团队发布基于统一AI框架的深度强化学习智能决策平台——“玄策”（XuanCe），它支持丰富的单、多智能体决策任务，可使用PyTorch、TensorFlow或MindSpore进行开发，支持CPU、GPU、昇腾AI处理器，具有模块化程度高、可扩展性强、简单灵活等特性，代码已在GitHub开源。

深度强化学习在不同领域取得的技术突破

深度强化学习（Deep Reinforcement Learning, 简称DRL）技术在视频游戏、围棋博弈、机器人控制等领域不断取得突破性进展，并且多次被《自然》、《科学》杂志作为封面文章重点报道。深度强化学习已然成为人工智能领域最重要的技术之一，被DeepMind认定为实现通用人工智能（Artificial General Intelligence，AGI）的关键技术。强化学习无需对系统进行精确地建模，只需通过和环境交互收集经验数据，以数据驱动决策模型的学习，就能训练出符合期望的策略。与此同时，深度神经网络强大的函数拟合能力将强化学习的这种优势进一步发挥。正因如此，深度强化学习在解决大规模复杂决策问题上，表现出了巨大的潜力。凭借在强化学习、智能控制与决策等领域的深厚积累，孙长银团队在研制“基于统一AI框架的深度强化学习智能决策平台”上取得重要突破。通过充分调研已有的深度强化学习算法，深入比较各种AI计算框架的相似性和差异性，经过反复迭代更新，最终形成了现在的“玄策”框架。目前，“玄策”已经在GitHub和启智社区开源。