Takeaways

<aside> 🎯

</aside>

  1. 金融量化任务中,强化学习核心在于根据市场变化做出应对,甚至要避免学习市场规律,预测市场的事情交给深度学习监督训练。
  2. 判断新任务是否适合强化学习,取决于算力是否足以在当前探索规则下,能让随机初始策略搜出有差异的奖励信号。这一点和大模型 pass@N要先大于0,才能做强化学习+长链思考一致。
  3. 金融强化学习的发展一直存在2.5条路线:环境建模派,高效采样派,降噪拟合派。前两条路线无法兼容,精确模拟市场必然无法高效采样。后一条路线与其他路线兼容。
  4. 随着DeepSeek-R1纯强化学习长链推理路线的推出,金融量化强化学习的未来将转向利用市场反馈训练大模型,从RL Human Feedback 转变到RL RealWorld Feedback(RL Market Feedback)。
  5. 深度学习等机器学习量化策略若使用开源代码,因相同因子数据、模型结构、训练方式或标签而会生成相似交易策略。强化学习策略则不同,私有的因子能通过公有的强化学习自动搜索出差异显著的交易策略。
  6. 金融量化强化学习的实盘壁垒已显著提高,盛宴已过。早已不是靠实习生就能开发实盘策略的时代

强化学习已在金融量化行业的多个领域落地:

原本的深度学习自动化量化交易系统,将人类参与的两项替换为强化学习系统,即可形成一套金融量化强化学习系统,不需要为强化学习重新开发:

  1. 接收并处理交易所发布的交易信息(时间戳、量价、逐笔等),生成金融时序数据