Takeaways
<aside>
🎯
</aside>
- 金融量化任务中,强化学习核心在于根据市场变化做出应对,甚至要避免学习市场规律,预测市场的事情交给深度学习监督训练。
- 判断新任务是否适合强化学习,取决于算力是否足以在当前探索规则下,能让随机初始策略搜出有差异的奖励信号。这一点和大模型
pass@N
要先大于0,才能做强化学习+长链思考一致。
- 金融强化学习的发展一直存在2.5条路线:环境建模派,高效采样派,降噪拟合派。前两条路线无法兼容,精确模拟市场必然无法高效采样。后一条路线与其他路线兼容。
- 随着DeepSeek-R1纯强化学习长链推理路线的推出,金融量化强化学习的未来将转向利用市场反馈训练大模型,从RL Human Feedback 转变到RL RealWorld Feedback(RL Market Feedback)。
- 深度学习等机器学习量化策略若使用开源代码,因相同因子数据、模型结构、训练方式或标签而会生成相似交易策略。强化学习策略则不同,私有的因子能通过公有的强化学习自动搜索出差异显著的交易策略。
- 金融量化强化学习的实盘壁垒已显著提高,盛宴已过。早已不是靠实习生就能开发实盘策略的时代
强化学习已在金融量化行业的多个领域落地:
- 投资组合(Portfolio):即多品种交易,是早期论文的常见场景。如今需要强大的深度学习截面预测能力才能胜任,强化学习通常作为深度学习策略的补充。
- 加密货币(CryptoTrading):即单品种交易,曾是金融开源社区活跃的主因。网友共同维护基于闭源因子自动生成交易信号的**开源工具,**这个工具就是强化学习。加密货币交易限制少,天然适合强化学习。
- 金融大模型(Finance LLM):目前还在探索阶段,同行的初步结论:
- 使用大量私有金融文本进行LLM预训练、后训练,无明显好处。
- 使用大量私有金融文本进行LLM全量微调+强化学习,好处明显,尤其在DeepSeek-R1开源后。
- 关键在于为LLM的强化学习训练建立奖励信号反馈,来源包括逻辑推理类数据集、金融实时市场或人类交易员,并为LLM设计从易到难的课程学习任务(容易的任务是?答:大模型
pass@N
答对概率高于0)。
- 截至2025年,强化学习金融大模型 与 强化学习+大模型 的讨论无明显区别。未来,当大模型基础设施或硬件发展到能支持占用大量显存的LLM作为Reward Model并提升任务性能时,才有必要分开讨论。
原本的深度学习自动化量化交易系统,将人类参与的两项替换为强化学习系统,即可形成一套金融量化强化学习系统,不需要为强化学习重新开发:
- 接收并处理交易所发布的交易信息(时间戳、量价、逐笔等),生成金融时序数据