什么情况下使用强化学习
1.
深度学习与深度强化学习的核心区别
深度学习与深度强化学习的“核心”都是用神经网络,通过训练调整参数,让模型对输入数据
X 有更好的输出
Y。而它们本质上的区别主要在于:数据来源、训练目标、反馈方式。
深度学习更像是在“背标准答案”,用现成的数据直接学;深度强化学习更像是在“玩游戏”,通过不断试错、和环境互动,自己摸索什么行为最优。
2.
从预测到决策:金融中的两种学习方式
如果只预测股票涨跌幅度,那是深度学习或者机器学习;而学习通过择时选择不同动作,以获得收益最大化,则是强化学习。
方面
深度学习(DL)
深度强化学习(DRL)
数据来源
预先准备的静态数据
交互环境中动态产生的数据
目标
预测已知标签
最大化长期累计奖励
反馈
明确的标签/损失
间接的奖励/反馈
训练过程
直接优化损失
需探索 - 收集 - 利用经验
数据分布
固定(i.i.d.)
不断变化,依赖策略
3. 连续决策:强化学习的真正难点
与深度学习的“单次预测”不同,强化学习关注的是连续决策过程:一个动作会影响后续状态与奖励。模型不仅要考虑当前结果,更要权衡“现在做什么” ...
围棋经典算法与股票市场预测
一谈到强化学习,脑子里第一个出现的就是 AlphaGo 和 AlphaZero
的“围棋神话”。但现实是,它并不是所有 RL
应用的通用范本。下面,我们就来讨论一下为什么围棋中的经典强化学习算法无法应用于股票市场预测,以及在现实中有没有更好的方法可供推荐。
1 蒙特卡洛树搜索
蒙特卡洛树搜索(Monte Carlo Tree Search,
MCTS)是一种用于决策和规划的搜索算法,经常用于下棋
AI(如围棋、国际象棋)等需要“选最优动作”的场景。
1.1 基本思想
核心思想:在一个决策树中,通过不断模拟(随机走子)和回溯统计,估计每个动作/路径的优劣,从而指导实际的决策选择。
适用于:环境模型已知、可以模拟、状态和动作是有限/可枚举的场景。
1.2 树的结构
节点(Node):代表一个状态(比如棋盘某一局面)。
边(Edge):代表一个动作(从当前状态采取的一个可能操作)。
根节点是当前的实际状态。
从根出发,每走一步棋(做一个动作)就往下生成一个新节点,连一条边。
1.3 搜索过程(四大步骤)
选择(Selection)
沿着树从根节点开始,按照某种策略(如
UCB,上置 ...
强化学习工具及优化方法
1 说明
在量化交易或金融强化学习项目中,很多人会好奇到底需要关注算法本身,还是环境建模和数据处理。实际上,绝大多数场景下,重点是如何设计环境和构造特征,而不是修改
RL 算法。只有在算法研究、论文复现或特殊需求时,才需要动手改算法。
本文将以 stable-baselines + gym
为例,介绍强化学习在股票策略训练中的实践重点和流程。
2 stable-baselines
stable-baselines3(简称 SB3)是一个基于 PyTorch
的强化学习库,专注于实现和优化主流深度强化学习算法。它的目标是让用户能够方便地训练、评估和部署
RL 智能体。
2.1 主要特点
易用性:API 设计简洁,类似
scikit-learn,便于上手。
主流算法:内置 PPO、A2C、DQN、SAC、TD3
等常用算法。
可扩展性:支持自定义环境(如 gym
环境)、网络结构和回调。
社区活跃:文档完善,支持良好。
2.2 适用场景
股票/量化交易
游戏智能体
机器人控制
其他序列决策问题 ### 2.3 基本用法
定义环境(如 gym 或自定义环境)
选择算法并初始化模型 ...
强化学习的核心概念与实践应用
核心:价值与奖励、策略与动作、价值与状态之间有什么关系?
1 核心概念
状态(State):环境的某个完整描述,比如“现在是周一上午 10
点,账户余额 10 万,持有 A 股 1000 股”。
动作(Action):在当前状态下可以做出的选择,比如“买入、卖出、持有”。
奖励(Reward):环境在每一步给你的“即时反馈”或“即时得分”。
策略(Policy):是一个“状态→动作”的映射规则,也可以是一个概率分布,决定你在每个状态下选什么动作。
价值(Value):给定当前状态(或状态 +
动作),在当前策略下未来总奖励的期望。
12状态 --(执行 策略)--> 动作 --(环境反馈)--> 奖励 ↘-------------- 价值 ------------↗
状态、策略和动作决定了你怎么走
奖励是每步的即时反馈,价值是“展望未来”的累计总奖励
2
价值(Value)和奖励(Reward)的区别
奖励(Reward):是环境在每一步给你的“即时反馈”或“即时得分”。
比如:每走一步路时地上的小金币。
价值(Value):是“从某个状态(或状态 +
...
用游戏心态看待生活
原来我总是以累积的方式看问题,
所以很难接受犯错。
仿佛一旦有了失误,或者让别人不高兴,
就被钉上耻辱柱,永世不得翻身。
后来发现,还有另一种思考方式:
就像超级马里奥里的那个“我”——
世界只有屏幕那么大,
过去的就过去了,既无历史,也无未来。
过关与否,只与当下的操作有关。
经验会沉入肌肉记忆,
而得分与失误,都只是临时的失血。
即使“死了”,也不过是重新开始游戏。
也许人生该像游戏,不惩罚失败,只奖励继续。
没有自我,没有过去,也没有未来,只有现在,就是游戏的过程。
Yan
人的可预测性和延续性似不是这么理解,对吧!不是说我之前什么样,我之后就必须怎么样。
5
我们习惯把“我是怎样的人”当作一个定语句,好像确定后就得维持一致。但实际上,“人”的延续性更像是流动中的连贯,不是静态的重复。
别人能预测我们的一部分——比如偏好、反应模式——那是基于统计意义上的倾向,而不是宿命。
而真正的成长,恰恰是当你自己都意外地,选择了不同于以往的反应。那一刻,旧的剧本就被打破了。
Yan
所以我命由我不由天(虽然那个电影我也没看过),有一部分讲的是人的可塑性,不需要接受“命定”或者别人期待的 ...
七日阿勒泰喀纳斯旅行指南
我只有一个人,整个过程差不多都是公交和拼车,路径不是最优的哈~
第一天: -
乌鲁木齐到布尔津,全程约700公里,无火车,需自驾或乘巴士,至少需7小时。 -
或先坐火车到阿勒泰/北屯,再转汽车去喀纳斯(包车/拼车)。
第二天: -
从布尔津到喀纳斯。单程约2小时,景区内排队等车1小时起,景区通勤车程1小时。
- 喀纳斯核心区内各景点间需再次排队换乘,但时间较短。 -
我住在景区内的白哈巴村(我的阿勒泰在那儿拍的),喀纳斯核心区到白哈巴村需1小时。
- 喀纳斯门票需提前预约。
第三天: -
玩白哈巴->玩喀纳斯,晚上返回布尔津。
第四天: - 布尔律->五彩滩->布尔津。 -
因天气预报山上下雨,在布尔津逗留,实在无聊去了五彩滩,游客不是很多,但建议提前预约门票。
第五天: - 从布尔律去禾木,当天返回。 -
禾木门票需提前预约。 -
禾木小木屋紧俏,需要预订。如在禾木住宿,建议次日沿阿禾公路直接去阿勒泰。
第六天: - 从布尔律返回乌鲁木齐。
第七天: - 乌鲁木齐博物馆,需提前预约门票。 -
如果游客不多,参观体验极佳。 -
逛和田二街或二道桥,买特产,晚上返家。
...
强化学习在股票预测中的应用
1 项目介绍
项目地址:https://github.com/wangshub/RL-Stock
我修改后的地址:https://github.com/xieyan0811/RL-Stock-XY
我修改的内容:
更新了工具链和相关 API
添加参数以支持只下载指定的股票
对空数据进行了插补
为强化学习部分添加了更多注释
2 代码说明
代码只有几百行,比我想象中简单得多,没想到强化学习工具如此易用。
下载数据:get_stock_data.py
训练模型入口:main.py(stock_trade 函数),包括训练和测试功能。
逻辑核心:StockTradingEnv0.py,负责处理股票数据、定义状态空间和动作空间等。
3 用后感
股票数据集来源于 baostock,可直接下载 1990 年起的数据,无需注册,K
线数据除了开盘、收盘、最高、最低,还包含 市盈率、市争率等等。。
使用强化学习的方法并不复杂,项目中使用的是 stable_baseline
强化学习库,无需深入 PPO
和深度学习库,仅需几句代码即可训练。只需定义状态、动作、奖励,进行数据转换,并实现
ste ...
借助大模型_快速了解陌生股票
1 引子
对于不太熟悉的股票和行业,可以通过与大型模型对话来获取进一步的信息。本文是一个示例,展示如何在短时间内,通过一系列问题初步了解股票的所属行业、行业周期、市场地位、优劣势及竞争对手等。这个套路可能对大多数股票都适用。
在与模型交流后,我请一位朋友帮忙看了一下,他提供了额外的见解,比如公司的核心优势、解决的痛点问题,还推荐了官网的介绍。整体感觉是:来自人的建议更有针对性,能够直击重点。但不是所有感兴趣股票我都能找到熟悉的朋友,而我也有很多问题,人家也没空一一解答。
综上,我觉得用大模型可以解决50-70%的问题,它可能是未来操作的重要环节,毕竟不能只买自己熟悉的领域,还是需要扩展一下能力范围。
2 讨论
Yan
我想了解一下赣锋锂业这支股票以及公司,能简单帮我介绍行业的吗?
5
公司自称是“世界领先的锂生态企业”,业务贯穿锂产业链多个环节。赣锋锂业的业务可以从“上游
→ 中游 → 下游 →
回收”几个环节来看,构成其所谓的“锂生态”布局。产品线丰富—不仅单一锂盐,还做金属锂、锂化合物、锂电池等。
根据英文维基资料,公司被认为是中国最大的锂盐生产商之一,在全球也排名靠前。
Yan
...
量化交易入门
据私募排排网数据显示,截至 2025 年 8 月底,管理规模在 100
亿元以上的私募基金(“百亿私募”)数量增至 91 家。其中,量化私募 45
家,占比约 49.45%;主观私募 39 家,占比约 42.86%;混合型(主观+量化)6
家,占比约 6.59%。在年内收益超过 20% 的 40 家百亿私募中,量化私募占据 31
席。
来源:财联社报道,私募排排网数据(cls.cn)。
量化私募一般是指采用量化投资方法的私募基金管理公司。量化投资:指利用数学模型、计算机技术和海量数据来发现投资规律、制定投资策略并执行交易的投资方式。它依赖数据、算法和程序,目的在于减少主观判断和情绪干扰。
量化与人工交易的对比如下表所示:
对比维度
人工交易
量化交易
决策方式
依赖经验、直觉、新闻、主观判断
预设规则或模型,由程序自动执行
执行一致性
易受情绪和偏差影响,操作不一致
稳定一致,按既定规则执行
情绪干扰
高:贪婪、恐惧、冲动
较低:程序不具备情绪,但模型假设可能隐含人为偏见
速度
慢,依赖人工下单
快,能在毫秒级别响应信号
回测 & 验证性 ...
量化工具简介
1 量化工具比较
使用量化工具时,用户通常会编写程序,区别只是熟练程度不同。所以,即使不使用量化平台,理论上程序员也能实现相关功能。接下来,我们将探讨量化平台具体提供了哪些功能,以及如何根据不同用户的需求进行选择。
首先,进行一个简要比较。
vn.py
掘金/米筐
上手难度
高,需要会 Python,自己搭环境
低,注册后直接写策略
灵活性
高,能接国内外期货/股票/币等
中,受限于平台支持的市场
成本
免费开源,但要自己配账户/服务器
免费额度 + 付费增值
实盘
可直接对接券商/交易所 API
模拟交易为主,部分券商支持
适合人群
想长期深耕量化、折腾框架的程序员/研究者
想快速验证策略、不想折腾环境的入门者
2 vn.py
vn.py(全称 vn.py framework)是一个 基于 Python
的开源量化交易开发框架,GitHub star
32k+,维护十余年,生态完善。它不是现成的炒股软件,而是一个
量化开发工具箱,帮助快速搭建自己的策略系统。
项目地址:https://github.com/vnpy/vnpy,也可通过 ...
