1
2
3
4
5
6
7
英文名称:A Two‑Stage Framework for Stock Price Prediction: LLM‑Based Forecasting with Risk‑Aware PPO Adjustment  
中文名称:两阶段框架的股票价格预测:基于大型语言模型及风险感知PPO调整
链接: https://www.scirp.org/journal/paperinformation?paperid=142270#T3
作者: Chenzhao Qizhao
机构: Univ. of Hyogo
出处:Journal of Computer and Communications(第 13 卷第 4 期)
日期:2025‑04

摘要

  • 目标:提出一个结合 LLM 与风险感知 PPO 的框架,提升股票价格预测准确性并控制风险。
  • 方法:第一阶段由 LLM 生成基于历史数据与新闻情绪的预测,第二阶段由强化学习 PPO 利用 VaR/CVaR 等风险指标调整预测输出。
  • 结论:该 LLM‑PPO 框架在预测准确性与风险敏感性上均优于传统模型,为市场波动环境下决策提供更加稳健的工具。

读后感

这篇文章非常实用,方法简洁而不刻意复杂。

1 方法

相较于传统机器学习模型,该方法能够捕捉更复杂的模式并提取实时文本信息,同时融入情绪因素。此外,它不仅优化收益,还特别关注金融风险,如市场波动和回撤。

简言之,就是将历史数据输入到 LLM 中,通过它来预测股价。具体的提示如下:

1
2
3
4
5
6
7
8
9
10
11
您是一名金融分析师,在股票市场预测方面具有专业知识。
您的任务是分析市场数据并预测下一个交易日的股票价格。
使用历史价格趋势、技术指标和情绪分析来提供明智的预测。
确保您的预测是合理的,考虑到多个财务因素。
.预测股价:下一交易的预测收盘价日。
.价格变动可能性:预测股价的可能性。
.理由:提供预测股价的解释和相应的可能性,考虑以下因素:
-历史市场数据(例如,最近的收盘价)。
-技术指标(例如 SMA、EMA、RSI、MACD、布林带)。
-情绪分析(例如,新闻情绪、市场情绪)。
请权衡这些信号并证明预测的股价是合理的。
  • LLM 模型:采用 Groq AI 的 Deepseek-R1-Distill-Llama-70B,不进行微调,用于情绪分析和财经新闻解读。
  • PPO 算法:基于 PyTorch 中 Stable-Baselines3 进行训练。
  • 计算指标:通过 pandas-ta 库计算各种指标。
  • 数据下载:每天从可靠来源如雅虎财经下载新闻文章,通过财经新闻提要和股票新闻 API(https://eodhd.com/financial-apis/stock-market-financial-news-api)获取数据。
  • 情绪指标:使用 Python 包 NLTK 生成财经新闻的情绪极性分数,范围为 -1 到 1。

2 强化学习 PPO 实现

2.1 状态表示

(详见 3.2 节)

\[ s_t = \{ \hat{y}_t, P_t, \sigma_t, \text{VaR}_t \} \] - ŷt: LLM 预测的价格 - Pt: 历史价格趋势 - σt: 市场波动率(volatility) - VaRt: Value at Risk(VaR,某一置信水平下最大可能亏损)

这相当于告诉 PPO 当前市场大致状态和 LLM 的原始判断。

2.2 动作空间

\[ y_t = \hat{y}_t + a_t \]

\[ |at|≤ϵ⋅yˆt \]

PPO 不直接做预测,而是微调 LLM 的预测值

  • at 是它做的“加法或减法”;
  • 有个限制 ε,不能改得太夸张(比如 LLM 说涨 2%,PPO 最多调个 ±0.4%)。

避免大起大落,保持调整“温和、合理”。

2.3 奖励函数设计

\[ R_t = -|\hat{y}_t - y^*_t| - \lambda \cdot \text{CVaR}_\alpha \] - |ŷt − y*t| 是预测误差,越小越好; - CVaRα 是“条件在最坏α% 情况时的平均亏损”,越小越稳; - λ 是调节权重,控制偏好“准确”还是“稳健”。

奖励 = “准确度” + “抗风险能力”的加权结果。

2.4 PPO 目标函数(损失)

\[ \mathcal{L}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) A_t, \; \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) A_t \right) \right] \]

r(θ) 是“新策略和旧策略的概率比”;如果新策略变化太大,就会被 clip(裁剪);

3 实验

3.1 数据与实验设计

  • 时间范围:2015–2024 年
  • 涵盖公司:Apple、汇丰银行、百事可乐、腾讯(0700.HK)、丰田(7203.T)
  • 特征包括:开盘/收盘价、成交量等;技术指标如 SMA、EMA、RSI、MACD、Bollinger Bands;基于新闻文本的情绪极性分数。

3.2 结果

LLM-PPO 是最佳选择,而 xgboost 也是不错的选择。

4 问题与局限

  • LLM 本身可能会生成带有“幻觉”性质的解释,需要经过人工审核。
  • 实验的范围较小(仅有 5 支股票的样本集),窗口为 5 日的短期预测,泛化能力有待验证。