读后感

一般跨领域论文,方法优点在于在 RL 应用于 ICU,缺点在于 RL 方法比较老,处理不了连续数据,所以试了很多离散方法,我觉得用深度学习可能就解决了,另外,奖励只使用了患者是否死亡,比较粗。

目标

其目的不是进行脓毒症诊断,而是利用分布式 RL 学习和评估治疗策略。

算法为每个状态 - 动作对的奖励分布建模,而不仅仅是期望值。

还设计了一种新的脓毒症模拟器 (见 2.4 节),该模拟器可以近似模拟患者在 ICU 接受治疗时的脓毒症过程。分成两部分数据,分别跑,然后对比其一致性。

数据

使用 MIMIC 数据,用 SEPSIS-3.0 标注 SEPSIS。使用 kNN 基于距离的方法进入数据插补(由于有些数据不测量可能是因为医学觉得不需要)。

方法

用聚类方式离散化数据,使用 Q-Learning 实现决策。

拆分训练和测试集,好像是用训练数据训练模型,然后用测试数据测试医生操作和模型决策。

定义行为:静脉输液量和血管升压药剂量表示。血管升压药包括血管加压素、多巴胺、肾上腺素、去甲肾上腺素和去氧肾上腺素,而静脉输液包括血液制品、晶体液、胶体液和团注液。

定义状态:对用53 个特征表示的病人数据时间序列使用 k - means 聚类定义状态空间。

具体算法:

1.我们将数据集分成两部分,并从第一个数据集中提取医生的政策。

2.我们通过动态规划和政策评估,利用经典方法确定每个状态在所提取政策下的取值。

3.我们确定第二个数据集的状态在上述策略 (使用第一个数据集进行计算) 下的取值。

4.我们确定来自第一个数据集的状态值中偏离第二个数据集的值小于 15 的相对频率,并使用数值作为近似质量的排序。

收获

  • 分布式强化学习:一种强化学习方法,它主要关注估计回报的分布,而不是仅仅估计回报的期望值。
  • 不规则采样的时间序列,如何处理。

(今天状态不好,就这样吧)