医学论文_ICU_强化学习_SEPSIS

读后感

一般跨领域论文，方法优点在于在 RL 应用于 ICU，缺点在于 RL 方法比较老，处理不了连续数据，所以试了很多离散方法，我觉得用深度学习可能就解决了，另外，奖励只使用了患者是否死亡，比较粗。

其目的不是进行脓毒症诊断，而是利用分布式 RL 学习和评估治疗策略。

算法为每个状态 - 动作对的奖励分布建模，而不仅仅是期望值。

还设计了一种新的脓毒症模拟器 (见 2.4 节)，该模拟器可以近似模拟患者在 ICU 接受治疗时的脓毒症过程。分成两部分数据，分别跑，然后对比其一致性。

使用 MIMIC 数据，用 SEPSIS-3.0 标注 SEPSIS。使用 kNN 基于距离的方法进入数据插补（由于有些数据不测量可能是因为医学觉得不需要）。

用聚类方式离散化数据，使用 Q-Learning 实现决策。

拆分训练和测试集，好像是用训练数据训练模型，然后用测试数据测试医生操作和模型决策。

定义行为：静脉输液量和血管升压药剂量表示。血管升压药包括血管加压素、多巴胺、肾上腺素、去甲肾上腺素和去氧肾上腺素，而静脉输液包括血液制品、晶体液、胶体液和团注液。

定义状态：对用53 个特征表示的病人数据时间序列使用 k - means 聚类定义状态空间。

具体算法:

1.我们将数据集分成两部分，并从第一个数据集中提取医生的政策。

2.我们通过动态规划和政策评估，利用经典方法确定每个状态在所提取政策下的取值。

3.我们确定第二个数据集的状态在上述策略 (使用第一个数据集进行计算) 下的取值。

4.我们确定来自第一个数据集的状态值中偏离第二个数据集的值小于 15 的相对频率，并使用数值作为近似质量的排序。

（今天状态不好，就这样吧）