avatar
Articles
806
Tags
240
Categories
164

Yan 的杂物志_个人主页分享
Search
7_1_强化学习_ChatGPT为什么使用强化学习
Created2023-03-10|2_Note0_Technic2_算法15_强化学习
最近出现很多 ChatGPT 相关论文,但基本都是讨论其使用场景和伦理问题,至于其原理,ChatGPT 在其 主页上 介绍,它使用来自人类反馈的强化学习训练模型,方法与 InstructGPT 相同,只在数据收集上有细微的差别。 那么,InstructGPT 和 ChatGPT 为什么使用强化学习呢?先看个示例: 聊天示例|500 先不论答案是否正确,回答依赖之前的对话,且不仅是前一句。 强化学习用于解决具有马尔可夫性的问题,马尔可夫性是指每个状态仅依赖前一个状态,而这种链式的关系,又使历史信息被传递到了未来。 强化学习使用的场景是 马尔可夫决策过程,包含以下核心点: 随机过程:人机聊天你一句我一句 马尔可夫性:回答依赖问题 奖利:问题可能有多种答案,答案没有绝对的对错,但提问者会对某个答案更满意 行为:每一次决定如何回答都对后续对话走向产生影响 可以看到聊天的场景是一个马尔可夫决策过程。 进而产生了另一个问题:模型需要大量数据训练,如果用户问个问题,出三个答案,让用户选一个,收集以用于训练模型。这肯定是不够友好,软件在初期效果不佳时也不会有人去用。且有些用户的回答还可能误 ...
论文阅读_近端策略优化_PPO
Created2023-03-04|2_Note0_Technic2_算法15_强化学习
12345name_ch: 近端策略优化算法name_en: Proximal Policy Optimization Algorithmspaper_addr: http://arxiv.org/abs/1707.06347date_publish: 2017-08-28 读后感 PPO 近端策略优化是一种强化学习算法,具体是对深度学习策略梯度方法的优化。 策略是强化学习中用于决定在每个时刻采取哪个动作的函数。近端约束用于限制策略的变化,以避免过于激进地改变策略。 文中介绍了两种方法:截断和 KL 散度,近端约束通常使用梯度截断来实现,即将梯度限制在一个特定范围内,让学习的步调不要太大。 介绍 一种改进版的强化学习策略梯度算法。它从与环境交互的数据中采样。不同于标准的策略梯度方法对每次采样执行一次梯度更新,文中提出了一个新的目标函数,可以实现多个 epoch 的 minibatch 数据更新,另外,它是 TRPO 的改进算法,相对 TRPO 更为简单,InstructGPT 的强化学习用的就是 PPO(ChatGPT 可能也是)。 方法 优化算法 文章介绍了三种方法,其差别主要在损失 ...
论文阅读_善用Midjourney
Created2023-02-28|2_Note0_Technic2_算法8_图形图像AI绘画
中文名称: 用 Midjourney 生成格林童话插图 英文名称: Grimm in Wonderland:Prompt Engineering with Midjourney to Illustrate Fairytales 论文地址: http://arxiv.org/abs/2302.08961 时间:2023-02-17 读后感 针对生成图的提示工程,利用工具 Midjourney v4,进行了一系列实验。得出一个生成提示的 4 阶段过程:初始提示,成分调整,风格细化,加入变化。另外还讨论了生成图像效果不佳的三个原因:计数困难,难以生成假定的场景,无法描述过于奇异的情况。作者认为这不仅用于生成图片,且对未来的生成模型具有普适性。 介绍 之前的提示工程研究包含:主语,动词,环境,风格;之后又有人提出:主题词,风格修饰语,图像提示,质量助推器,重复,和魔术术语的方法。 Midjourney 是实践中最受欢迎的工具之一,尽管它是商业的,对建筑也知之甚少。目前的 Midjourney V4 更为复杂,它支持更多知识,能生成更多细节,可接受更复杂的提示,能处理多实体的场景。 方法 当前的 ...
7_Obsidian_用腾讯云同步笔记
Created2023-02-19|2_Note0_Technic0_工具笔记工具Obsidian同步
1 介绍 之前用 gitee 同步 OB 笔记,同时做图床。但由于 git 系产品设置起来相对复杂,且后续可能有外链过审等问题。周五被同事小姐姐安利了用腾讯云 COS,试了一下,果然不错。其主要优点如下: 设置简单,学习成本低,手机端也可方便设置 价格也可接受,如果仅存笔记,一年也就十几 - 几十块钱吧(当然也看存储访问量) 想存啥存啥,不用担心哪天被人家关了 2 开通腾讯云存储 先用价格计算器看一下价钱 腾讯云存储 注册并开通 COS 服务 登录 创建笔记存储桶 起名(后面不能改),设成私有读写,其它使用默认设置 创建图床存储桶 起名(后面不能改),设成公有读私有写,其它使用默认设置 创建密钥 网页入口 3 设置同步 OB 笔记 安装插件 Remotely Save 此后,左侧出现一个小圆圈的图标,需要同步时按这个图标即可。 填写以下五项设置,其它可使用默认 (20230218 当前版本插件,填写设置中的五个输入框) 其中第一二五项内容填写获取方式:COS 网页 ->存储桶列表 ->点新建桶右侧的配置管理,根据其访问域名填写;第三四项内容根据上面创建的密钥填写 ...
Bland-Altman图
Created2023-02-18|2_Note0_Technic2_算法3_数据分布
介绍 Bland-Altman 图是一种一致性评价测量方法,简称 BA,常用于医学实验和数据分析。 可使用它检测两组数据的一致性,比如对比新旧两种方法,对比一组实际值和预测值等。相对于校准曲线,它能更好地对比两组数据中每个数据对的一致性。 如何看图 图中每个点代表一个实例,其横轴是预测值和实际值的均值,纵轴是其预测值与实际的差值。两条红线分别表示 mean±1.96std 的范围。若大部分样本点落在此范围内,则说明两种方法的测量一致性较好。如上图中最右侧的点,假设它的预测值是 1,实际值是 0.93,则其均值是 0.965(即横坐标),其差值是 0.07(即纵坐标)。 通过看图可以得到一些结论,如: 可以从图中点看出数据的分布; 如果图中点均分布在 0 附近,则说明一致性高; 如果左边密集,右边分散,则说明值越小误差越小; 从 Y 轴可以看出,数据是往上偏还是往下偏。 实现 Python 的 pingouin 和 pyCompare 包都提供 BA 作图工具,也可以使用 matplotlib 直接画图,详见: Bland-Altman Plots(一致性评价)在python中的实 ...
论文阅读_AlphaGo_Zero
Created2023-02-17|2_Note0_Technic2_算法15_强化学习
journal: Nature name_ch: 在没有人类知识的情况下掌握围棋游戏 name_en: Mastering the game of Go without human knowledge paper_addr: http://www.nature.com/articles/nature24270 date_publish: 2017-10-01 读后感 AlphaGo Zero 是 AlphaGo 的改进版本,之前版本都使用有监督学习和强化学习相结合的方式。如题——它与之前版本不同的是不需要通过学习人类棋手的下法,其 Zero 意思是无师自通。其核心算法是将价值网络和策略网络二合一,并在卷积网络中加入残差。 介绍 文章分两部分,第一部分介绍其整体,第二部分展示了算法细节和一些背景知识(在参考资料之后)。 AlphaGo 是深度强化学习的精典应用范例,围棋领域之所以复杂是因为:在广阔的搜索空间中,需要有精确而精细的前瞻性。 AlphaGo 的第一个版本,简称 AlphaGo Fun,指 2015 年战胜樊麾的版本;它使用两个神经网络:价值网络和策略网络。其中的策略网络一开始 ...
列线图工具_Nomogram
Created2023-02-11|2_Note0_Technic2_算法3_数据数据分析
定义 列线图是一种相对传统的分析方法,用于展示自变量和因变量的线性关系,及其特征的重要程度。 现在用 SHAP,和机器学习库中的 Feature importance 工具可以实现类似甚至更好效果。不过很多传统的研究领域比较认这种方法。 列线图工具建立在多因素回归分析的基础上,将多个预测指标进行整合,然后采用带有刻度的线段,按照一定的比例绘制在同一平面上,从而用以表达预测模型中各个变量之间的相互关系。 原理 先使用多因素回归(逻辑回归,Cox 回归)得出的结果,然后根据回归系数算出 Nomogram 及画图。 处理流程 主要操作流程如下: 数据处理: 去掉共线性特征(VIF 判断多重共线性) 去掉单因素分析中不显著的特征 去掉加了和不加对模型没什么影响的特征(LASSO 回归) 做多因素回归 用回归结果做 Nomogram,将结果图形化 怎么看图 Points:第一行是标尺 前几行是特征重要性 Total Points: 所有指标加在一起的得分 Risk:对应风险值 工具 R 语言实现方法,详见:Nomogram图不会画?看了这篇,小白也能轻松看懂搞定 Python 没有 N ...
数据分析工具_SuperSet
Created2023-02-11|2_Note0_Technic2_算法3_数据数据分析
介绍 SuperSet 是一款开源可视化 BI(商业智能)Web 应用程序。它通过创建和分享 dashboard,为数据分析提供了轻量级的数据查询和可视化方案。其优点如下: 不需要自己去搭服务,写前端页面,直接生成分析图 可接入多种数据源 安装方便,学习成本较低 安装 使用 docker 安装启动方法如下: 12345678910111213docker search supersetdocker pull amancevice/superset # 星最多,最新版的mkdir -p /opt/module/docker/superset/conf mkdir -p /opt/module/docker/superset/data# 启动docker run --name superset -u 0 -d -p 8088:8088 -v /opt/module/docker/superset/conf:/etc/superset -v /opt/module/docker/superset/data:/var/lib/superset amancevice/superset# 进入 ...
论文阅读_图形图像_U-NET
Created2023-02-08|2_Note0_Technic2_算法8_图形图像AI绘画
英文名称: U-Net:Convolutional Networks for Biomedical Image Segmentation 中文名称: U-Net:用于生物医学图像分割的卷积网络 论文地址: http://link.springer.com/10.1007/978-3-319-24574-4_28 出处:journal: Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015 时间: 2015 1 读后感 本文主要针对的问题是优化生物医学图像领域的图像识别,之前图像模型往往需要数千张标注图片训练。而医学影像数据往往存在图片大,图片中内容多(比如一张图中可能有很多的不正常细胞),难以做几千张图片的标注,除了正常异常,还常常需要标出具体位置。之前的方法是用滑动窗口将图像切成小块训练,这种方法比较慢图像重叠造成冗余,还要根据具体情况考虑切分方法,才能在上下文和效率之取得平衡。 文中提出的解决方法是:设计了U 型网络结构和训练策略,相对于普通的卷积网络,增加了右侧的上采样卷积,从而恢复图像。 最 ...
蓝思指数
Created2023-01-08|2_Note0_Technic0_工具其它
1 蓝思指数 蓝思阅读指数,所谓的 Lexile(蓝思指数),是美国科学基金会 (National Science Foundation,United States 简称 NSF) 为提高学生的阅读能力,而研究出的一种衡量学生阅读水平和标识书籍难易程度的一套标准。 2 地址 http://lexile.com 3 分级表 Pasted image 20221207185918.png 4 查书的难度 https://hub.lexile.com/find-a-book/book-results 5 计算段落的难度 Analyzer 工具,可以免费测试 250 个单词以内的段落的蓝思值。 https://hub.lexile.com/analyzer 6 问题 英语是拼读语言,大部分单词符合拼读规则。蓝思指数源自美国,对于英语是母语的人,看到拼写基本会读,会读就知道大概意思。而很多单词我们能大概拼出来也不知道是什么意思。 找了几篇难度在 700 左右的文章,看了看觉得难度差异非常大,感觉用这个直接给娃找书……仅供参考吧。
1…343536…81
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
806
Tags
240
Categories
164
Follow Me
Announcement
This is my Blog
Recent Post
250523_对谈_用叙事打磨世界观2025-05-23
250512_对谈_股票操作中的概率与心理2025-05-21
250520_对谈_最近发展区理论与实践2025-05-21
论文阅读_现实的叙事构建2025-05-21
2505xx_对谈_家长的角色22025-05-20
Categories
  • 0_IMO54
    • 工作1
    • 说给一个人听53
      • 01_自我建构21
        • 思考与觉悟11
        • 行动与进化10
      • 02_情绪心理12
      • 03_关系互动9
Tags
用户验证 菜谱 异常检测 公众号 自我调节 心情 云计算 卷积神经网络 笔记工具 工作思考 社会学 社会关系 自动驾驶 医学 网络 心理 插件开发 运动 随笔 阅读/电影 CentOS 数据存储 自然语言处理/大模型 法律 GitHub Actions 视频处理 Docker 程序员 决策哲学 编程工具 自然语言处理/工具 数据存储/Hadoop 神经网络 Pytorch 目标管理 深度学习 android 编程语言/前端 音视频处理 深度学习/模型结构
Archives
  • May 202565
  • April 202516
  • March 202512
  • February 20252
  • January 20256
  • December 20242
  • November 20246
  • October 20244
Info
Article :
806
Total Count :
1095.3k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database