Articles
921
Tags
297
Categories
201
Yan 的杂物志_个人主页分享
Search
Category - LLM_RL
2024
2024-03-24
强化学习与大模型结合研究
2024-03-21
大模型+强化学习_利用AI反馈扩展强化学习_RLAIF
2024-03-19
大模型+强化学习_在线交互调参_GLAM
2024-03-19
大模型+强化学习_自我对弈偏好优化
2024-03-19
大模型+强化学习_精典方法_RLHF
2024-03-16
大模型+强化学习_通过强化学习对齐大模型和环境
2023
2023-12-08
论文阅读_反思模型_Reflexion
1
Yan.xie
顺流而下还是逆流而上?
Articles
921
Tags
297
Categories
201
Follow Me
Announcement
This is my Blog
Recent Post
DeepSeek V3.2技术解析
2026-01-23
基金投顾跟车服务指南
2026-01-23
DeepSeek条件记忆Engram
2026-01-23
论文阅读_使用LLM对大脑的影响
2026-01-23
3D 打印手办上色的材料与优化
2026-01-20
Categories
0_IMO
90
工作
1
方法
1
工作
1
说给一个人听
88
01_自我建构
36
实修
3
思考与觉悟
17
Tags
Arduino
日常技能
心情
论文阅读
生活技巧
讽刺
翻译
云服务器
编程语言/Java
机器学习/XGBoost
阅读/电影
风险管理
#后端
公众号
预算
佛教
稳定币
智能家居
编程
教育
Android
云计算
模型解释
开源社区
阅读/社会学
哲学
阅读
概率分布
自信
生活观察
现实认知
思考
情感分析
Transformer
#Python
Python/少儿编程
数据分析
运动
软件版权
人际关系
Archives
January 2026
14
December 2025
25
November 2025
12
October 2025
9
September 2025
5
August 2025
17
July 2025
38
June 2025
37
Info
Article :
921
Total Count :
1283.2k
UV :
PV :
Last Push :
Search
Loading the Database