论文阅读_神经网络知识蒸馏_DK
英文题目:Distilling the Knowledge in a Neural Network
中文题目:神经网络知识蒸馏
论文地址:https://arxiv.org/pdf/1503.02531.pdf
领域:深度学习
发表时间:2015
作者:Geoffrey Hinton,谷歌
出处:NIPS
被引量:6972
阅读时间:2022.09.21
读后感
这是最早提出蒸馏模型的文章,它训练老师 Teacher/学生 Student
两个模型,首先训练大而全的 Teacher,然后用 Teacher 蒸馏出小而精的
Student,S 不仅学习 T
的对错判断,还学到更多细节,比如为什么错(错的离不离谱)。
介绍
作者提出训练和部署的模型未必是同一模型。大而复杂的模型效果
(后简称 Teacher/T)
好,但相对复杂,预测时间长,占空间更大。作者提出如何把集成模型或大模型用一个小模型
(后简称 Student/S)
实现。训练阶段产出大而全的模型,然后用蒸馏技术提炼小模型,以便部署。
和压缩参数相比,在输入输出之间建立新的映射可能是更好的模型瘦身方法。一般建模方法是:模型主要学 ...
论文阅读_自然语言模型加知识图谱_DKPLM
英文题目:DKPLM: Decomposable Knowledge-enhanced Pre-trained Language
Model for Natural Language Understanding
中文题目:DKPLM: 可分解的利用知识增强的预训练语言模型
论文地址:https://arxiv.org/abs/2112.01047
领域:自然语言处理, 知识图谱
发表时间:2021.12
作者:Taolin Zhang 等,华东师范大学,阿里团队
出处:AAAI-2022
代码和数据:https://github.com/alibaba/EasyNLP(集成于 EasyNLP)
阅读时间:2022.09.11
读后感
自然语言和知识图结合的一种新尝试,几种优化方法比较有意思。尤其是他对长尾信息的分析,很有启发性:即使在无监督学习的情况下,也要尽量使用重要的数据训练模型。另外,还给出了具体方法,比如实体出现频率高于均值,则忽略它…
介绍
加入知识增强的自然语言模型简称 KEPLM,它将知识图中的三元组注入 NLP
模型,以提升模型对语言的理解能力。在模型使用时需要知识搜索 ...
设置Ubuntu软件源
1 设置 Ubuntu 软件源
1 查看当前系统版本
1$ lsb_release -a
2 查看是否存在该版本的源
http://mirrors.163.com/ubuntu/dists/
http://mirrors.aliyun.com/ubuntu/dists/
3 sources.list 模板
(将 TODO 改为版本代号)
12345678910deb http://mirrors.163.com/ubuntu/ TODO main restricted universe multiversedeb http://mirrors.163.com/ubuntu/ TODO-security main restricted universe multiversedeb http://mirrors.163.com/ubuntu/ TODO-updates main restricted universe multiversedeb http://mirrors.163.com/ubuntu/ TODO-proposed main restricted universe mul ...
设置wifi连接优先级
查看当前可用 wifi
1$ nmcli dev wifi list
连接 wifi
1$ sudo nmcli dev wifi connect xxx password xxx
管理网络
1$ nmcli con show
关闭某连接
1$ nmcli con down xxx
启动某连接
1$ nmcli con up xxx
设置连接优先级
1$ nmcli connection modify xxx connection.autoconnect-priority 20
优先级默认为 0,正数优先级高,负数低
查看优先级
1$ nmcli connection show xxx|grep priority
设置电脑休眠
不允许休眠
1$ systemctl mask sleep.target suspend.target hibernate.target hybrid-sleep.target
查看状态
1$ systemctl status sleep.target suspend.target hibernate.target hybrid-sleep.target
允许休眠
1$ systemctl unmask sleep.target suspend.target hibernate.target hybrid-sleep.target
参考:
https://zhuanlan.zhihu.com/p/468870436
https://blog.csdn.net/weixin_44120025/article/details/123184263
SHAP解释模型二
SHAP 解释模型(二)
本文在 SHAP解析模型
之后,又尝试了一些 SHAP 新版本的进阶用法,整理并与大家分享.
1 环境配置
以下实验使用当前最新版本 shap:0.41.0,同时安装 xgboost
作为预测模型,并使用较高版本的 matplotlib(低版本有时画图报错).
123$ pip install shap==0.41.0$ pip install xgboost==0.82$ pip install matplotlib==3.5.2
2 实验数据
仍延用波士顿房价数据集,由于有些方法需要 explainer 对象,因此构造了
shap_value_obj
12345678import shapimport xgboostX,y = shap.datasets.boston()model = xgboost.train({"learning_rate": 0.01}, xgboost.DMatrix(X, label=y), 100)explainer = shap.TreeExplainer(model) shap_va ...
论文阅读_广义加性模型
英文题目:Intelligible Models for Classification and Regression
中文题目:可理解的分类和回归模型
论文地址:https://www.doc88.com/p-41099846725043.html
领域:模型可解释性,广义加性模型,机器学习
发表时间:2012
作者:Yin Lou,Rich Caruana(模型可解释性大佬),康耐尔大学,微软
出处:KDD
被引量:256
代码和数据:https://github.com/interpretml/interpret
阅读时间:220819
读后感
加性模型的准确性优于线性模型,差于梯度决策树和深度学习模型.它在模型精度和可解释性间取平衡.其核心原理是针对单个特征建立模型(可以是非线性模型),然后把这些复杂模型加在一起形成最终模型.本文描述了具体实现方法.
介绍
复杂模型虽然预测精度高,但可解释性较差,因为很难判断单个特征在复杂模型中的贡献度.本文目标是建立尽量准确且可解释的模型,让用户可以理解每个特征的贡献度.使用广义加性模型(GAMs)方法,其核心算法如下:
Pasted im ...
论文阅读_对比学习_SimCLR
英文题目:A Simple Framework for Contrastive Learning of Visual
Representations
中文题目:视觉表征对比学习的简单框架
论文地址:https://arxiv.org/abs/2002.05709v2
领域:深度学习,知识表示,半监督学习,对比学习
发表时间:2020
作者:Ting Chen,Hinton 团队,Google Research
出处:ICML
被引量:1734
代码和数据:https://github.com/leftthomas/SimCLR
阅读时间:22.08.14
读后感
众所周知,有监督学习相比于无监督学习和半监督学习速度更快,效果更好,但也存在一些问题,比如难以泛化解决其它问题,需要高成本的标注等等.
对比学习是一种半监督学习(自监督学习),它可以生成一种表示,用一组数表征一个时间序列,一句话,一张图...
然后再代入下游任务.具体方法是用实例间的相似和差异学习怎么描述这个实例,从而捕捉内在的不变性;从高维到低维,构建更抽象地表示.
个人感觉有监督和半监督学习各有优势,实际建模时有效结合二者 ...
啥是图神经网络
昨天有个朋友问我:"你了解图神经网络么?",想了半天,不知从何说起.这半年,读了一些相关论文,TransR,TransE,GNN,GCN,GIN,还有一些综述性的.好像大概能说明白,它是怎么做的,但又不能完全说明白它是干啥的,进而扩展到自然语言模型,知识图谱,你说它们是干啥的?在网上一搜,出来的往往是具体实现方法(how),而具体干啥讲得很抽象(what).
试试说说我的理解,也不一定对:从根本上看,它们都是知识表示,文本向量化.通俗地讲就是把文本编码成一串数,文本可能是一个字("生"),一个词("苹果"),一个短语("你说呢")或者一个句子("我是一个句子")...
让文字可以量化,比较,计算.
比如:提到自然语言模型,可能首先想到的是 BERT,GTP,它可以用来做阅读理解,完型填空,判断对错,续写文章等等.模型将一段文字转换成一串数,再传入下游任务(比如:阅读理解),参与决策具体问题.而
BERT
类模型解决的问题是某个字(比如"生")在不同上下文环境下到底是什么意思?然后把它在这里的意思转换成一串数.
再如:知识图谱,一度困惑它是干啥的?把文献或者网站上的大段文字通过命名识体识 ...
论文阅读_胶囊网络_CapsNet
介绍
英文题目:Dynamic Routing Between Capsules
中文题目:胶囊之间的动态路由
论文地址:https://papers.nips.cc/paper/2017/file/2cad8fa47bbef282badbb8de5374b894-Paper.pdf
领域:深度学习
发表时间:2017
作者:Sara Sabour,Nicholas Frosst,Geoffrey E. Hinton
出处:NIPS(机器学习和计算神经科学的国际会议)
被引量:3466
代码和数据:https://github.com/naturomics/CapsNet-Tensorflow
阅读时间:22-03-29
其它介绍
大牛 Geoffrey E. Hinton 提出的 “胶囊网络” 到底是啥?
精读
1 摘要
胶囊是一组神经元,其激活向量能表示特定类型的特征,比如一个对象或对象部分。文中用激活向量的长度表示存在的概率,用方向表示参数。一层激活胶囊通过变换矩阵为高层胶囊提供实例化参数。当多个低层胶囊预测一致时,高层胶囊被激活。实验部分使用
MNIST
数据集,证明在识别高度 ...