论文阅读_用深度和宽度网络构建推荐系统
论文阅读 _
用深度和宽度网络构建推荐系统
#论文阅读 #推荐系统
论文地址:https://arxiv.org/pdf/1606.07792.pdf
相关代码:https://github.com/jrzaurin/pytorch-widedeep
《Wide & Deep Learning for Recommender Systems》是 2016 年 Google
发表的一篇使用深线层网络相结合构建推荐系统的论文。
个人认为结合浅度学习和深度学习,是为一种处理表格数据,以及综合数据的好方法。这篇论文涉及:两种网络各自的优势;稀疏特征的组合;以及融合两种网络的具体方法。
使用非线性特征组合(具体方法见后)构造的线性网络(浅层网络)常被用于解决输入是稀疏特征的分类和回归问题,它的优点是高效且具有可解释性,缺点是需要大量特征工程。相对来说深层网络不需要太多特征工程,使用
Embedding
方法可将稀疏特征降维成稠密特征,它能构造在训练集中没见过的特征组合,而其问题在于过于泛化,当数据过于稀疏和高秩(具体见下文)时,它会推荐出一些无关的选项。文中方法结合了浅层网络的记忆力和深 ...
论文阅读_深度森林
论文阅读:深度森林
论文主题:《Deep Forest》
论文地址:https://arxiv.org/pdf/1702.08835.pdf
相关代码:https://github.com/kingfengji/gcForest
相关代码:https://github.com/LAMDA-NJU/Deep-Forest
深度森林是南大周志华老师前两年提出的一种基于随机森林的深度学习模型。
当前的深度学习模型大多基于深度学习神经网络(DNN),其中每一层都是可微的,在训练过程中通过反向传播调参。而本篇介绍的深度森林算法基于不可微的子模型,该算法把多个随机森林串联起来组成了深度学习模型。
作者认为深度模型的优越性主要在于:深度网络多层建构;模型特征变换;模型足够复杂。文中提出基于树模型的
gcForest
也可满足以上三点。相对于深度学习神经网络,它还有如下优势:使用较少的超参数;模型的复杂度可根据数据情况自动调整;使用模型的默认参数往往也能达到不错的学习效果。
DNN 的缺点
DNN 超参数太多,调参难度大,需要大量技巧
DNN
一般在大数据集上训练效果好,在中小数据集上表现较差,标注 ...
使用有向无环图实现分词
使用有向无环图实现分词
#自然语言处理
结巴分词
如果搜索”Python
分词”,跳出来的前五个除了广告基本都包括“结巴分词”(Jieba)。可以说它是
Python
自然语言中使用最广泛的分词工具。它属于基于概率的模型,其原理主要是利用了显性的中文词库(包含常用词及词性和频率)。形如:
同时也支持隐马尔可夫模型从数据中训练出的发射概率,转移概率等不易理解的数据。
简单地说,分词就是识别句中的词组,然后把句子拆分成尽量大的块。但由于上下文语境不同,拆分时也常常出现规则冲突,比如“研究生命的起源”,既可拆成“研究生
命 的 起源”,也可拆成“研究 生命 的
起源”。因此,需要制定一些规则处理这些冲突。
和当前很多基于深度学习的自然语言模型相比,结巴轻量级,使用简单,原理不复杂,效果也不错的分词工具。利用结巴的原理,不仅能实现分词,还能实现切分短语,判断词性,计算短语在句中成份,提取特定成份等一系列的功能。与复杂模型相比,它更容易运用已知的规则,占用更少的资源,避免了大量的文本标注;与自己直接处理相比,它能处理更复杂的情况。尤其在某些语法相对单一的专门领域效果很好。
本文将分析结巴分词 ...
Git_下载太慢的改进方法
#版本管理
1. 配置 git 参数
1234567$ git config --global http.postBuffer 524288000 # 加大缓存$ git config --global core.compression -1 # 设置默认压缩方法$ export GIT_TRACE_PACKET=1 # 打开调示信息$ export GIT_TRACE=1$ export GIT_CURL_VERBOSE=1$ git config --global http.lowSpeedLimit 0 # 设置最低速度$ git config --global http.lowSpeedTime 999999 # 设置最低速度时间,单位秒
设置好之后重新下载
2. 只下载某一分支
1$ git clone --depth 1 --branch 分支名 https://github.com/xxx.git
3. 参考
详细介绍 git clone --depth=1 的用法
https://blog.csdn.net/qq_43827595/article/details/ ...
论文阅读_GBDT能否被深度学习取代TabNet
论文阅读:GBDT
能否被深度学习取代 TabNet
论文名称:《TabNet: Attentive Interpretable Tabular Learning》
论文地址:https://arxiv.org/abs/1908.07442
相关代码:https://github.com/dreamquark-ai/tabnet
)Pytorch 版本(目前 star:778)
《TabNet: Attentive Interpretable Tabular Learning》是 google 2019
年底的一篇论文,目前已更新到 v5
版本。其目标是使用深度学习注意力网络,构建具有可解释性的用于表格数据的模型;并且可以利用大量无标注数据,使用自监督学习的方法提高模型效果。
简介
深度学习网络在图像、文本、声音等领域都具有经典框架并取得很好的效果,但对于最常用的数据表(由类别和数值型数据组成)至今没有通用的深度学习经典框架。在数据表领域更常见的方法是使用集成决策树,这主要是由于:它能在超平面上计算出数据切分边界,具有可解释性,且训练速度快;另一方面也源于之前的深度学习模型设计出的结构 ...
特征筛选工具
特征筛选工具
做模型时常常是特征越多模型准确率越高(至少在训练集上)。但过多的特征又增加了数据收集、处理、存储的工作量,以及模型的复杂度。
在保证模型质量的前提下,我们希望尽量少地使用特征,这样也间接地加强了模型的可解释性。一般来说,为避免过拟合,特征尽量控制在实例个数的
1/20 以下,比如有 3000 个实例,则特征最好控制在 150 以下。
除了特征的具体个数,特征工程中也经常遇到某些特征严重缺失,特征相关性强,一些特征不但无法给模型带来贡献,反而带来噪声等问题。
本篇介绍特征筛选工具 feature-selector,在 github 上有 1.8K
星,它使用少量的代码解决了特征筛选中的常见问题,用法简单,便于扩展;同时也提供了作图方法,以更好地呈现特征效果。
下载地址
https://github.com/WillKoehrsen/feature-selector
核心代码
其核心代码文件只有 feature_selector/feature_selector.py(600
多行代码),所有方法都定义在 FeatureSelector
类中,因此,不用安装,只需要将该文件复 ...
论文阅读_分类模型的可解释性
#论文阅读 #模型解释
论文题目:《Why Should I Trust You? Explaining the Predictions of Any
Classifier》
论文地址:https://chu-data-lab.github.io/CS8803Fall2018/CS8803-Fall2018-DML-Papers/lime.pdf
模型可解释性论文列表:https://github.com/oneTaken/awesome_deep_learning_interpretability
《Why Should I Trust You? Explaining the Predictions of Any
Classifier》是 2016 年发表在 KDD 上的论文,至今被引用 2984
次。文中介绍了可以应用于任何分类模型的模型解释方法。
很多复杂的机器学习模型和深度学习模型,都被外界视为黑盒,如何对用户解释它的结果、评价其效果,让用户放心地使用,尤其是在医疗这种性命攸关的领域,对于模型推广至关重要。文中提出了用于解释分类模型的
LIME 方法。
在机器学习领域,一般在训 ...
论文阅读_自然语言模型GPT-3
自然语言模型 GPT-3
论文:https://arxiv.org/abs/2005.14165
代码:https://github.com/openai/gpt-3
OpenAI 于 2020 年 6 月发表了 GPT-3 论文《Language Models are Few-Shot
Learners》,模型包括 1750 亿参数,比之前最大模型又大了 10 倍,使用 45T
数据训练,31 位作者,论文长达 75 页,尝试了不同量级的 GPT-3 模型,在 20
多个 NLP 数据集上做了评价。其核心是不使用 Fine-tune 的 GPT-3
模型。
目前前沿的自然语言模型一般是先用大规模无监督数据预测训练(pretrain)模型之后,然后使用带标注的领域数据微调模型
(fine-tune),费时费力,且有些领域难以实现标注;模型也可能被领域数据的分布带偏,从而损失了泛化能力;另外,微调后的模型只能解决特定问题,不像人类,可以在众多类似的问题之间切换,并使用综合技能解决复杂的问题。
Pretrain&fine-tune
方法一般用于有大量标注的数据(带标注数据一般含几千 ...
读懂英文文章所需的单词量
简介
备考托福,GRE
需要背上万单词,除去考试通关的因素,就想看看是不是真有必要花时间去背那么多单词。
实验使用从初中到 GRE 不同等级考试要求的单词表,代入 Brown
文本数据集,评估背会各等级单词后,能看懂多大比例的文本。比如:高中毕业要求
4000
左右单词量,背会后对于取自不同领域的各种文本,能看懂句中单词的比例是多少。
从实验结果可以看到,即使背会了 GRE 要求的 15000+
以上,还会有很多词不认识,如一些专业领域的词汇。当然,如果就认识 200
个词,那也确实太少了。因此,本文将讨论对于不同学习阶段,背多少词,背哪些词性价比最高。
数据和方法
资源数据集
使用初中,高中,大学四六级,专八,雅思,托福,GRE
的单词表。另外,加入了初一上半学期(这个学期基本都在复习小学内容,可近似地视为小学毕业水平),以及
Brown 数据集中的高频单词。
评价数据集
使用自然语言处理 NLTK 自带的 Brown 语料库,它创建于 1961
年,包含来自五百多个不同来源的文本,包含新闻,社论等类型。是一个覆盖类型相对全面的语料库,其中包含
5 万多句子,116 万多单词。
方法 ...
论文阅读_BiLSTM-CRF实现序列标注
论文阅读:BiLSTM-CRF
实现序列标注
论文名称:《Bidirectional LSTM-CRF Models for Sequence Tagging》
论文地址:https://arxiv.org/pdf/1508.01991v1.pdf
相关代码:https://github.com/BrikerMan/Kashgari(Keras)
《Bidirectional LSTM-CRF Models for Sequence Tagging》是 Baidu
Research 在 2015 年发表的一篇论文,它使用双向长短期记忆网络 LSTM
加条件随机场 CRF
的方式解决文本标注的问题。该方法至今仍是命名实体识别的主流方法之一。
之前一直不理解的是 RNN、LSTM、CRF、HMM
都可以单独实现文本标注,为什么要将 LSTM 和 CRF
结合起来?本文就来看看它是如何实现的。文后结合命名实体识别
NER,展示了它的具体使用方法。
文本标注用途非常广泛,不仅标注切分,还可以通过标注拆分出关键信息,供下游应用使用。在该文发表之前,实现文本标注常用的方法有线性统计模型,比如隐马尔 ...