这篇文章是观看李宏毅老师Youtube上的GAN教学视频的笔记,主要涉及到对GAN的理解。
LSTM+CRF for NER
word2vec学习笔记
本文对word2vec中常见的CBOW(continuous bag-of-word)、 SG(Skip-Gram)模型进行总结,包括优化技术Hierachical Softmax和Negative Sampling。 word2vec模型学习到的词向量表示携带着丰富的语义信息,能够应用到NLP、推荐系统等多种应用的建模中。本文会系统的总结一下word2vec的方法,主要参考《word2vec Parameter Learning Explained》。
Variational Inference:A Review for Statisticians读书笔记
现代统计学核心问题之一是近似复杂的概率密度。这个问题在贝叶斯统计中尤其重要。贝叶斯统计框架下,所有的推断问题都是要求未知变量的后验概率。而后验概率通常是很难计算的,因此需要相应的算法来近似它。本文主要是阅读David M.Blei 2018发表的论文《Variational Inference: A Review for Statisticians》后的笔记。主要总结其中3种变分推断情况以及对应的优化方法。
变分推断应用示例
变分推断示例
本报告是论文《Scalable Recommendation with Poisson Factorization》变分推断的推导过程。
回顾
一般变分推断前,需要先看看通过后验估计能不能优化参数。正常步骤是先计算所有隐变量的后验概率,然后对后验概率取对数,看看对数形式的目标函数能不能通过简单的梯度下降等方式进行优化。但是,大部分情况下,后验概率形式很复杂,很难计算。其中一个原因是,后验概率的分母是关于样本的边缘概率密度,需要对隐变量积分,通常该积分很难计算,无法得到闭合解。因此需要使用近似推断。变分推断的目的是使用简单的分布来拟合复杂的分布(即隐变量的后验概率分布)。通过优化KL散度(等价于最大化ELBO)来求解该简单分布。
CTR协同主题回归
本文是对论文《Collaborative Topic Modeling for Recommending Scientific Articles》的读书报告。这是一篇发表在KDD2011上的论文,目前引用量874次,是推荐系统领域较权威的一篇文章。
LDA主题模型
LDA主题模型
LDA(Latent Dirichlet Allocation)是基于贝叶斯模型的,涉及到贝叶斯模型离不开“先验分布”,“数据(似然)”和”后验分布”。在贝叶斯学派这里:$P(\theta|X) \propto P(X|\theta)P(\theta)$, 两边取对数,$ln P(\theta|X)=lnP(X|\theta)+lnP(\theta)$, 可以简单理解为:先验分布 + 数据(似然)= 后验分布 。先验分布是我们在观察数据之前对模型的先验知识,通过观察数据之后,我们会对先验模型进行调整优化,使得更加符合真实模型,调整后就得到后验分布。
数据似然是指数据服从的分布,通常是以条件概率密度函数的形式给出。对于先验分布,我们要引出共轭先验的概念。我们考虑增量更新模型的参数。我们的目的是,在不断更新模型的过程中,模型的先验分布形式不会改变。也就是说观察到某个数据,按照贝叶斯公式计算了后验分布,并使得后验分布最大化;在下一次新的数据到来时,前面得到的后验分布能够作为此次更新的先验分布,也就是说先验分布和后验分布的形式应该是一样的,这样的先验分布就叫做共轭先验分布。
基于张量分解的POI协同过滤推荐算法
本文是对论文《Collaborative Location Recommendation by Integrating Multi-dimensional Contextual Information》的读书报告。这是一篇使用张量分解来推荐POI的论文笔记。
Deep Q-Networks
《Playing Atari with Deep Reinforcement Learning》论文阅读笔记。
AlphaZero问题研究和算法设计与实现
本文对$AlphaZero$论文中的几个问题进行研究,对$AlphaZero$算法进行设计,并使用$Pytorch$实现$AlphaZero$五子棋应用。