概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA)

主题模型是一种统计模型用于发现文档集合中出现的抽象“主题”。

LDA也称三层贝叶斯概率模型,包含词、主题和文档三层结构;利用文档中单词的共现关系来对单词按主题聚类,得到“文档-主题”和“主题-单词”2个概率分布。

根据给定的一篇文档,反推其主题分布

一个函数:gamma函数

四个分布:二项分布、多项分布、Beta分布、Dirichlet分布

一个概念:共轭先验、贝叶斯框架

两个模型:LSA、LDA

一个采样:Gibbs采样

生成一篇文档:

  1. 从狄利克雷分布$\alpha$ 中采样,生成文档 i 的主题分布 $\theta_i$
  2. 从主题的多项式分布 $\theta_i$中采样,生成文档 i 的第 j 个词的主题 $z_{ij}$
  3. 从狄利克雷分布$\beta$ 中采样,生成主题 $z_{ij}$ 对应的词语分布 $\phi_{z_{ij}}$
  4. 从词语的多项式分布 $\phi_{z_{ij}}$中采样,生成词语 $w_{ij}$

20141117152903751.jpg

二项分布:n次伯努利试验 $X\sim b(n,p), P(K=k)=C_n^k p^k (1-p)^{n-k}$

多项分布: