概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA)
主题模型是一种统计模型用于发现文档集合中出现的抽象“主题”。
LDA也称三层贝叶斯概率模型,包含词、主题和文档三层结构;利用文档中单词的共现关系来对单词按主题聚类,得到“文档-主题”和“主题-单词”2个概率分布。
根据给定的一篇文档,反推其主题分布。
一个函数:gamma函数
四个分布:二项分布、多项分布、Beta分布、Dirichlet分布
一个概念:共轭先验、贝叶斯框架
两个模型:LSA、LDA
一个采样:Gibbs采样
生成一篇文档:
二项分布:n次伯努利试验 $X\sim b(n,p), P(K=k)=C_n^k p^k (1-p)^{n-k}$
多项分布: