LDA是两个常用模型的简称:Linear Discriminant Analysis 和 Latent Dirichlet Allocation。本文的LDA仅指代Latent Dirichlet Allocation。LDA 在主题模型中占有非常重要的地位,一般地会通过LDA抽取文档的主题分布,然后基于主题分布对文档集进行主题聚类或文本分类。
个人理解:LDA提出两个概念,文档-主题的Dirichlet分布,主题-词的Dirichlet分布。LDA的目标是为了训练这两个分布相关的参数。训练过程如下: