To Top
首页 > 自然语言处理 > 正文

主题模型LDA

标签:自然语言基础知识


1. LDA是什么

LDA是两个常用模型的简称:Linear Discriminant Analysis 和 Latent Dirichlet Allocation。本文的LDA仅指代Latent Dirichlet Allocation。LDA 在主题模型中占有非常重要的地位,一般地会通过LDA抽取文档的主题分布,然后基于主题分布对文档集进行主题聚类或文本分类。

个人理解:LDA提出两个概念,文档-主题的Dirichlet分布,主题-词的Dirichlet分布。LDA的目标是为了训练这两个分布相关的参数。训练过程如下:



2. LDA的数学基础

2.1 神奇的Gamma函数

2.2 认识Beta/Dirichlet分布

2.3 MCMC和Gibbs Sampling

3. LDA的前世今生

3.1 文本建模/UnigramModel与PLSA

3.2 LDA文本建模


原创文章,转载请注明出处!
本文链接:https://leo4678.github.io/posts/nlp-lda.html
上篇: 特征工程