主题模型概述

主题模型也是话题模型,是一族生成式有向图模型,主要应用于处理离散数据(如文本),在信息检索和自然语言处理中广泛应用。

例:给定一组主题,存在多个词汇,我们需要通过主题模型来挖掘每个词汇属于某个主题的概率分布情况。

在认识主题模型之前,我们先知道有词,文档,主题这些概念。我们需要通过文档内部的词,推测出文档属于各主体的概率分布情况。需要注意的是,文档可以属于任何主题,只不过某些不相关的主题的概率近似或者等于0。

主题模型的目标

  1. 降维:一个文档可以用几个主题来描述,而不是许多单词。
  2. 发现隐藏主题:在人为归纳的基础上,挖掘出新的主题。
  3. 帮助理解标注文档:文档标注工作自动化。

推测的算法可以有监督和无监督算法。典型模型有隐迪利克雷分配模型(LDA)。

前导知识

在理解模型之前可以先了解一些常用分布及其概率质量函数。

  1. 伯努利分布。
  2. 二项式分布。
  3. 多项式分布。

伯努利分布是为了描述一个只能发生两种结果的事件的概率分布情况。

1
2
3
4
5
6
if k == 1:
f = p
elif k == 0
f = 1 - p
k 表示事件发生结果变量,f表示概率质量函数,p表示概率。
精简表达概率质量函数,结果为 f(k; p) = pk + (1 - p)(1- k)

二项式分布是为了描述一个二元事件连续发生多次时概率分布的情况。wiki,但事件发生次数为1次的时候,等于伯努利分布。

多项式分布是二项分布的推广。二项分布每次事件发生的情况只有两种,而多项式分布却有 k 种。(k > 0)wiki

当事件发生 n 次后,每种情况发生的次数已知,概率质量函数结果如下:

文本建模