机器学习 | 概率图模型之主题模型 | KnowMyself

主题模型概述

主题模型也是话题模型，是一族生成式有向图模型，主要应用于处理离散数据（如文本），在信息检索和自然语言处理中广泛应用。

例：给定一组主题，存在多个词汇，我们需要通过主题模型来挖掘每个词汇属于某个主题的概率分布情况。

在认识主题模型之前，我们先知道有词，文档，主题这些概念。我们需要通过文档内部的词，推测出文档属于各主体的概率分布情况。需要注意的是，文档可以属于任何主题，只不过某些不相关的主题的概率近似或者等于0。

主题模型的目标

推测的算法可以有监督和无监督算法。典型模型有隐迪利克雷分配模型（LDA）。

在理解模型之前可以先了解一些常用分布及其概率质量函数。

伯努利分布是为了描述一个只能发生两种结果的事件的概率分布情况。

if k == 1:
	f = p
elif k == 0
   	f = 1 - p
k 表示事件发生结果变量，f表示概率质量函数，p表示概率。
精简表达概率质量函数，结果为 f(k; p) = pk + (1 - p)(1- k)

二项式分布是为了描述一个二元事件连续发生多次时概率分布的情况。wiki，但事件发生次数为1次的时候，等于伯努利分布。

多项式分布是二项分布的推广。二项分布每次事件发生的情况只有两种，而多项式分布却有 k 种。（k > 0）wiki

当事件发生 n 次后，每种情况发生的次数已知，概率质量函数结果如下：