博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习——主题模型
阅读量:3947 次
发布时间:2019-05-24

本文共 1929 字,大约阅读时间需要 6 分钟。

目录

朴素贝叶斯的分析

  • 可以胜任许多文本分类问题。
  • 无法解决语料中一词多义和多词一义的问题——它更像是词法分析,而非语义分析。
  • 如果使用词向量作为文档的特征,一词多义和多词一义会造成计算文档间相似度的不准确性。
  • 可以通过增加“主题”的方式,一定程度的解决上述问题。
    1、一个词可能被映射到多个主题中——一词多义;
    2、多个词可能被映射到某个主题的概率很高——多词一义。

LDA涉及的主要问题

γ \gamma γ函数

γ \gamma γ函数是阶乘在实数上的推广

在这里插入图片描述

Beta分布

Beta分布的概率密度:

在这里插入图片描述
其中系数B为:
在这里插入图片描述
Beta分布的期望:
在这里插入图片描述
在这里插入图片描述

共轭先验分布

由于x为给定样本, P(x)有时被称为“证据” ,仅仅是归一化因子,如果不关心P( θ \theta θ|x)的具体值,只考察 θ \theta θ取何值时后验概率P( θ \theta θ|x)最大,则可将分母省去。

在这里插入图片描述
在贝叶斯概率理论中,如果后验概率P( θ \theta θ|x)和先验概率P( θ \theta θ)满足同样的分布律,那么先验分布和后验分布被叫做共轭分布,同时先验分布叫做似然函数的共轭先验分布。

二项分布与先验

投掷一个非均匀的硬币,可以使用参数为 θ \theta θ的伯努利模型, θ \theta θ为硬币为正面的概率,那么x的分布形式是:

在这里插入图片描述
两点分布/二项分布的共轭先验是Beta分布,它具有两个参数 α \alpha α β \beta β, Beta分布形式为:
在这里插入图片描述
先验概率和后验概率的关系:
在这里插入图片描述
在这里插入图片描述
后验概率是参数为(k+ α \alpha α,n-k+ β \beta β)的Beta分布,即:伯努利分布/二项分布的共轭先验是Beta分布。
共轭先验的直接推广:
从2到k :

  • 二项分布–>多项分布
  • Beta分布–>Dirichlet分布

伪计数

参数α与β是决定参数θ的参数,称之超参数。

计算得到的后验概率为:
在这里插入图片描述
在后验概率的最终表达式仲,参数α,β和x一起作为参数θ的指数,后验概率的参数为(x+α, 1-x+β)。
而这个指数的实践意义是:投币过程中,正面朝上的次数。α和β先验地给出了在没有任何实验的前提下,硬币朝上的概率分配,因此,α和β可称为“伪计数”。

Dirichlet分布

Dirichlet分布由Beta分布衍生而来

在这里插入图片描述
Dirichlet分布的期望:
在这里插入图片描述
Dirichlet分布分析:
在这里插入图片描述
在这里插入图片描述

对称Dirichlet分布

在这里插入图片描述

参数 α \alpha α对Dirichlet分布的影响:
在这里插入图片描述
在这里插入图片描述

LDA

LDA的应用方向

  • 信息提取和搜索(如语义分析);
  • 文档分类/聚类,文章摘要,社区挖掘 ;
  • 基于内容的图像聚类,目标识别;
  • 生物信息数据的应用。

LDA的解释

  • 共有m篇文章,一共涉及了K个主题;
  • 每篇文章(长度为N)都有各自的主题分布,主题分布是多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为 α \alpha α;
  • 每个主题都有各自的词分布,词分布为多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为 β \beta β;
  • 对于某篇文章中的第n个词,首先从该文章的主题分布中采样一个主题,然后在这个主题对应的词分布中采样一个词。不断重复这个随机生成过程,直到m篇文章全部完成上述过程。

在这里插入图片描述

通过 α \alpha α β \beta β的两个分布,要求出文档的主题分布与主题的词分布,写成联合概率如下:
在这里插入图片描述
可以分别计算这两个因子:
n z ( t ) n_z(t) nz(t)表示词t被观察到分配给主题z的次数
n m ( k ) n_m(k) nm(k)表示主题k分配给文档m的次数
在这里插入图片描述
在这里插入图片描述
利用gibbs采样:
在这里插入图片描述
词分布与主题分布:
在这里插入图片描述
LDA的学习:

  • 先随机地生成两个分布:文章的主题分布θ,主题的词分布φ;
  • 对每篇文章中的每个词都进行遍历,比如文章ds的词wi,可以通过最新的两个分布求出pj(wi/ds),j属于1到t。也就是可以求出每篇文章仲每个词属于每个主题的概率;
  • 经过了第二步,我们得到了ds文档中wi词的主题,如果与原来的不同,根据上面的公式θd和φt就更新了;
  • 于是我们用新的θd和φt分布去继续第2,3两步,这样进行n次循环迭代之后,就会收敛到LDA所需要的结果了。

LDA的实现

  • LDA-C: David Blei, C实现, VBEM参数估计
  • GibbsLDA++/JGibbLDA: C/C++实现/Java实现
  • Matlab Topic Modeling Toolbox 1.4, Mark Steyvers, Gibbs采样
  • Gensim: Online VB
    官网:
    github:

转载地址:http://armwi.baihongyu.com/

你可能感兴趣的文章
android 图库语言更新
查看>>
android camera拍照/录像后查看图片/视频并删除所有内容后自动回到camera预览界面
查看>>
android 图库中对非mp4格式的视频去掉"修剪"功能选项
查看>>
how to disable watchdog
查看>>
android SDIO error导致wifi无法打开或者连接热点异常的问题
查看>>
android USB如何修改Serial Number or SN?
查看>>
android 用svn管理的版本编译出来有问题
查看>>
android 如何用jar包代替java代码编译
查看>>
android 数据连接关闭的情况下如何让彩信发不出去
查看>>
android 编辑彩信,加入几页铃声,预览暂停界面,铃声名字不见了
查看>>
android 在新建短信时,加入名称为","(英文逗号)的联系人时,应用崩溃的修改
查看>>
android 关于LCD背光调节渐变过程引起背光闪烁问题
查看>>
android 保存具有不同前缀的同一号码分别为A和B,用其中一个呼叫,通话记录一直显示另一个联系人名字的问题
查看>>
android 在手机中预置联系人/Service Number
查看>>
android 系统语言为英语时,Contacts联系人名字含有特殊前缀后缀(Dr. Mr. Lt等)时的相关问题处理
查看>>
android 短信下,添加联系人,进入联系人多选界面出现联系人电话号码晃动的问题
查看>>
android 对一个合并后的联系人选择编辑,手机屏幕会缓慢变暗后再进入编辑界面的问题
查看>>
正确学习javascript。困惑的指南
查看>>
SERO幻影社区的背景怎么样?几大主流隐私币种技术分析!
查看>>
SERO目前具备的十大技术特点
查看>>