看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向复杂主题建模的流式层次狄里克雷过程 收藏
面向复杂主题建模的流式层次狄里克雷过程

面向复杂主题建模的流式层次狄里克雷过程

作     者:韩忠明 张梦玫 李梦琪 段大高 陈谊 HAN Zhong-Ming;ZHANG Meng-Mei;LI Meng-Qi;DUAN Da-Gao;CHEN Yi

作者机构:北京工商大学计算机与信息工程学院北京100048 食品安全大数据技术北京市重点实验室北京100048 

基  金:国家自然科学基金(61170112) 北京市自然科学基金(4172016) 北京市科技计划课题(Z161100001616004)资助~~ 

出 版 物:《计算机学报》 (Chinese Journal of Computers)

年 卷 期:2019年第42卷第7期

页      码:1539-1552页

摘      要:互联网已经成为真实事件信息的主要来源.针对互联网海量新闻语料的主题挖掘是新闻事件的组织和追踪任务中关键的一环.主题模型已被广泛应用于挖掘和分析新闻等文本语料,LDA(Latent Dirichlet Allocation)是最常见的主题模型,然而现有基于LDA的方法没有考虑到主题之间的层次关系,且需要预先提供主题个数.作为LDA模型的扩展,层次狄里克雷过程(Hierarchical Dirichlet Process,HDP)是非参数贝叶斯主题模型,HDP能够自动确定主题个数.对于具有层次等特性的复杂主题,HDP难以挖掘出隐式层次结构,且容易产生噪音主题.为了解决这个问题,该文提出了基于HDP改进的非参数贝叶斯模型:流式层次狄里利克雷过程(Flow Hierarchical Dirichlet Process,FHDP),FHDP通过在HDP模型中加入流动操作,加强了对主题之间的同属领域信息的利用,以便于更好的对主题进行层次分析.利用加入了流动操作的中国连锁餐馆模型(Chinese Restaurant Franchise,CRF)对数据进行建模,设计相应的马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)采样方法,以推导FHDP模型的分布参数分布.FHDP的主要贡献在于:(1)对含有层次关系的主题建模时,减少了无意义信息.解决了HDP得到主题不明确的问题,扩大了HDP的应用领域;(2)由于在FHDP中加强了对主题隐含领域信息的利用,主题的层次关系变得更加明确.为了客观衡量FHDP和HDP的性能差异,利用模拟和真实数据进行了大量实验.实验表明,在轮廓系数、主题覆盖度、单字对数似然等指标上,FHDP模型明显优于HDP模型。

主 题 词:层次狄里克雷过程 主题模型 非参数贝叶斯模型 马尔可夫蒙特卡罗 流式层次狄里克雷过程 

学科分类:0810[工学-土木类] 12[管理学] 1201[管理学-管理科学与工程类] 0808[工学-自动化类] 0839[0839] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

核心收录:

D O I:10.11897/SP.J.1016.2019.01539

馆 藏 号:203695761...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分