看过本文的还看了

相关文献

该作者的其他文献

文献详情 >文献中词语分布的二八现象与马太效应 收藏
文献中词语分布的二八现象与马太效应

文献中词语分布的二八现象与马太效应

作     者:马创新 杨笑璐 陈小荷 梁社会 Ma Chuangxin;Yang Xiaolu;Chen Xiaohe;Liang Shehui

作者机构:江苏师范大学语言科学与艺术学院江苏徐州221009 南京航空航天大学国际教育学院江苏南京211106 南京师范大学文学院 南京师范大学国际文化教育学院 

基  金:国家社科基金一般项目“注疏文献的精加工数据库建设与语言知识挖掘研究”(21BYY207) 

出 版 物:《中国文字研究》 (The Study of Chinese Characters)

年 卷 期:2021年第34卷第2期

页      码:175-186页

摘      要:为了发现文献中的词语分布与动态增长规律,文章对各部文献分别作分组处理,第一组是文献头部的1万个词例,之后每一组包含前一组,再按顺序新增一万个词例,然后对每组中的词型按照出现频次降序排列。研究发现,各组词型序列前20%词型的词例数约占所在组词例总数的80%以上,而后80%词型的词例数约占所在组词例总数的20%以下,词型分布上显著存在二八现象。每部文献的各个组高频词的平均出现频次基本上是逐组递增的,而中低频词的平均出现频次基本不变,高频词与中低频词的平均出现频次的差距逐组增加,在第一组序列中排在前20%的词型,在其后各组中,有极大可能性依然处于各组的高频词行列中,各组新增词型的数量很大,但成为高频词的比率极低,词语动态增长时显著存在“马太效应”。

主 题 词:词语 分布 增长 二八定律 马太效应 

学科分类:0501[文学-中国语言文学类] 050103[050103] 05[文学] 

馆 藏 号:203109505...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分