文献检索-宁波市创意产业特色资源库

基于语境相似度的中文分词一致性检验研究: 收藏
分享
引用; 《北京大学学报（自然科学版）》2022年第1期58卷 99-105页; 作者：刘伟黄锴宇余浩黄德根大连理工大学计算机科学与技术学院大连116023; 提出一种基于语境相似度的中文分词一致性检验方法。首先利用词法和句法层面的特征,设计基于构词、词性和依存句法的分类规则,再使用预训练词向量,对不一致字串所在语境的语义信息进行编码,通过语境间的语义相似度对不一致字串进行分类...; 提出一种基于语境相似度的中文分词一致性检验方法。首先利用词法和句法层面的特征,设计基于构词、词性和依存句法的分类规则,再使用预训练词向量,对不一致字串所在语境的语义信息进行编码,通过语境间的语义相似度对不一致字串进行分类。在人工构建的36万字分词语料库中进行分词一致性检验,结果表明该方法能够有效地提高中文分词一致性检验的准确率。进一步地,使用3种主流中文分词模型在修正一致性后的分词语料中重新训练和测试,结果表明该方法可以有效地提高分词语料库的质量,3种中文分词模型的F1值分别提高1.18%,1.25%和1.04%。; 来源：详细信息评论

基于改进BERT的电力领域中文分词方法: 收藏
分享
引用; 《计算机应用》2023年第12期43卷 3711-3718页; 作者：夏飞陈帅琦华珉蒋碧鸿上海电力大学自动化工程学院上海200090 国网上海电力公司电力科学研究院上海200437 上海电力大学图书馆上海200090; 针对电力领域中文文本包含大量专有词时分词效果不佳的问题,提出一种基于改进BERT(Bidirectional Encoder Representation from Transformers)的电力领域中文分词(CWS)方法。首先,构建分别涵盖通用、领域词的词典,并设计双词典匹配融合...; 针对电力领域中文文本包含大量专有词时分词效果不佳的问题,提出一种基于改进BERT(Bidirectional Encoder Representation from Transformers)的电力领域中文分词(CWS)方法。首先,构建分别涵盖通用、领域词的词典,并设计双词典匹配融合机制将词特征直接融入BERT模型,使模型更有效地利用外部知识;其次,通过引入DEEPNORM方法提高模型对于特征的提取能力,并使用贝叶斯信息准则(BIC)确定模型的最佳深度,使BERT模型稳定加深至40层;最后,采用ProbSparse自注意力机制层替换BERT模型中的经典自注意力机制层,并利用粒子群优化(PSO)算法确定采样因子的最优值,在降低模型复杂度的同时确保模型性能不变。在人工标注的电力领域专利文本数据集上进行了分词性能测试。实验结果表明,所提方法在该数据集分词任务中的F1值达到了92.87%,相较于隐马尔可夫模型(HMM)、多标准分词模型METASEG(pre-training model with META learning for Chinese word SEGmentation)与词典增强型BERT(LEBERT)模型分别提高了14.70、9.89与3.60个百分点,验证了所提方法有效提高了电力领域中文文本的分词质量。; 来源：详细信息评论

中文分词技术在气象预警发布质量控制中的应用: 收藏
分享
引用; 《浙江气象》2023年第4期44卷 38-44页; 作者：方楠黄清瀚丁雨鑫袁超张少华浙江省预警信息发布中心浙江杭州310057 台州市路桥区气象局浙江台州318050; 气象预警信号作为向社会公众和应急责任人发布的第一手气象风险资讯,受到社会各个方面广泛的关注与认可,其成为气象防灾减灾“发令枪”的作用愈发凸显。准确、及时地发布气象预警信号是预警发布工作的基本要求。目前浙江省气象预警信号...; 气象预警信号作为向社会公众和应急责任人发布的第一手气象风险资讯,受到社会各个方面广泛的关注与认可,其成为气象防灾减灾“发令枪”的作用愈发凸显。准确、及时地发布气象预警信号是预警发布工作的基本要求。目前浙江省气象预警信号发布质量与筑牢气象防灾减灾“第一道防线”的要求仍存在一定差距,设计一套能够全面、智能监控预警发布质量的方法是预警发布业务急需解决的问题。选取浙江省2016-2021年历史气象预警信号作为研究样本,通过中文自然语言处理的分词技术将预警内容拆分成词汇单元,分地区、分灾种提取历史预警中的词频特征,设计预警常用词质控逻辑,实现对气象预警信号中的错误词汇、不完整词汇等质量问题的自动判别,进一步提升气象预警发布质量控制能力。; 来源：详细信息评论

基于中文分词的加权地理编码在COVID-19疫情防控空间定位中的应用: 收藏
分享
引用; 《武汉大学学报（信息科学版）》2020年第6期45卷 808-815页; 作者：彭明军李宗华刘辉孟成李勇武汉市自然资源和规划信息中心湖北武汉430014 武汉市政务服务和大数据管理局湖北武汉430012 武汉大学测绘遥感信息工程国家重点实验室湖北武汉430079; 地理编码是实现带有地址描述的信息空间定位的重要途径。比较研究了国内外地理编码方法,分析了中文地址的组成方式和定位方法。针对中文地址高度复杂性和多样性的特征,设计了一种顾及多种语义的地址匹配算法,并以武汉市新型冠状病毒肺炎...; 地理编码是实现带有地址描述的信息空间定位的重要途径。比较研究了国内外地理编码方法,分析了中文地址的组成方式和定位方法。针对中文地址高度复杂性和多样性的特征,设计了一种顾及多种语义的地址匹配算法,并以武汉市新型冠状病毒肺炎(coronavirus disease 2019,COVID-19)病人入院时登记的地址描述信息为例,对匹配算法进行了实验验证,将匹配结果进行空间定位。结果表明,所提出的中文分词的加权地理编码方法匹配高效、定位准确、方法智能,能够实现基于语义的COVID-19病人入院时登记地址的快速定位,可为疫情防控提供准确的空间定位信息。; 来源：详细信息评论

基于BERT-CRF的中文分词模型设计: 收藏
分享
引用; 《电脑知识与技术》2022年第35期18卷 4-6页; 作者：陈月月李燕帅亚琦徐丽娜钟昕妤甘肃中医药大学信息工程学院甘肃兰州730101; 分词作为中文自然语言处理中的基础和关键任务,其分词效果的好坏会直接影响后续各项自然语言处理任务的结果。本文基于BERT-CRF的分词模型利用通用领域数据集与医学领域数据集对模型进行训练,分别取得F1值0.898和0.738的实验结果。; 分词作为中文自然语言处理中的基础和关键任务,其分词效果的好坏会直接影响后续各项自然语言处理任务的结果。本文基于BERT-CRF的分词模型利用通用领域数据集与医学领域数据集对模型进行训练,分别取得F1值0.898和0.738的实验结果。; 来源：详细信息评论

一种中文分词的预处理技术: 收藏
分享
引用; 《计算机时代》2023年第5期 123-126页; 作者：陈书雨曹集翔姚寒冰伦敦大学学院多学科和跨文化研究中心英国伦敦W55RF 武汉理工大学计算机与人工智能学院; 分析基于词表的最大匹配分词算法,针对其缺陷设计了一个附近字表,内容为高频字在词表中出现的左边首字和右边首字。设计的算法根据高频词的特点,将句子尽可能多的分成段,然后将段进行最大匹配。当发现句子中高频词时,只取句子中高频词...; 分析基于词表的最大匹配分词算法,针对其缺陷设计了一个附近字表,内容为高频字在词表中出现的左边首字和右边首字。设计的算法根据高频词的特点,将句子尽可能多的分成段,然后将段进行最大匹配。当发现句子中高频词时,只取句子中高频词的左边首字和右边首字在附近字表中查找;若未找到,则表示句子中此高频字单独成词,无需在词表中匹配,从而减少高频字单独成词时的匹配时间,进而减少整个分词过程的时间。通过实验证明此技术能提高中文分词的效率。; 来源：详细信息评论

《资讯处理用中文分词规范》设计理念及规范内容: 收藏
分享
引用; 《语言文字应用》1997年第1期 94-102页; 作者：黄居仁陈克健陈凤仪魏文真张丽丽; 《资讯处理用中文分词规范》有下列两个突破：（１）提出分级的观念及确立信、达、雅三级的标准。最容易达到的信级订为基本资料交换的标准；技术上较难，但自动分词程式仍可达到的达级作自动翻译、资讯检索等自然语言处理的标准；至于...; 《资讯处理用中文分词规范》有下列两个突破：（１）提出分级的观念及确立信、达、雅三级的标准。最容易达到的信级订为基本资料交换的标准；技术上较难，但自动分词程式仍可达到的达级作自动翻译、资讯检索等自然语言处理的标准；至于最需要人工分词才能达到的雅级则视为电脑处理、理解中文之最高目标。（２）把分词规范分成不变核心（分词单位定义及基本原则），以及可变准则（辅助原则）。在确定分词规范架构后，只要定时更新基本词库或特殊领域的专门词库。; 来源：详细信息评论

基于Lucene的中文分词方法设计与实现: 收藏
分享
引用; 《四川大学学报（自然科学版）》2008年第5期45卷 1095-1099页; 作者：李颖李志蜀邓欢四川大学计算机学院成都610064 泸州医学院生物工程系泸州646000; 本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了...; 本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现.; 来源：详细信息评论

中文分词词典机制:次字拼音首字母哈希机制: 收藏
分享
引用; 《计算机工程与设计》2010年第6期31卷 1369-1371,1375页; 作者：杨毅王禹桥西华大学数学与计算机学院四川成都610039 中国矿业大学机电工程学院江苏徐州221116; 为了提高现有基于词典的分词机制的次字查询效率,提出了一种全新的分词词典机制—次字拼音首字母哈希机制。首字查询仍使用成熟的基于逐字二分机制,在首字哈希表中增加该字的拼音首字母字段,次字按其拼音首字母散列到26个子表,子表中记...; 为了提高现有基于词典的分词机制的次字查询效率,提出了一种全新的分词词典机制—次字拼音首字母哈希机制。首字查询仍使用成熟的基于逐字二分机制,在首字哈希表中增加该字的拼音首字母字段,次字按其拼音首字母散列到26个子表,子表中记录以首字开头的词组个数并设置次字索引表指针,第3字及其后的字串的匹配仍然采用目前成熟的词典机制。在次字查询时,可大大地缩小查询范围,从而加速了次字查询过程。实验测试表明,该机制在增加少量的存储空间情况下,时间效率提升了15%。; 来源：详细信息评论

面向领域文献的无监督中文分词自动优化方法: 收藏
分享
引用; 《数据分析与知识发现》2018年第2期2卷 96-104页; 作者：倪维健孙浩浩刘彤曾庆田山东科技大学计算机学院青岛266510; 【目的】对现有中文分词方法在领域文献上的分词结果进行调整,以提升领域文献上的分词效果。【方法】对传统中文分词方法处理领域文献的不足进行分析,以此为基础设计一个反映领域文献构词特点的分词指标——词频偏差,并基于该指标提出...; 【目的】对现有中文分词方法在领域文献上的分词结果进行调整,以提升领域文献上的分词效果。【方法】对传统中文分词方法处理领域文献的不足进行分析,以此为基础设计一个反映领域文献构词特点的分词指标——词频偏差,并基于该指标提出一个无监督的分词结果优化方法。【结果】基于农业领域语料开展实验,结果表明该方法对比ICTCLAS、THULAC和LTP的分词结果 F1值提升2%-3%,并具有实现简单、参数鲁棒性强的特点。【局限】提升召回率方面效果不佳。【结论】基于词频偏差的分词结果优化算法能够有效提升已有分词结果的准确性,且无需领域词表及人工标注语料,具有良好的领域适用性。; 来源：详细信息评论

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案：

收藏书架

请选择收藏分类：

检索条件订阅

申请转借

引用

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案： 新增检索档案 确定 取消

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

检索条件订阅

申请转借

引用

高级检索表达式检索

高级检索表达式检索

请选择保存的检索档案：

请选择收藏分类：