限定检索结果

检索条件"主题词=中文分词"
260 条 记 录,以下是1-10 订阅
视图:
排序:
基于语境相似度的中文分词一致性检验研究
收藏 引用
《北京大学学报(自然科学版)》2022年 第1期58卷 99-105页
作者:刘伟 黄锴宇 余浩 黄德根大连理工大学计算机科学与技术学院大连116023 
提出一种基于语境相似度的中文分词一致性检验方法。首先利用词法和句法层面的特征,设计基于构词、词性和依存句法的分类规则,再使用预训练词向量,对不一致字串所在语境的语义信息进行编码,通过语境间的语义相似度对不一致字串进行分类...
来源:详细信息评论
基于改进BERT的电力领域中文分词方法
收藏 引用
《计算机应用》2023年 第12期43卷 3711-3718页
作者:夏飞 陈帅琦 华珉 蒋碧鸿上海电力大学自动化工程学院上海200090 国网上海电力公司电力科学研究院上海200437 上海电力大学图书馆上海200090 
针对电力领域中文文本包含大量专有词时分词效果不佳的问题,提出一种基于改进BERT(Bidirectional Encoder Representation from Transformers)的电力领域中文分词(CWS)方法。首先,构建分别涵盖通用、领域词的词典,并设计双词典匹配融合...
来源:详细信息评论
中文分词技术在气象预警发布质量控制中的应用
收藏 引用
《浙江气象》2023年 第4期44卷 38-44页
作者:方楠 黄清瀚 丁雨鑫 袁超 张少华浙江省预警信息发布中心浙江杭州310057 台州市路桥区气象局浙江台州318050 
气象预警信号作为向社会公众和应急责任人发布的第一手气象风险资讯,受到社会各个方面广泛的关注与认可,其成为气象防灾减灾“发令枪”的作用愈发凸显。准确、及时地发布气象预警信号是预警发布工作的基本要求。目前浙江省气象预警信号...
来源:详细信息评论
基于中文分词的加权地理编码在COVID-19疫情防控空间定位中的应用
收藏 引用
《武汉大学学报(信息科学版)》2020年 第6期45卷 808-815页
作者:彭明军 李宗华 刘辉 孟成 李勇武汉市自然资源和规划信息中心湖北武汉430014 武汉市政务服务和大数据管理局湖北武汉430012 武汉大学测绘遥感信息工程国家重点实验室湖北武汉430079 
地理编码是实现带有地址描述的信息空间定位的重要途径。比较研究了国内外地理编码方法,分析了中文地址的组成方式和定位方法。针对中文地址高度复杂性和多样性的特征,设计了一种顾及多种语义的地址匹配算法,并以武汉市新型冠状病毒肺炎...
来源:详细信息评论
基于BERT-CRF的中文分词模型设计
收藏 引用
《电脑知识与技术》2022年 第35期18卷 4-6页
作者:陈月月 李燕 帅亚琦 徐丽娜 钟昕妤甘肃中医药大学信息工程学院甘肃兰州730101 
分词作为中文自然语言处理中的基础和关键任务,其分词效果的好坏会直接影响后续各项自然语言处理任务的结果。本文基于BERT-CRF的分词模型利用通用领域数据集与医学领域数据集对模型进行训练,分别取得F1值0.898和0.738的实验结果。
来源:详细信息评论
一种中文分词的预处理技术
收藏 引用
《计算机时代》2023年 第5期 123-126页
作者:陈书雨 曹集翔 姚寒冰伦敦大学学院多学科和跨文化研究中心英国伦敦W55RF 武汉理工大学计算机与人工智能学院 
分析基于词表的最大匹配分词算法,针对其缺陷设计了一个附近字表,内容为高频字在词表中出现的左边首字和右边首字。设计的算法根据高频词的特点,将句子尽可能多的分成段,然后将段进行最大匹配。当发现句子中高频词时,只取句子中高频词...
来源:详细信息评论
《资讯处理用中文分词规范》设计理念及规范内容
收藏 引用
《语言文字应用》1997年 第1期 94-102页
作者:黄居仁 陈克健 陈凤仪 魏文真 张丽丽 
《资讯处理用中文分词规范》有下列两个突破:(1)提出分级的观念及确立信、达、雅三级的标准。最容易达到的信级订为基本资料交换的标准;技术上较难,但自动分词程式仍可达到的达级作自动翻译、资讯检索等自然语言处理的标准;至于...
来源:详细信息评论
基于Lucene的中文分词方法设计与实现
收藏 引用
《四川大学学报(自然科学版)》2008年 第5期45卷 1095-1099页
作者:李颖 李志蜀 邓欢四川大学计算机学院成都610064 泸州医学院生物工程系泸州646000 
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了...
来源:详细信息评论
中文分词词典机制:次字拼音首字母哈希机制
收藏 引用
《计算机工程与设计》2010年 第6期31卷 1369-1371,1375页
作者:杨毅 王禹桥西华大学数学与计算机学院四川成都610039 中国矿业大学机电工程学院江苏徐州221116 
为了提高现有基于词典的分词机制的次字查询效率,提出了一种全新的分词词典机制—次字拼音首字母哈希机制。首字查询仍使用成熟的基于逐字二分机制,在首字哈希表中增加该字的拼音首字母字段,次字按其拼音首字母散列到26个子表,子表中记...
来源:详细信息评论
面向领域文献的无监督中文分词自动优化方法
收藏 引用
《数据分析与知识发现》2018年 第2期2卷 96-104页
作者:倪维健 孙浩浩 刘彤 曾庆田山东科技大学计算机学院青岛266510 
【目的】对现有中文分词方法在领域文献上的分词结果进行调整,以提升领域文献上的分词效果。【方法】对传统中文分词方法处理领域文献的不足进行分析,以此为基础设计一个反映领域文献构词特点的分词指标——词频偏差,并基于该指标提出...
来源:详细信息评论
聚类工具 回到顶部