看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向司法领域的藏文事件数据集构建 收藏
面向司法领域的藏文事件数据集构建

面向司法领域的藏文事件数据集构建

作     者:高璐 赵小兵 GAO Lu;ZHAO Xiaobing

作者机构:中央民族大学中国少数民族语言文学学院北京100081 邯郸学院软件学院河北邯郸056005 中央民族大学信息工程学院北京100081 国家语言资源监测与研究少数民族语言中心北京100081 

基  金:国家社会科学基金(22&ZD035) 

出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)

年 卷 期:2023年第37卷第8期

页      码:34-42,51页

摘      要:为了构建高质量的藏文司法事件数据集,推动藏文司法事件抽取技术的进一步探索、评测与优化。该文面向藏文司法领域,以藏文刑事裁判文书为研究对象,设计了“类别分组-主题建模”两阶段的契合藏文司法实际的事件Schema;采用模型驱动的事件触发词预标注与事件要素人工标注相结合的半自动化数据标注方式,对1863篇藏文刑事裁判文书进行爬取、OCR、降噪、分析、多人协同标注及审核,构建了藏文司法事件数据集TiEvent。TiEvent共定义了3个大类、12个小类的事件类型,涵盖1863个藏文真实司法文本的2249个事件提及。BiLSTM、BiLSTM-CRF、CINO-CRF等事件抽取模型的实验结果表明,藏文司法事件触发词检测和论元识别的最高F1值分别为75.36%、70.98%。在藏文司法文本上,TiEvent具有较高的事件覆盖度和事件要素完整度,能够满足藏文司法事件抽取工作的基本需要。

主 题 词:事件数据集 事件抽取 藏文信息处理 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.3969/j.issn.1003-0077.2023.08.004

馆 藏 号:203124057...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分