看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于数据驱动方法的历史报纸词汇变化研究 收藏
基于数据驱动方法的历史报纸词汇变化研究

基于数据驱动方法的历史报纸词汇变化研究

作     者:西蒙·恒晨 鲁本·罗斯 亚尼·马尔亚宁 米科·托洛宁 方华康(译) Simon Hengchen;Ruben Ros;Jani Marjanen;Mikko Tolonen;Fang Huakang

作者机构:瑞典哥德堡大学瑞典语系 卢森堡大学当代与数字历史研究中心 芬兰赫尔辛基大学数字人文系 上海师范大学人文学院 

基  金:欧盟“地平线2020”研究与创新项目770299(NewsEye)的支持,计算资源由CSC-IT科学中心有限公司提供 瑞典研究委员会支持的计算词汇语义变化检测项目(2019-2022,dnr2018-01184)资助 

出 版 物:《数字人文研究》 (Digital Humanities Research)

年 卷 期:2022年第2卷第4期

页      码:74-92页

摘      要:“民族”(nation)和“民族性”(nationhood)属于思想史领域最常研究的概念,而“民族”一词及其历史用法又十分模糊。文章旨在开发一种利用依存分析和神经词嵌入的数据驱动方法,以澄清这一概念的演变过程。为此提出以下两个步骤。首先,使用语言处理,创建一个与“民族”主题相关的大型单词集合。其次,训练历时词嵌入,并使用它们来量化这些词之间语义相似性的强度,从而创建有意义的聚类,然后将之历时排列。为了说明该方法在跨语言、多时间段及大型数据集研究上的稳健性,将其应用于荷兰语、瑞典语、芬兰语和英语共五份全套历史报纸档案集合。迄今为止,还没有如此大规模的比较研究——以数据驱动方法掌握多达四种不同语言的长期发展。文章所描述的方法还有一个特殊优势:通过设计,该方法可扩展应用至其他问题,而不仅限于对“民族性”的研究,并且可在不同语境中重复使用。

主 题 词:数字人文 数据驱动 历史报纸 词汇变化 

学科分类:0502[文学-外国语言文学类] 050201[050201] 050301[050301] 05[文学] 0503[文学-新闻传播学类] 

馆 藏 号:203118682...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分