首页 |中心概况 |学术交流 |成果展示 |学生信息 |高级研讨班
李绅、张祎昀、胡韧奋合作发表《古汉语历时词义语料库的构建与应用研究》一文

我中心研究员张祎昀与博士生李绅与北京师范大学国际中文教育学院副教授胡韧奋,聚焦汉语词汇语义系统为古汉语信息处理、语言教学、辞书编纂、人文研究带来的挑战,构建了古汉语历时词义语料库系统(Diachronic Semantic Corpus of Classical Chinese, DiscoCC),并在《中文信息学报》上合作发表了《古汉语历时词义语料库的构建与应用研究》一文,被“语言心得”“章黄国学”等公众号转载,文章简介如下:

文章来源:李绅,张祎昀,胡韧奋. 古汉语历时词义语料库的构建与应用研究 [J]. 中文信息学报, 2026, 40 (4): 61-69.

摘要:在数千年的语言文化传承中,汉语词汇语义系统始终处于持续变化状态,这为古汉语信息处理、语言教学和人文研究带来了诸多挑战。针对这些挑战,该研究综合运用古汉语大语言模型和文本向量表征方法,设计了高精度的词义标注、对齐和聚类算法;在此基础上,构建了大规模、多层次的古汉语历时词义演变资源库,收录先秦至晚清民国语料规模近两亿字,覆盖 6 万余词形和 12 万余义项,支持“语料-词语-义项-概念”多层级语言知识关联。基于上述资源,研发了古汉语历时词义语料库系统 DiscoCC,其提供义项级的语料检索,并支持历时词义演变和概念名称演变分析。进一步地,该文以古今异义词教学、文学意象和关键概念分析、社会文化观念研究为案例探讨了该语料库在语言教学和人文研究中的应用价值。

关键词:词义演变;语料库;词义标注;大语言模型



版权所有© 2014 北京师范大学 民俗典籍文字研究中心