专栏名称: DH数字人文
清华大学、中华书局联合主办《数字人文》(Journal of Digital Humanities)季刊,旨在为方兴未艾的数字人文研究提供理论探讨和专题研究的平台。
今天看啥  ›  专栏  ›  DH数字人文

古籍标点与专名的智能识别技术研究

DH数字人文  · 公众号  ·  · 2024-06-27 10:00

文章预览

基础设施 李 绅/北京师范大学文学院 胡韧奋/北京师范大学国际中文教育学院 诸雨辰/北京师范大学文学院 摘 要: 句读标点与专名标引是古籍整理和出版过程中的重要环节。近年来,伴随人工智能技术的发展,古籍自动标点技术逐步成熟,专名识别也受到了越来越多的关注。考虑到句读标点与专名识别之间存在知识依赖,文章构建了一种基于深层神经网络的联合学习方法,首先通过大规模古汉语语料库训练语言模型,使得模型具备基础的古汉语语法和语义知识,然后在此基础上引入联合学习机制,令模型同时学习句读标点和专名识别,并通过数据增广来缓解训练数据不足的问题。该方法使用一个模型即可实现标点、引号、书名、地名、人名、朝代年号等多种信息的自动标注,并且达到了较高的精度。在多领域测试集上,自动句读F1值达到94% ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览