作者:朱丹浩; 杨蕾; 王东波机构名识别循环神经网络深度学习
摘要:【目的】中文机构名结构复杂、罕见词多,识别难度大,对其进行正确识别对于信息抽取、信息检索、知识挖掘和机构科研评价等情报学中的后续任务意义重大。【方法】基于深度学习的循环神经网络(Recurrent Neural Network,RNN)方法,面向中文汉字和词的特点,重新定义了机构名标注的输入和输出,提出汉字级别的循环网络标注模型。【结果】以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文机构名识别的准确率、召回率和F值均有明显提高,其中F值提高了1.54%。在包含罕见词时提高更为明显,F值提高了11.05%。【局限】在解码时直接使用了贪心策略,易于陷入局部最优,如果使用条件随机场算法进行建模可能获取全局最优结果。【结论】本文方法构架简单,能利用到汉字级别的特征来进行建模,比只使用词特征取得了更好的结果。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
特别声明:本站持有《出版物经营许可证》,主要从事期刊杂志零售,不是任何杂志官网,不涉及出版事务,特此申明。
工信部备案:蜀ICP备09010985号-13 川公网安备:51092202000203 统一信用码:91510922MACX24HU41
© 版权所有:四川博文网络科技有限责任公司太和分公司
出版物经营许可证:射行审新出发2023字第016号 股权代码:102064