作者:杨萌; 聂铁铮; 申德荣; 寇月; 于戈实体识别聚类随机森林记录相似度
摘要:实体识别是将一个或多个数据源中描述同一现实世界实体的数据对象分到同一组的过程,它在数据清洗、数据集成、数据挖掘中起着至关重要的作用。然而,实体的特征具有随时间演化的特性,这使得实体识别面临巨大的挑战。传统的实体识别方法解决了特征随着时间规律性的改变问题,但没有考虑到数据的不规律变化。该文提出了基于分类的方法解决特征不规律演化的实体识别问题。该方法首先利用机器学习中改进的随机森林的方法计算记录的相似性,接着提出了一个新型的两阶段聚类算法完成记录聚类过程,最后通过在真实数据集上的对比试验证明了该算法的有效性。通过在真实数据集上的实验,证明了该方法能够有效提高演化实体的识别准确性。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
特别声明:本站持有《出版物经营许可证》,主要从事期刊杂志零售,不是任何杂志官网,不涉及出版事务,特此申明。
工信部备案:蜀ICP备09010985号-13 川公网安备:51092202000203 统一信用码:91510922MACX24HU41
© 版权所有:四川博文网络科技有限责任公司太和分公司
出版物经营许可证:射行审新出发2023字第016号 股权代码:102064