HI,欢迎来到学术之家股权代码  102064
0
首页 精品范文 神经网络文本分类

神经网络文本分类

时间:2023-06-07 09:26:12

开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇神经网络文本分类,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。

神经网络文本分类

第1篇

关键词:竞争型神经网络;分类;训练误差;特征向量

文本分类数是据挖掘的一个重要研究领域,国内外的众多学者已经进行了比较深入的研究,取得了不少研究成果。常见的文本分类技术有最小距离方法、朴素贝叶斯方法、KNN方法、支持向量机方法(SVM)、模糊c均值(FCM)算法和等,现在有很多学者把神经网络的方法应用到分类算法中,在这些分类算法中,神经网络的文本分类更具有优越的性能。袁飞云利用SOINN自动产生聚类数目和保留数据拓扑结构的两项能力,寻找更有效的单词和设计更有效的编码方式,提出了基于自组织增量神经网络(SOINN)的码书产生方法;申明金利用自组织特征映射神经网络(SOM)以无监督方式进行网络训练,具有自组织功能的特点,利用自组织特征映射神经网络对不同产地金银花进行分类;彭俊等将不同空气质量等级下的各空气指标作为原型模式,通过输入样本模式,利用竞争网络的竞争特点得到胜者,以此得出空气质量等级;郝晓丽等通过筛选基于轮廓系数的优秀样木群,来寻找最佳初始聚类中心,并将该改进算法用于构造径向基函数神经网络分类器和快速有效地确定隐含层节点径向基函数中心及函数的宽度,从而提高了分类精度;孙进进利用神经网络技术中的自组织映射SOM)网络对我国主要机场进行聚类分析评价,得出我国主要机场分为8层的主要结论;刘艳杰在非监督的自组织映射神经网络的基础上进行了一定的改进,构建了有监督的神经网络分类模型;李杨将神经网络与群体智能算法、云计算相结合的方法,实现对不同规模农业数据集的分类,提出基于神经网络分类器的设计与优化方法。而竞争型神经网络的自组织、自适应学习能力,进一步拓宽了神经网络在模式分类和识别方面的应用。竞争型神经网络依靠神经元之间的兴奋、协调、抑制或竞争的作用来进行信息处理,可在训练中无监督自组织学习,通过学习提取数据中的重要特征或内在规律,进而实现分类分析的功能。

1竞争型神经网络的描述

1.1竞争型网络的结构

竞争学习网络的结构如图1所示,该网络具有R维输入和s个输出,由前馈层和竞争层组成。图中的llndlstll模块表示对输入矢量P和神经元权值矢量w之间的距离取负。该网络的输出层是竞争层,图中的模块c表示竞争传递函数,其输出矢量由竞争层各神经元的输出组成,这些输出指明了原型模式与输入向量的相互关系。竞争过后只有一个神经元有非零输出,获胜的神经元指明输入属于哪类(每个原型向量代表一个类)。

1.2竞争型神经网络的原理

竞争型神经网络在结构上,既不同于阶层型的各层神经元间非单向连接,也不同于全连接型。它有层次界限,一般是由输入层和竞争层构成的两层网络。两层之间各神经元实现双向全连接,没有隐含层,有时竞争层各神经元之间还存在横向连接。在学习方法上,不是以网络的误差或能量函数的单调递减作为算法准则。而是依靠神经元之间的兴奋、协调、抑制、竞争的作用来进行信息处理,指导网络的学习与工作。

网络在刚开始建立的时候,输入层和输出层之间的连接权值已经开始了,如果与竞争层某一神经元对应的矢量子类别属于线性层某个神经元所对应的目标类别,则这两个神经元的连接权值为1,否则二者的连接权值为0,这样的权值矩阵就实现了子类别到目标类别的合并。在建立竞争型网络时,每类数据占数据总数的百分比是已知的,这也是竞争层神经元归并到线性层的各个输出时所依据的比例。

1.3存在的问题

竞争型神经网络按Kohonen学习规则对获胜神经元的权值进行调整,通过输入向量进行神经元权值的调整,因此在模式识别的应用中是很有用的。通过学习,那些最靠近输入向量的神经元权值向量得到修正,使之更靠近输入向量,其结果是获胜的神经元在下一次相似的输入向量出现时,获胜的可能性更大;而对于那些与输入向量相差很远的神经元权值向量,获胜的可能性将变得很小。这样,当经过越来越多的训练样本学习后,每一个网络层中的神经元权值向量很快被调整为最接近某一类输入向量的值。最终的结果是,如果神经元的数量足够多,则具有相似输入向量的各类模式作为输入向量时,其对应的神经元输出为1;而对于其他模式的输入向量,其对应的神经元输出为0。所以,竞争型神经网络具有对输入向量进行学习分类的能力。

例子:以竞争型神经网络为工具,对下面的数据进行分类:

运用Matlab编程实现,发现网络的训练误差能达到要求,最后也能实现很好的分类效果。运行结果如图2所示。

有运行结果可以看到,训练误差达到要求,分类结果也很合理。

但是在实际应用过程中,我们发现,当对于训练数据的数据特征十分明显的时候,本文设计的网络模型可以对训练的数据进行合理有效的分类,但是,当训练数据的特征不太明显区分的时候,本文设计的训练模型的分类效果就不是太有优势,所得到的分类结果就不能达到我们预期的效果。

我们利用竞争型神经网络对数据样本进行分类,其中参数设置为学习效率0.1,网络竞争层有4个神经元,运用Matlab编程实现,发现结果如下:

例子:我们利用本文设计的网络分类模型进行对数据分类处理:进行分类处理数据的样本数据如下所示:

通过运行学习发现训练误差较大,分类结果也达不到要求。

2改进的方法

2.1问题分析

通过比较分析我们发现,上面的数据样本没有明显的分类特征,所以,以竞争型神经网络进行分类,其输入向量仅仅依靠数据本身的固有的特征时不够的,但我们可以把数据样本看作是二维数据,假设同符号的特征值为1,不同符号的特征值为2,于是一个新的训练样本就确定了,即成为三维数据模型。

2.2改进的算法

第一步:给定数据集X=[X1,X2……,Xi),对网络进行初始化,随机给定网络竞争层与输入层间的初始权向量wj(=wj[w1j w2j…wnj];j=1,2,…,m xp;wijE(0,1));给定输出层与竞争层间的连接权值wjo=1/m,o=1,2,…P (P表示第二隐层和输出层的连接权矢量)。

第二步:创建竞争型神经网络,首先根据给定的问题确定训练样本的输入向量,当学习模式样本本身杂乱无章,没有明显的分类特征,网络对输入模式的响应呈现震荡的现象,不足以区分各类模式时,在创建网络之前,提取训练样本的特征值,设置输入样本的特征向量,然后再创建网络模型,并根据模式分类数确定神经元的数目,最后任取一输入模式Ak。

第三步:计算竞争层各神经元的输入值si:

第四步:对本文建立的网络进行训练学习,网络训练最大次数的初始值设置为230,当训练误差大于预期的设定值的时候,可以尝试增加训练的最大次数,按“胜者为王”(Winner Takes All)原则,将训练网络中获得最接近预期值的神经元作为胜者,输出状态设置为1,没有获胜的神经元的输出状态设置为0。如果有两个以上神经元的sj相同,取左边的为获胜单元。

第五步:获胜神经元连接权修正如下:

第六步:另选一学习模式,返回步骤3,直至所有学习模式提供一遍。

第七步:如果不满足要求,则返回到最初的训练状态,反复训练直至训练网络中神经元获得最接近预期值,最终的训练结束。

第八步:根据测试样本利用Matlab编写程序进行仿真实验。

通过实例训练,我们发现本算法和改进前的算法相比,改进后的算法训练误差却大大降低,已经达到了训练的精度要求,同时也很好地实现了分类要求。

第2篇

一种基于H264的改进的运动估计三步搜索算法

一种新的基于多描述编码的应用层组播系统

基于属性理论的教师教学质量动态评估

RIP和OSPF路由协议在Click软件路由器中的实现

面向集装箱字符识别的预处理算法

基于身份与位置分离策略可选的多宿主研究

基于分层Petri网的仓储管理建模与验证

一种基于云模型数据填充的算法

高速公路的匝道与可变限速联合模糊控制

MPLS网络中LSP模型改进研究

软件组件的共代数语意

基于主被动连接的P2P节点识别算法

FARIMA网络流量预测模型的研究与改进

基于H.264的视频监控系统关键代码实现与优化

PAIS中过程挖掘技术的研究

安庆气温的多重分形消除趋势波动分析与预测

基于WordNet和Kernel方法的Web服务发现机制研究

一种新型的实时调度算法

基于反馈的高职网格资源共享方案研究与实现

面向目标检测的高光谱图像压缩技术

基于单源多段图方法的多目标决策算法与应用

基于Gram-Schmidt过程的支持向量机降维方法

基于AHP-FCE的供应商选择问题研究与应用

对IPSec中AH和ESP协议的分析与建议

一种基于混沌优化的混合粒子群算法

多软件分时段租赁系统构想及其实现

SCTP协议分析与仿真研究

数码输入法字码本的自动获取技术

SVM和K-means结合的文本分类方法研究

二群协同的人工鱼群优化算法

基于特征匹配的渐变纹理图像合成算法

三元Box样条构造方法的实现

基于二元语义的语言加权取大改进算法的研究

面向TD协议栈的内存管理技术研究

随机Petri网性能计算软件关键技术的研究

基于Petri网的Web服务动态组合

BP神经网络预测算法的改进及应用

移动自组网中基于推荐的信任模型

基于BPEL和QoS的动态Web服务组合框架研究

面向目标检测的高光谱图像压缩技术

基于单源多段图方法的多目标决策算法与应用

基于Gram-Schmidt过程的支持向量机降维方法

基于AHP-FCE的供应商选择问题研究与应用

对IPSec中AH和ESP协议的分析与建议

一种基于混沌优化的混合粒子群算法

多软件分时段租赁系统构想及其实现

SCTP协议分析与仿真研究

数码输入法字码本的自动获取技术

SVM和K-means结合的文本分类方法研究

二群协同的人工鱼群优化算法

基于特征匹配的渐变纹理图像合成算法

三元Box样条构造方法的实现

基于二元语义的语言加权取大改进算法的研究

面向TD协议栈的内存管理技术研究

随机Petri网性能计算软件关键技术的研究

基于Petri网的Web服务动态组合

BP神经网络预测算法的改进及应用

第3篇

P键词:网络流量;分类模式;端口识别;统计特征

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)03-0052-02

1 概述

随着信息化时代的到来,计算机网络以飞快的速度发展起来,用户规模呈现出爆炸式的增长趋势,且对网络的通信质量要求越来越高;与此同时,基于网络的各种软件也层出不穷,大量不同类型的应用软件导致了在网络中传输的数据类型的差异性较之以往大大增加了,传输的复杂性也随之提高。在此情况下,如何提供一种更加符合网络现状的管理方法,向用户提供更加符合其需求的通信服务成为了当前计算机网络领域研究的重点内容。在诸多的研究课题中,对网络流量的科学分类受到了广泛的关注,通过高质量的流量分类,可以追溯用户的活动情况,从而在一定范围内判断当前数据的传输状况,并可在此基础上实现对网络资源的QoS(Quality of Service)调度,进而为网络的维护和后续扩张提供可靠的依据。除此之外,流量分类还可在网络安全、用户识别、宽带流量计费等方面发挥重要的作用。

传统的流量分类方式是由IANA提出的基于端口号的识别方式,该方式在以往应用服务种类不多的情况下是较为实用的,即根据熟知端口号识别有限数量的不同类型的应用服务进程,但随着网络规模的飞速增长,尤其是随着P2P对等网络的大发展,使得用户数据的类型与日俱增,众多的进程启用了大量的随机端口号,这对数据流量的识别是非常不利的,未来必须加以改进。

第二种方式是基于特征字段识别的,在早期该字段并没有得到充分的利用,而目前随着数据类型识别需求的不断提高,该字段也被越来越多的通信服务所采用,但随之而来的问题是该字段位于IP数据报的首部,这意味着需要在网络层解决数据类型的差异问题,在通信过程中该数据报经过的路由器将不得不花费大量的资源和时间来解析和识别该字段,这势必会拖慢网络通信效率,同时增加网络拥塞的风险。目前在P2P对等网络中此方法使用较多,但对于实时性要求较高的通信服务而言,此方法导致的通信时延过高,并且会随着应用层服务的改变而失效,表1给出了这两种流量分类方式的对比分析。

表1 两种传统的流量分类方法对比

2 基于机器学习方法的流量分类

随着网络的发展,传统方式已经无法胜任对数据流量进行合理的分类工作,这导致了数据冲突、资源耗费、通信延迟、通信效率不断降低等一系列问题。因此,有研究人员将人工智能领域内的机器学习机制引入到流量分类工作中,针对网络流一些属性的统计信息进行识别,以提高流量分类的准确性和快捷性,效果较为显著,其算法过程如图1所示:

图1 基于机器学习方法的流量分类流程

算法步骤如下:

1)通过统计方法获取流量的特征属性最优组合集

流量属性集通过统计形成网络流的数据包的包头信息得到。在进行统计分析之前,为了减少计算量,提高分析精确度,应对数据包信息进行筛选的预操作,其目的是将与分类需求相关的属性尽可能的保留下来,反之则筛除,从而形成所谓的最有属性集合,随后在针对此集合进行分析,实现事半功倍的效果。在此特征选择的过程中可以采用多种优化算法,如快速统计过滤法FCBF、顺序前进法SFS、相关性特征选择CFS和遗传算法GA等。

2)采用机器学习方法进行分类

机器学习属于人工智能领域内的一个分支,也存在多种不同的优化算法,目前在流量分类工作中得到应用的优化算法有K-近邻K-NN、朴素贝叶斯方法NB、支持向量机SVM等。其中K-NN方法是最早得到应用的一种优化算法,分析结果较为准确,但缺点是计算量偏大,且鲁棒性较低,受干扰影响较大,这对实时性和稳定性要求都很高的网络通信而言无疑是一大障碍,因此其应用规模相对有限;NB算法也是早期在网络流量分类得到应用的机器学习方法,其缺点在于算法得出的分析结果的质量高低存在一定的不可知性,若样本选取的合理,则该算法相对可靠,若样本分布质量不高,则该算法得出的分类结果往往也偏离真实情况;SVM可取得较高的分类准确率,但必须事先标记流量的应用类型,因此不能适应完全意义上的实时分类。

基于流统计特征的机器学习分类方法收到的外界干扰较小,且不需要执行繁琐耗时的数据报首部解析工作,对于P2P网络中出现的大量端口号也可以不受其影响,平均准确率比以上其他算法都要好,能够准确的识别多个不同类型的数据流量,同时对于异常流量(如非法的数据流量)也可以实现一定程度的识别和判断。但其缺点是敏感度过高,对于网络的动态变化往往会出现过度响应,将原先正常的数据流量标注为异常点,从而导致系统的误判,另一方面,该算法实现起来也相对复杂,需要进一步改进。

3 混合模式的流量分类方案

3.1 方案流程分析

本设计将传统的分类方法和机器学习机制有机结合,对端口识别的流量分类模式进行改进,形成了一种新型的混合型流量分类方法,既保留了基于端口号识别模式的简单、低开销的优点,又有效地利用了机器学习机制的自适应性强、准确性高的优势,明显地改善了网络流量分类的效率和可靠性,算法流程如图2所示。

图2 改进后的流量分类算法流程

混合模式的流量分类方案具体实现过程如下。

1)对流量样本采用属性选择方法选出最优属性集,降低算法输入向量维数。

2)与常用协议的默认端口号匹配,实现粗分。若匹配成功则可不必启用机器学习机制进行后续的分类,节约了工作量。

3)进入细分环节,此环节是为了进一步提高对流量分类的精确性而设定,主要采用基于自组织映射网络的分类方法来完成。根据输出标签确定某一流量类别分布在port flow映射图或non-port flow映射图上。结合训练样本,确定输出映射图中相应区域的流量类型。

3.2 自组织映射

在本环节,采用深度学习算法中著名的神经网络算法来实现进一步的优化,该算法具有识别能力强、自适应度高等优点,非常适合用来对数据流量进行准确分类,可以很好地解决对非线性曲面的逼近,其收敛速度远高于传统分类方法。

自组织映射SOM网络是神经网络中的一种常用算法,属于无人监督的竞争型神经网络,该网络中的各个节点模拟为神经元节点,而在该网络中传输的各个信息状态则模拟为神经信号;该算法最大的特点就是将高维的输入流量样本以拓扑有序的方式变换到二维的离散空间上,其输出分类结果可以直观的以棋盘状的二维平面阵显示。根据此规律,可将SOM网络用于对输入的数据包特征信息的分类工作中,实现样本的自动聚类,同时可方便的识别新的数据类型和异常数据类型,其具体过程如下:

设输入样本[X=(x1,x2,…,xn)T],权向量为[Wj=(wj1,wj2,…,wjn)T(j=1,2,…m)],

其中n为输入样本的维数,m为映射图神经元数量。对样本和权向量进行归一化处理,得到[X]和[Wj],通过SOM神经网络执行以下两个步骤

1)选择竞争占优的神经元

[dj*=minj∈1,2,…,mX-Wj] (1)

2)计算该类神经元和与之相邻的其他节点的网络权值

[Wj*(t+1)=Wj*(t)+η(t)N(t)(X-Wj*(t))] (2)

式(2)中,t为学习次数,[η(t)]为学习成功率,[N(t)]为获胜的邻域。

做完了准备工作后,SOM网络就可将所有权值W转化为在[-1,1]区间的随机数,并根据此选择一个流量样本n,解析其特征属性并送至神经网络的输入接口,设置初始t=0,因此有N(0)和[η(0)]。输出层各神经元通过式(1)全局搜索最接近的优胜神经元j*。按式(2),对j*及其邻域内的所有神经元调整权值,然后缩小邻域[N(t)],减小学习率[η(t)],重新调整邻域内神经元的权值直到学习率衰减为0。当算法运行到这一步时,若流量样本集合不为空集,则可继续执行下去,在非空集合内随机选择一样本,重新执行本轮的学习过程,直至所有样本均完成训练,此时就可生成一张完整的流量类别映射图,最后根据样本激活神经元的位置可判断流量类别,实现数据流量的精确分类。

4 结束语

目前,在网络流量分类的研究工作中,更多地倾向于将优秀的智能算法同以往传统的分类方法相结合的研究路线,其中

很多优化算法仍旧处于起步阶段,从理论上看,基于流统计特征的机器学习的方法自适应性强,可扩展性好,可靠性也有足够的保障,应用在流量分类领域内是非常合适的,但其计算量较大仍旧是该算法推广过程中遇到的主要障碍,相信随着人工智能领域研究的不断突破,会出现更多的优秀方法应用在网络流量分类工作中,进一步增强流量分类的工作效率,为广大用户提供更高|量的数据通信服务。

参考文献:

[1] 徐鹏,刘琼,林森.基于支持向量机的Internet流量分类研究[J].计算机研究与发展,2009,46(3): 407-414.

[2] 王琳.面向高速网络的智能化应用分类的研究[D].济南:济南大学,2008.

[3] WITTEN I H,FRANKE.DATA MINING:practical machine learning tools and techniques[M].New York: SF Morgan Kaufman,2005:168-171.

第4篇

【关键词】工程项目管理;计算机网络;群体决策支持系统;管理信息系统

自80年代,我国工程项目管理事业得到了飞速发展,工程项目建设过程中的质量、进度和成本得到有效控制。施工企业的经营管理水平和项目经理部的施工现场管理水平有了较大的提高。特别是《建设工程项目管理规范(GB/T50326一2001)》[1]的为我国的工程项目管理逐步向制度化、规范化、信息化迈进提供了保证。但由于我国的工程项目管理起步较晚,在管理的信息化和管理手段的现代化方面距全面实现计算机辅助管理及咨询决策尚有较大差距。

1 系统主要功能

CPMMIS的基本功能包括工程项目现场管理信息系统、公司的信息管理系统、公司的咨询决策系统三大部分,三个系统运行在一个共享信息的网络平台上。该系统的工作流程与目前工程项目管理的实际情况一致。它既能用于公司内部管理(局域网),也能用于现场项目部的管理(单机或局域网),还能够通过与Internet连接,实现公司对项目部的适时管理;具有一定的决策支持功能。

1.1 工程项目现场施工管理系统

工程项目现场施工管理的主要工作可以概括为“三控两管一协调”,因此该部分主要是为各项目部提供辅助管理的功能模块(日常管理、质量管理、进度管理、成本控制与结算管理、合同管理、生产要素管理等模块),为正确作出决策提供保证,并按规定格式形成报表。

1)日常管理子系统:主要完成施工准备期、施工期、交(竣)工验收及保修期的项目管理工作。主要收集设计信息;施工准备阶段的管理信息(法律法规与部门规章、市场信息、自然条件);工程概况信息(工程实体概况、场地与环境概况、参与建设的各单位概况、施工合同、工程造价计算书);施工信息(施工记录、施工技术资料);项目管理信息(项目管理规划大纲、项目管理实施规划);施工过程项目管理各专业的信息(进度控制、质量控制、安全控制、成本控制、现场管理、合同管理);生产要素信息(材料管理、构配件管理、工器具管理、人力资源、机械设备);项目结算信息;组织协调信息;竣工验收信息;考核评价信息;项目统计信息等。日常管理子系统的另一项工作是及时收集和处理从监理、业主、分包、设计、材料供应等单位送交的报告资料。为了及时、规范地处理这些报告,系统设置了大量的知识库、模板库、素材库,运用基于神经网络的群体决策支持技术[2、3],帮助现场管理人员及时有效地处理有关报告资料。

2)质量管理子系统:主要完成质量目标确定;项目质量计划编制;项目质量计划实施。施工合同签订后,项目部应索取设计图纸和技术资料,指定专人管理并公布有效文件清单。单位工程、分部工程和分项工程开工前,项目技术负责人应向承担施工的负责人或分包人进行书面技术交底。对工程测量、材料的质量、机械设备的质量、工序质量、特殊过程质量、工程变更及施工中发生的质量事故应进行有效控制和处理。同时建立和维护质量检验评定标准、进行原材料质量检验、现场施工质量检查、分项(单元)工程质量数据收集,分项工程、分部工程、单位工程、工程项目的质量评定,施工质量文档管理,质量报表与统计图形输出。另外,还包括质量安全事故分析处理功能模块,如事故调查分析、事故检验分析、事故评价、事故处理等。

3)进度管理子系统:包括项目初始进度(总进度、单项工程进度、分部工程进度、关键工序施工进度)数据的建立和维护、网络计划的形成和优化、计划进度输出、实际进度统计、进度的动态跟踪管理。在施工方案选择、施工进度计划编制和施工平面图设计中,系统运用了基于神经网络的施工方案决策支持系统。

4)成本控制和结算子系统:包括各类计量结算项目编码和查询(如清单项目、工程变更项目、工程索赔项目、其他需要结算的项目)。系统能根据每月分部分项成本的累计偏差和相应的计划目标成本余额预测后期成本的变化趋势和状况,根据偏差原因制定改善成本控制的措施,控制下月施工任务的成本。并能用对比法分析影响成本节超的主要因素。在确定施工项目成本各因素对计划成本影响的程度时,可采用连环替代法或差额计算法进行成本分析。

5)合同管理子系统:包括合同分类、合同目录一览表、合同文本管理(如各类合同条款的建立、修改、查询)、分包工程管理、工程变更管理、工程索赔管理、工程暂停及复工管理、工程延期及工程延误的处理以及争端的调解等。另外还能完成合同数据统计、汇总、查询、打印,与合同管理有关的资料的收集与分析。

1.2 公司信息管理系统

公司的信息管理部分主要完成对各个项目的日常、质量、进度、成本控制与结算、合同管理等方面的监控,以使项目管理活动真正处于“过程管理”状态中。并且通过制定各类各样的工作标准、模板、制度、规定,使项目部的管理工作的标准化和规范化。经现场项目部分析、整理的信息传送到公司的服务器后,经过验证、接收、分类,公司的服务器保存这些信息,公司各部门在公司局域网上进行操作,并及时将公司的审批、签认的意见反馈给项目部。由于公司的数据主要是来自于工地,故采用Internet或磁盘设备传送方式在工地和公司网络间进行数据通讯,以解决工地与公司的信息共享问题。同时,这种工地与公司协同工作的模式也是今后工程项目管理信息化的必然趋势。由于本系统是运行在Internet/Intranet上,在公司内部或公司与工地项目部间还可以利用本系统各种信息,就某一个主题进行讨论。

第5篇

关键词:短文本;信息抽取

中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)15-3691-02

近年来,大量短文本,如电子邮件,网络聊天,网络博客等已经成为信息交流和情感沟通手段,深刻改变了我们的生活习惯和沟通方式。中文的自由短文在比如网络舆情与公安预警等很多领域都有广阔发展前景,虽然英文信息提取技术得到很好研究应用,中文的信息抽取研究较晚,但也取得了一些效果。孙斌在他的博士论文[1]中提出了一种对事件抽取的研究,并且提出了一种InfoX的原型系统。对人民日报语料库中调职、辞职和任命三个事件,召回分别为50%,44%,42%,精度为75%,47%,54%,取得了一些成绩。

但相对长度短,结构各异的中文短文本的提取技术研究则相对更少。

1中文信息抽取方法的研究

目前对中文信息抽取方法的研究主要有以下四种。

1.1基于频繁的词集的方法

该方法的基本思想是,利用关键字出现在多少确定,虽然关键字在一个短文中出现的次数少,但是在总的预料中依然会出现很多次。Sebastiani利用该方法对数字图书馆中关于摘要部分进行了适当的比较[2],最后指出这个方法比较适合中文短文本的分类,但对于噪声大的短文准确度依然不高。

1.2模板匹配法

指在一些特定的模式指导下对于某类事件的识别和抽取,而这个特定的模式是可以通过人工或自动方法来取得的。采用这个方法来进行事件抽取的IE系统一般由两个模块组成分别是信息抽取模块和模式获取模块。

1.3基于语义的方法

song等人提出了一种基于空间概念[3]和流动的信息分类的方法。该方法利用概念之间的关系来确定的语义关系,并使用此语义关系来指导分类,以达到短文本分类结果,这个方法能够得到比一般的向量空间模型好的效果。zelikovitz等提出了一个使用潜在语义索引来对短文本分类方法[4]。该方法定义了潜在的语义索引词之间的语义联系,从而提高了文章分类的准确性。

1.4基于本体的信息抽取

在CNKI中就是使用这种信息抽取的方法,主要原理是,利用本体这个概念抽取出关键字,然后在计算本体概念中这些字词之间的相似度[5]。本体论描述某个领域中所有事物和事物之间的关系,但只有这些认识能得到一个很好的信息抽取吗?答案是否定的。即使我们已经知道了客观世界中某些事物有一定属性,该事物也有一定的属性(例如,狗有四条腿,是一种哺乳动物),我们仍然不知道这一段文字中提取文字说明是本体(狗),以及哪些文字或段落描述这个事物(狗)的属性,更不能由此推理知道短文介绍的是一种哺乳动物。

由此可知信息提取的现有技术不能满足要求。无论从可扩展性和准确性方面,中文短文本信息提取还有待进一步研究。尤其是存在如精度不高,可扩展性不强,高纬度的数据问题等。如何高效、准确提取信息成为短文本信息抽取技术的发展难点,由此文中提出了一种基于中文的HNC的短文本信息提取,过滤,分类,聚类,模板生成算法的开发和研究。

单个短文本由于信息有限,其有价值信息和相关属性有效特征都很难挖掘,因此,我们所说的中文自由短文本信息抽取一般都是针对整个短文本语料,从大量的短文语料库中进行信息抽取,通过词与词之间的相关性,挖掘有价值的信息。这样就是因为短文挖掘不是对某个短文而是对语料库而言,所以我们使用的抽取技术与传统信息处理技术是不同的,相应的关键技术也有较大差异。

2短文本信息抽取流程

图1显示了本文研究的短文本信息抽取流程。

首先,我们进行信息的收集,这些信息来源很多比如先确定大量BBS、QQ聊天信息、论坛等诸如此类有大量短文本网站,然后根据当前热点确定监控内容从而再确定需要跟踪的热点。采用信息自动收集和人工干预模式相结合的网络信息采集,对网络采集到的信息要进行初步处理,即过滤掉某些与热点无关的文本和语句;按主题自动分类、聚类、浅层语义分析等。

其次,利用HNC知识和语义词典,对经过预处理的信息进行深层语义分析(句类分析),包括:主语义块的识别、命名实体识别、语义消歧、指代解析等。最后经过概念建模、语义模板生成、模板匹配得到最终的短文本的结构化信息。

根据图1,提出了如下5点主要技术。

(1)短文本语义词典的构建

语义词典在自然语言处理研究中占有相当关键的位置。首先从语料库中抽取待聚类词的上下文相关的词,并利用信息增益对特征词进行选择,然后借鉴信息检索模型中的TFIDF计算特征向量中每一个特征的权重,最后将构造好的待聚类词的特征向量作为自组织映射神经网络SOM的输入,经过网络的迭代计算将不同类别的词映射在SOM输出网格的不同结点。

(2)短文本多余信息过滤

短文本多余检测与一般文本多余检测最大的不同在于前者要求具有实时性比较高,要求系统能在有限时间内快速处理、更新的短文本语料,这就要求短文本多余检测比一般文本多余检测具有更好的扩展性和更高的效率。

图1

(3)识别短文本中有特定含义的字符串

随着社会发展出现了越来越多的新的词语,在短文本语料库中就有这些词,我们指的短文本定含义的字符串也叫有意义串指的就是这些新的缩写语、术语、词汇等。对短文本语料中有意义串的挖掘,不仅能帮助有关部门及时掌握当前社会舆情,民生关注,社会热点,从而发现社会问题,为维护社会稳定制订相关政策等提供依据,还为语义模板的构造的提供了素材。

根据HNC理论和有意义串局部原理合并同义词和近义词,构造四个二维表:文件-词二维表。

时间-词二维表。

主题-词二维表

地点-词二维表。

(4)语义标注

实验采用HNC和语义角色相结合的语义标注策略。

第一步,语义块感知和句类假设。

第二步,句类检验。运用句类知识对假设的句类进行合理性分析,最终判定句子的句类;

第三步,分析语义块构成。在句类确定的前提下,对各个语义块的内部语义结构进行分析。

(5)关于短文本语义的分类聚类算法的设计

由于短文本中关键词出现的次数不多,即难从“理解”的层次处理用户需求。针对这些问题,本文设计了根据分类原理研究的基于语义的分类聚类算法。

通过以上分析和流程,可得到如下效果:

(1)适用了互联网中大量中文短文本信息自动聚类、主题检测、自动获取、专题聚焦的算法。(2)实现了网络舆情监测和分析需求,对帖吧、聊天室等分析研判后,生产出标准化的人、事、物、组织、地点等信息的情报产品。为公安全面掌握舆情动态,做出正确决策,提供分析依据。(3)F-指数有明显提高。从而达到一定效果。

参考文献:

[1]孙斌.继承—归纳机制及其在对象系统和信息提取技术中的应用[D].北京大学博士论文,2000,6.

[2] F.Sebastiani. Machine Learning in Automated Text Categorization. ACM。Computing Surveys, 2002,34(1):1-47.

[3] D.Song,P.D.Bruza. Based on Information Inference.In proceedings of the 14th International Symposium on Methodolog- ies for Intelligent Systems,2003: 297-306.

第6篇

关键词:Web文本挖掘 特征提取 文本分类 文本聚类

中图分类号:TP39 文献标识码:A 文章编号:1007—3973(2012)009—083—02

1 引言

随着计算机、互联网的迅猛发展,近几年来,互联网已离不开人们的生活。网页上的内容以网页文本的形式存放信息,但网页文本具有半结构化的特点。因此,当今热门的研究方向便是如何快速有效地从Web上获取信息和知识。Web挖掘综合了数据挖掘技术和Web技术,因此,Web文本挖掘不但对经典的数据挖掘技术有着继承,也发扬着自身的各种特性。

2 什么是Web数据挖掘

Web挖掘是利用数据挖掘、文本挖掘、机器学习等技术从Web页面数据、日志数据、超链接关系中发现感兴趣的、潜在的规则、模式、知识。Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。Web挖掘通常被划分为三种主要类型(如图1):Web内容挖掘、Web结构挖掘和Web使用挖掘。

3 什么是Web文本挖掘

3.1 文本挖掘

文本挖掘主要应用于文本摘要的自动获取、文本分类、垃圾邮件过滤、知识库构建、搜索引擎等领域。文本挖掘是从非结构化文本数据中,发现有效、新颖、有潜在价值、并可理解的文本模式的非平凡过程。

3.2 Web文本挖掘

Web文本挖掘是从Web文本的数据中发现潜在的隐含知识。挖掘对象是Web文本。Web文本挖掘涉及领域广泛,是一门交叉性学科。

4 Web文本挖掘的基本流程

Web文本挖掘通常由以下几个步骤完成(如图2):获取Web文本集、Web文本预处理、Web文本特征表示、Web文本特征提取、Web文本挖掘、质量评价、获得知识模式。

5 Web文本挖掘的相关技术

5.1 Web文本集的获取

Web文本集的获取主要通过网络蜘蛛。网络蜘蛛能在各站点之间漫游并根据某种策略获取远程数据,之后保存获取到的文本集,便于接下来深入的分析工作。

深度优先和广度优先是网络蜘蛛获取文本一般使用的两种策略。网络蜘蛛从起始页开始,顺着每一个链接一直抓取下去,处理完后再转入接下来的起始页,继续对链接进行如此地抓取,这种方式是深度优先,其优点是比较容易实现。网络蜘蛛先抓取起始网页面里的所有链接,然后选择其中的一个链接,继续抓取在此页面里的所有链接,一直按照这种抓取方式迭代访问下去,这种方式是广度优先,其优点是可以并行处理,提高网络蜘蛛的抓取速度。

5.2 Web文本预处理

Web页面除了包含网页的内容信息之外,还包含一部分与主题内容信息无关的信息,这种信息称作“噪音”。因此,为了更好地分析文本内容,应该将“噪音”信息予以过滤。网页过滤的目的是去掉网页上包含“噪音”的内容,保留网页中包含主题信息的内容块,最终达到消除冗余、精简数据的目的。

5.3 Web文本的特征表示

不同于数据库中的结构化数据,Web文本中的数据是半结构化的。这些半结构化数据不符合现有数据挖掘所要求的格式规范,因此无法直接使用数据挖掘技术对其进行挖掘。所以在挖掘之前,需要对Web文本中的数据以结构化的形式进行特征表示,作为半结构化文本和Web挖掘的中间表示形式。

用一定的特征项(词条)来表示半结构化的文本信息,这一过程就称作特征表示。其常用的模型有:布尔模型、向量空间模型、概率模型等。向量空间模型是近几年来应用较多而且效果较好的模型。它将每个文本看成是由一组词条(T1,T2,…,Tn)构成,对于每个词条(Ti),都根据它在文本d中的权重赋予权值Wi。

因此,对于所有的需要被挖掘的文本都能用特征向(T1,W1(d),T2,W2(d),…,Tn,Wn(d))表示。其中,Wi(d)被定义为词条Ti在文本d中出现的频率tfi(d)的函数,即:Wi(d)= (tfi(d))。Wi(d)的常用函数一般有:对数函数、布尔函数、平方根函数及TFIDF函数。TFIDF函数使用较为普遍。

此函数的优点是可以过滤掉常见的词语,保留重要的词语。缺点是没体现出Web文件的位置信息和html文本的结构特点,因此应当考虑在Web文本中不同html标签结构下赋予不同的权重。

5.4 Web文本的特征提取

特征表示之后,我们会发现,向量空间的维数异常大,因此需要进行降维工作。目前选取的方法是先构造一个评价函数,然后对特征集中的每一个特征项进行评估,得到一个评估分,最后对所有的特征项按照各自的评估分进行排序,设定一个阈值作为选取高评估分特征项的数目,最终结果作为选出的特征子集。词条频度、文本频度、信息增益、互信息、几率比、期望交叉熵是一般使用的评估函数。

5.5 Web文本分类

文本分类是一种有指导的机器学习,通常分为以下两个阶段:

(1)训练阶段:1)根据已有的类别,确定类别集合C={c1,…,ci,…,cm};2)选择一些具有代表性的Web文本,得到训练文本集合S={s1,…,sj,…,sn};3)对于S中的每个训练文本,确定它的所属的类别ci;4)抽取训练文本sj的特征,得到特征向量V(sj);5)统计S中所有文本的特征向量,确定其代表的类别集合C中每个类别的特征向量V(ci)。

(2)分类阶段:1)计算测试文本集T={d1,…,dj,…,dn }中每一个待分类文本dj的特征向量V(dj),再计它算与每个V(ci)的相似度sim(dj, ci);2)将相似度最大的类别选择作为dj所属的类别。当计算的类别与预定义类别不匹配时,则应当对预定义类别进行修改,再重新进行以上过程。

计算sim(dj, ci)时,求两个特征向量之间的夹角余弦是常用的方法,即:

sim(dj, ci)=

支持向量机、神经网络、最大平均熵、最近K—邻居和贝叶斯方法也是常用的分类算法。

5.6 Web文本聚类

基于内容的Web文本聚类是Web内容挖掘的重要组成部分,它以Web页面内容为挖掘对象,以页面中词语信息作为特征,利用无监督的方法,在没有训练样本的情况下,自动产生分类结果。

根据聚类结果不同,可将聚类方法划分为:层次聚类法和平面聚类法。

(1)层次聚类过程:1)对于文本集合D={d1,…,di,…,dn},以每一个文本di作为一个聚类中心ci,形成文本的聚类集合C={c1,…,ci,…,cn};2)计算C中每对聚类的相似度sim(ci, cj);3)选取相似度最大的两个聚类合并成一个新聚类cr,构成文本的一个新的聚类集合C={ c1,…,cr,…,cn—1};

重复以上步骤,根据所需的聚类数目和相似度的阈值,得到最终的聚类结果。

(2)平面聚类过程:1)确定聚类数目n,计算D中每个文本特征向量V(di);2)从D中抽取n个文本形成聚类中心S={s1,…,sj,…,sn};3)依次计算D中剩下的文本与各聚类中心的相似度sim(di, sj);4)根据设定的相似度阈值,聚集文本在聚类中心周围,最终形成聚类结果。

平面划分法运行速度较快,它将文本集合水平地分割为若干个聚类,而不是层次化的嵌套聚类,但它必须先确定聚类数目取值。另外,种子选取的好坏程度对聚类结果的影响较大;层次聚类对文本集合中的每一个文本进行了多次遍历,是最常用的聚类方法,具有很高的准确度。

6 Web文本挖掘模型

本文在设计挖掘模型的过程中提供信息表示与导航的功能。为了使用户能够清晰、明了地查询和浏览自己感兴趣的信息,并更快速地接受信息,可以使用可视化图形界面的信息表示与导航技术,如图3。

7 结束语

Web挖掘是Web技术中一个重要的研究领域,Web文本挖掘又是Web挖掘的重要代表,它是数据挖掘研究领域中的一个重要课题,也是Web技术和数据挖掘技术相结合的新技术,并应用于网络知识发现的过程。Web文本挖掘为网络智能化奠定了基础,也使得网络上大量的具有价值的信息得到了充分的利用。

参考文献:

第7篇

关键词:数字图书馆;计算机技术;应用模块;数据挖掘;网格技术

1数字图书馆概述

“数字化”的生活模式伴随着科技的发展应运而生,人们也越来越适应并习惯了这种生活模式,数字图书馆的出现使得人们对它的需求越来越高,同时它也直接关系着当代图书馆的生存与发展。而数字图书馆的概念是由美国的一位学者在研究图书馆的时效性时提出来的,它就是一个信息化的平台,拥有着全球性的知识资源和媒体内容,一方面能够使用户及时的了解到全球的讯息,另一方面用户使用搜索功能可以搜索到一些多样化的信息。而其中关键性技术的应用与研究成为了当今国内外IT界和图书馆界研究的热门技术。而评价一个国家信息基础设施好坏的标志之一就是数字图书馆的建设。数字图书馆作为一种高新技术的产物,涉及到了以下技术:数字化处理技术、超大规模数据库技术、网络技术、多媒体信息处理技术、信息压缩与传送技术、安全保密技术、自然语言理解技术等。本文主要介绍了网络技术、数据挖掘技术、Agent技术。

2数据挖掘技术的应用研究

2.1数据挖掘的基本概念

数据挖掘也可以叫作数据库中的知识发现,它是指从大量的数据中通过算法搜索隐藏于其中信息的过程。其一般与计算机科学有关,可以通过统计、在线分析处理、情报检索、机器学习、专家系统及模式识别等多种方法来实现所要达到的目标。数字图书馆的数据挖掘对象是挖掘出其中的大型数据库、数据仓库以及大量的网络信息空间,通过对这些数据的统计分析和总结,可以找到数据间内在的关系,进而可以预测到未来发展的趋势。数据挖掘涉及到了很多前沿的学科,比如数据库、数理统计、人工智能、神经网络等,这是当今国际上最高端的技术研究之一了。

2.2数据挖掘技术的方法

2.2.1数据挖掘数据挖掘是一种面向数值数据的方法,它是用人工智能、机器学习、统计学、数据库的交叉方法在一个较大的数据集中发现模式的计算过程,是一门跨学科的计算机科学分支。它的目标是从一个数据集中提取信息,然后将其转换成可理解的结构,以此进一步使用。数字图书馆的建设基础就是数据挖掘,利用多种数据挖掘算法,通过数字处理和研究数字模型的变化,以此来进行总结得到数据的变化情况。

2.2.2基于Web的数据挖掘Web数据挖掘是数据挖掘在Web上的应用,它是利用数据挖掘技术抽取出与Web有关的一些感兴趣的、有用的资源信息、行为及模式,涉及到了多个研究领域的技术,在挖掘内容的过程中,我们一般从以下两个角度进行着手分析:一是对文本文档进行挖掘,二是挖掘多媒体文档。在调整数字图书馆的网页时一般都用追踪和个性化使用记录的全面追踪这两种模式来保证给用户提供个性化的服务。

2.2.3文本数据挖掘文本数据挖掘是指从文本中挖掘出有一定价值的信息和知识的计算机处理技术,挖掘的对象的数据类型全是由文本类型组成的,在对巨量文本信息进行自动化信息分析与处理所使用的方法是利用数据挖掘算法和信息检索算法来实现的。文本挖掘方法主要包含以下几种:文本分类、文本聚类、信息抽取、摘要、压缩。为了能够更加更好的丰富图书馆的信息量,处理好文本的摘要和数据,提高数据挖掘的精确度,可以利用文本数据的挖掘和传输来实现。

2.3利用数据挖掘实现数字图书馆的个性化服务

实现数字图书馆的个性化服务是通过把挖掘技术应用到数字图书馆建设中,一方面可以通过提高数字图书馆的建设标准来增强各方面的服务质量,另一方面还可以有效的巩固信息资源的建设力度。在信息用户掌握信息使用的行为、习惯、偏好等时,个性化的服务可以为用户提供满足其所需要的一些相关服务,主要是两个方面:一是个性化,二是主动服务。其原理是根据不同的用户不同的需求使用不同的服务办法来进行针对性的服务,系统不需要用户去做什么就可以给用户提供相对应的服务,通过简化用户的操作来达到个性化服务。个性化服务主要表现在以下几个方面:数据挖掘服务、个人书架、个性化检索、信息分类定制及推送、虚拟咨询服务等。

3网格技术的应用

3.1网格技术在数字图书馆中的应用

在数字图书馆的建设中,网格技术是一种不可或缺的技术,为了确保数字图书馆的完整性和较好的服务性,就要利用网络来调节因数字的变化而造成的改变,而数字图书馆建设拥有良好基础的前提就是在网格技术应用过程中要结合信息资源建设网络基础设施,并在后期结合相关的Web技术方法,以图书馆的基础架构作为基础,搭建一个良好的可以实现资源信息共享的信息技术平台,整合网络各方面的资源,在统一管理的基础上实现良好的信息服务。

第8篇

[关键词]面向主题 Web信息融合 模型 技术

[分类号]G354

1、引言

随着Web2.0技术的发展,企业运作日益向Inter-net扩展,企业Web信息的容量和多样性呈爆炸式增长,Web信息日益成为企业决策的重要依据。由于Web信息具有半结构化和非结构化的特征,Web信息的急剧增长在为人们获取所需信息和知识带来更多机遇的同时也带来了更大的挑战。传统搜索引擎的性能已达到极限,其基于关键词匹配排序来检索Web信息的工作原理存在检索结果信息冗余和不精准的问题,无法满足用户基于主题查询的需求,更无法适应企业决策的需要。信息融合借鉴人脑的工作原理,利用计算机对具有相似或不同特征的多源数据和信息进行处理,为用户提供统一的信息视图和可综合利用的信息。信息融合技术已在生物、经济和军事等领域得到广泛应用。信息融合技术为Web信息处理提供了新的途径,但其研究成果主要针对结构化数据。

现有Web信息融合研究主要集中在多源Web信息检索融合和多Web文档的知识融合两方面,对应于传统信息融合中的数据级融合和特征级融合,不支持信息的多维度和多粒度查询与综合分析,远远不能满足用户从Web有效获取信息进行决策的需要。

2、国内外研究综述

2.1 信息检索融合

信息检索融合将多个搜索组件的文档结果集视为多源证据,综合利用和声效应、撇取效应和/或黑马效应,基于综合评分或排序对多源结果集中的文档进行优化组合,为用户提供更高质量的搜索结果。采用的主要方法包括:

2.1.1 基于统计的方法 分为评分融合和排序融合两类。评分融合算法根据各源(即搜索组件)的性能赋予其权重,用线性组合计算出现在多源结果集的文档的综合评分,将综合评分最高的N个文档返回给用户,如WebFusion算法。基于排序的融合算法对多源结果集按相关度排序后采用轮循的方式从结果集抽取文档返回给用户,如SR融合算法。

2.1.2 基于人工智能的方法 主要是利用人工神经网络等人工智能技术进行文档聚类与模式识别。如文献利用人工神经网络自组织映射(sOM)算法对Web网页进行聚类,识别各类主题之间的关系,从而实现搜索结果的聚合。

2.1.3 基于统计和人工智能的混合方法 基于统计的方法中文档评分函数的形式,文档的内容、链接和结构三方面各自的权重,以及各搜索组件的权重对融合结果有很大影响,通常结合人工智能的方法确定,如文献采用模式识别和启发式学习调整搜索源权重。

2.2 基于多文本的知识融合

基于多文本的知识融合将搜索结果集中的多个文档视为多源证据,主要利用语义本体和自然语言处理技术分析多个文档,利用基于逻辑的规则、基于本体的映射与合并消除其中的知识冗余、知识不完整性和知识冲突,为用户提供具有一致性的知识。根据处理对象的结构化程度可分为半结构化文本的知识融合和非结构化文本的知识融合。

2.2.1 半结构化文本的知识融合 主要对XML格式的信息进行融合。如文献采用语义本体技术构建了面向半结构化信息(XML格式)的知识融合模型,文献提出了一种将融合规则与知识库相结合的对半结构化信息进行融合的方法。

2.2.2 非结构化文本的知识融合 主要对HTML格式和其他文本格式的信息进行融合。大致可分为两类:一是基于Web的本体学习,从网页学习本体概念及概念间关系、获取概念属性和填充本体实例;二是多文档的自动摘要系统,核心问题是摘要旬的抽取与融合。

2.3 面向决策的信息融合

这方面的研究成果很少。中国科学院Yu L等人提出面向Web挖掘的信息融合工具――Web仓库,设计了Web仓库体系结构和EFML处理模型,在信息的融合上采用中介模型。但作者的讨论仅限于Web仓库的概念模型与工作机制,没有深入讨论具体的信息融合模型与方法。

2.4 研究现状总结

总结国内外研究现状,Web信息检索融合的研究成果相对成熟。由于半结构化文本实现模式(Sche-ma)映射相对容易,结合融合规则和知识推理可以获得较好的半结构化文本知识融合效果。较困难的是非结构化文本的知识融合,原因在于机器理解自然语言仍有难度,目前的自动摘要系统会产生较大的信息损失。基于文本的语义标注进行知识融合是解决问题的一种途径。现有Web信息融合算法基本上都是面向Web查询设计的,不支持多粒度与多维度查询,无法满足决策支持的需要。面向主题的Web信息融合模型与技术是亟待研究和解决的问题。

3、面向主题的Web信息融合模型设计

面向决策的信息融合必须支持信息的多粒度与多维度查询和分析,其关键基础是多维信息模型的构建,并通过维度的分类关系(即对维度继续细分得到新的子维度)反映信息的多粒度特征。由于Web信息融合的对象,即Web信息,具有半结构化和非结构化特征,无法直接用于决策支持,其关键是找到一种有效的方法,根据决策主题对相关Web信息进行融合且融合的结果能按多维信息模型进行组织,同时在多维信息模型的基础上可以进一步进行信息的多粒度、多维度融合,以满足决策支持的需要。基于上述原理设计的面向主题的Web信息融合模型如图1所示:

3.1 Web仓库模型

包括Web文档本体模型、Web仓库信息结构模型、基于代数的操作语言三个方面,具体原理如下:

3.1.1 Web文档本体模型建立Web文档本体元模型,设计包括Web文档本体元模型、Web文档概念层、Web文档属性层(包括概要属性、链接与结构属性、内容属性和信任属性)、Web文档实例的四层结构框架模型,为非结构化信息向结构化信息的转换提供语义范式,并利用该本体的元模型机制实现面向不同主题的扩充。

3.1.2 Web仓库信息结构模型 采用多维信息模型组织信息,以本体概念为中心,将本体的属性映射为维度,将本体概念的继承与包含关系映射为维度的分类关系,设计Web模式,构建事实表和多个维表的星型结构。利用语义模型到多维信息模型的映射关系将Web文档本体实例装载入Web仓库。

3.1.3 基于代数的操作语言 利用语义模型到代数系统的映射将基于语义的查询转换为面向关系模型的查询,设计基于代数的操作语言和映射算法将基于语义的查询等操作映射到代数系统的集合操作;设计基

于一阶谓词逻辑的概念和属性约束,用一阶谓词逻辑的子句归结方法判定组合约束的真假实现选择运算。

3.2 Web信息融合功能模型

该模型为具有反馈优化机制的“信息检索融合――属性级融合――概念级融合――决策级融合”的四级融合功能模型,基于Web仓库实现Web信息的多粒度与多维度融合。其基本工作原理是:首先利用面向主题的信息检索融合技术检索Web网页,利用本体学习技术从Web网页生成本体实例,并装载入Web仓库;然后根据用户的查询分析需求,在Web仓库已有多维度信息的基础上,进一步利用本体概念的多粒度关系和本体实例的合并消重算法,在属性层级、概念层级或综合概念与属性层级实现信息的钻取、切片、切块和旋转等操作,实现Web信息在属性级、概念级、综合概念与属性的决策级进行多粒度、多维度融合,以提供满足用户需求的信息融合结果。

3.2.1 功能模型 具有自我优化机制的闭环结构信息融合功能模型,定义各级功能实现的输入输出及各级功能的依赖关系,具有基于评估反馈的自我优化机制,能够分析评估反馈结果与各级融合参数和融合规则的关系,并能根据评估反馈结果实现融合参数和融合规则的自动或半自动调整。

3.2.2 主要算法 主要包括与功能模型相对应的各级融合算法以及本体实例填充算法。①与功能模型相对应的各级融合算法:在已有信息检索融合算法的基础上引入信任评价机制,综合信息源信任度、文本相似度和搜索组件权重三个方面的信息检索融合算法;基于多文档的相同概念相同属性的属性值归并融合算法;基于本体概念上下位关系的属性级多粒度融合算法;基于本体属性合并的概念级多粒度融合算法;基于图理论、本体概念合并、本体属性合并和本体实例消重的决策级融合算法。②本体实例填充算法:把每个文档视为本体实例,重点解决本体实例概念和属性的学习问题,其中概要属性如所在站点、创建时间等概要信息通过URL和HTTP响应信息获取;链接与结构属性通过文本分析器分析获取;信任属性由人工赋初值后基于反馈机制调整;设计基于SOM和层次凝聚的聚类算法获取实例概念及概念间关系,设计基于文档模板匹配和句法模式分析的算法获取内容属性。

3.3 人机交互接口

负责用户与融合功能模型层之间基于语义进行交互,其实现形式是语义浏览器。语义浏览器以图形化的方式显示本体,用户通过对本体进行操作来表明面向主题的查询与分析需求,用户请求被封装成基于语义的形式后提交给融合功能模型层,融合功能模型层返回查询分析结果给用户并且可以让用户追踪到融合的相关原始Web信息。

4、原型系统实现

面向服装行业企业主题,满足服装行业按企业和产品进行综合分析决策的需要,构建Web信息融合原型系统。该系统架构如图2所示:

主要包括数据中心、融合功能、系统管理、应用开发接口和用户接口五个部分,信息源为Web文档。整个系统基于Tomcat+MySQL+Jena实现。Web文档模型本体和服装本体采用Protege工具构建并存储在MySQL数据库中,通过Jena的ARQ查询引擎采用SPARQL查询语言进行查询;融合规则的前项和后项以数据表的形式存储在MySQL数据库中;Web仓库则采用MySQL数据仓库引擎InfoBright实现。Web仓库模式依据服装本体的“概念――属性”关系建立,目前根据“企业”和“产品”概念建立了两个事实表,并分别根据“企业”概念和“产品”概念的属性建立了以事实表为中心的维表,实现了本体实例填充算法和基于概念上下位关系的多粒度融合算法,用户能够根据不同概念和属性粒度实现融合结果的查询。按产品分级(服装产品――男装――休闲衬衫)检索的融合结果如图3所示:

第9篇

关键词 欺诈识别; 数据挖掘; 机器学习; 分类

1 引言

随着世界经济的不断增长和信息技术的迅猛发展,全球的信用卡使用量持续上升,信用卡已成为支付领域的主要媒介。截至2004年底,美国的信用卡发行规模达到6.57亿张,平均每个家庭拥有6.3张信用卡。在零售业的所有客户支付工具中,借记卡和贷记卡的交易额已经超过了总交易额的50%,大有取代现金和个人支票交易的趋势。而我国从2003年开始,各大银行都把信用卡的发行作为业务重点,宣传战、产品战、地域战随处可见,信用卡规模急速扩大。发达国家的经验显示,随着发卡量的增大,信用卡的欺诈风险将直线上升,由于信用卡欺诈而给银行造成的损失也将居高不下。据Visa和MasterCard两大信用卡联盟的统计,全球信用卡欺诈涉及金额已超过100亿美元[1]。如何加强对信用卡欺诈的识别和防范,将成为银行风险控制的一个焦点。

对于处于“跑马圈地”阶段的我国银行业,能否未雨绸缪,及时的建立一套信用卡欺诈识别和防范体系,既是我国信用卡业务健康发展的重要保障,又是一项兼有前瞻性和现实性的有益探索。

2 信用卡欺诈风险与欺诈识别模型研究

信用卡的欺诈风险是指持卡人由于遭人冒申请、盗领、伪造、失窃等原因而发生损失的风险。由于欺诈风险所造成的损失绝大部分都由发卡行承担,因此对信用卡欺诈的识别和防范是银行风险控制的一项重要内容。

从欺诈者在信用卡交易中的不同角色进行分类,信用卡欺诈可以分为商家欺诈、持卡人欺诈和第三方欺诈[2]。商家欺诈来源于合法商家的不法雇员或者与欺诈者勾结的不法商家。在现实中,商家雇员有条件接触到顾客的卡信息,甚至持卡离开顾客的视线,这都给不法雇员带来了复制或保留卡信息的机会。持卡人欺诈是由不道德的真实持卡人进行的,通常是持卡人充分利用信用卡的责任条款,在收到货物后称没有进行交易或者没有收到货物。第三方欺诈是目前信用卡欺诈的主要形式,是指不法分子非法获取他人信息,并利用这些信息伪造或骗领信用卡进行交易。由于非法获取信息的渠道较多,欺诈方式也不尽相同。

按照不同的欺诈手段,信用卡欺诈又可以分为身份盗窃欺诈、未达卡风险、遗失被窃风险、道德风险、欺诈犯罪风险五种[3]。

由于信用卡欺诈带来了巨大的风险和损失,因此银行一直在寻求一个行之有效的欺诈识别模型。最初是利用业务人员的经验知识对欺诈交易进行手动识别,但是随着信用卡发卡量的大幅增长和交易量的不断提高,信用卡欺诈愈演愈烈,且由于欺诈手法的不断翻新,业务人员很难迅速有效的从海量交易记录中觉察出欺诈交易。这时,需要有一个能对持卡者和信用卡交易进行快速判断的模型或系统来辅助业务人员的工作,而基于判别分析和回归分析的统计方法能通过给持卡者或信用卡交易进行信用评分的方式来识别欺诈交易,得到了广泛的应用。近年来,数据挖掘技术的兴起使人们开始关注基于数据挖掘技术的信用卡欺诈识别模型。利用数据挖掘中的分类方法,可以通过建立一个分类模型来准确的将欺诈交易和非欺诈交易区分开来,从而为欺诈防范和风险控制提供决策支持。人工神经网络[4][5][6]、决策树[7]等分类算法在欺诈识别上都进行了有益的尝试,取得了较好的预测效果。但是单一分类器的分类效能相对有限,不能得到一个很高的分类准确率,本文试图利用组合分类器来建立一个更为准确的信用卡欺诈识别模型。

3 组合分类器与AdaBoost算法

实践中人们发现,分类算法实际上对样本集是敏感的,也就是说,在不同的训练样本和测试样本上,或者是在相同样本的不同特征空间上,同一分类器会有不同的表现。没有哪种分类算法是最优的,但是将多个分类器组合起来却能有效的提高分类的精度[8]。

所谓组合分类器是指几个分类器通过某种策略组合在一起对某个事例进行分类。组合的策略可以是模型组合,可以是不同的算法组合,也可以通过对样本取样,变化事例空间,构造不同的分类器,然后按照一定的加权方法对分类器进行组合,得到最后的分类器。组合分类器的应用,克服了单一分类器的诸多缺点,如对样本的敏感性,难以提高分类精度等等,在字符识别[9]、文本分类[10]、面部表情识别[11]等领域已经获得了较好的应用效果。

AdaBoost[12]是Boosting算法的一种,其主要思想是给每一个训练样本分配一个权重,表明它被某弱分类器选入训练集的概率,初始时权重设为1/m,m为样本个数。用一个弱分类算法在训练集上进行训练,训练后对样本权重进行调整,训练失败的样本权重增大,训练成功的样本权重减少,使分类算法能在下一轮训练中集中力量对训练失败的样本进行学习。然后,在权重更新后的训练集上继续训练,不断调整样本权重,循环往复,从而得到一系列的弱分类器。这些弱分类器就构成组合分类器,组合分类器最终预测结果的产生采用了有权重的投票方式,而权重就是各个弱分类器的准确率。这种方法不要求单个分类器有高的识别率,但经过多分类器融合的组合分类器则具有了高的识别率。

AdaBoost算法过程如下:

在多数情况下,只要每个分类器都是弱分类器,即分类准确率超过50%,比随机猜想好,那么组合分类器的训练误差就能随着T的增大而变得任意小,同时,在T很大的情况下也很少会发生过拟合(Over fitting)现象。

4 基于AdaBoost的信用卡欺诈识别模型

4.1 建模思路

信用卡欺诈者的消费行为习惯通常与真实持卡人会具有较大的不同,而持卡人的账户数据和交易数据在很大程度上能反映和刻画消费习惯和模式,因此可以将账户资料和交易资料作为输入变量来建模。

由于欺诈交易只是少数,因此样本集中存在着两类样本的不对称分布(Skewed Distribution)问题。首先要对样本进行处理,并进行必要的数据预处理过程,然后再进行模型的训练。

AdaBoost是通过弱分类器在样本集上的多次训练来得到组合分类器的,这里选择C4.5决策树算法作为其中的弱分类算法。为了比较AdaBoost算法与单分类器的分类效能,本文分别利用C4.5算法和C4.5+AdaBoost来建模,得到一个基于C4.5算法的单分类器和一个基于AdaBoost的组合分类器。

4.2 实证过程

本文以国外某商业银行的信用卡真实交易数据为研究对象,从数据库中抽取679位信用卡持有人的21,858条交易记录构成样本集。其中非欺诈交易19948笔,欺诈交易1910笔,分别将其Fraud属性标记为0和1。仅根据交易的相关信息是很难准确判断是否为欺诈交易的,因为消费习惯和模式与持卡人的特征属性有较大的关联关系。因此本文将描述持卡人特征的一些属性也参与建模,这样每个样本就有了62个属性。再根据业务经验,去掉与欺诈无关或相关性极小的属性,最终确定35个相关属性作为模型输入。

从样本数量分布上看,两类样本存在着严重的不对称分布问题,如果直接在这样一个样本集上进行模型训练,会使模型偏向非欺诈交易,识别欺诈交易的能力变差。为此,这里采用减少多数样本(Under-sampling)的方法,即从非欺诈交易样本中随机选取与欺诈交易数量大致相当的部分样本,来与欺诈交易样本组成一个两类样本数量相当的样本集。同时,将这一样本集按照7:3的比例分成训练集和测试集,分别用作模型的训练和测试。

实证研究以Windows XP为平台,数据存储在MS SQL Server 2000中,实验工具为WEKA数据挖掘软件。WEKA是由新西兰Waikato大学的研究人员开发的一个数据挖掘工具(cs.waikato.ac.nz/ml/weka/),目前的最新版本是3.4.7。其中包含了大量的数据挖掘算法,能进行数据的预处理和分类、聚类及关联规则分析,也具备较好的可视化展示能力,十分实用。

4.3 实证结果分析

在信用卡的欺诈识别研究中,存在两类错误,一类是把欺诈交易错误预测为非欺诈交易,可以称之为第一类错误或者False Negative错误,另一类是把非欺诈交易错误预测为欺诈交易,称之为第二类错误或False Positive错误。从图1的混淆矩阵看,第一类错误率(False Negative Rate)为 ,第二类错误率(False Positive Rate)为 。由于仅用准确率 只能反正模型的总体准确率,而不能全面反映模型对两类样本的不同预测能力,因此本文采用两类错误率来评估模型。

图1 混淆矩阵

模型训练完成后在测试集上进行测试,结果如表1所示。

表1 模型测试结果

第一类

错误率第二类

错误率两类错误率

平均

C4.5单分类器14.49%18.50%16.50%

AdaBoost组合分类器9.25%8.55%8.90%

实证结果表明,基于AdaBoost组合分类器的欺诈识别模型比基于C4.5决策树单分类器识别模型具有更精确的预测能力,两类错误率都有较大幅度的下降。

5 结论与展望

实证研究表明,基于客户资料和交易相关数据并利用AdaBoost算法建立的信用卡欺诈识别模型能较为准确的预测交易是否为欺诈交易。如果基于这一模型建立银行的信用卡欺诈识别系统,就能使银行在信用卡交易发生后的较短时间里预测出交易的欺诈可能性,从而能有目的的采取一系列反欺诈策略,在欺诈者造成较大损失之前就积极加以防范,有效的降低银行的风险。

但是,本文提出的欺诈识别模型还存在一定的不足之处,需要在今后的研究中加以改进。首先,本文对样本不对称分布的处理采取了减少多数法,这样虽然能得到一个分布对称的样本集,但是损失了很多多数样本的信息。其次,本文没有考虑到两类错误的不同代价问题。在欺诈识别问题中,将欺诈交易预测为非欺诈交易和将非欺诈交易预测为欺诈交易在代价上相差很大,这就要求模型在第二类错误率相对合理的情况下具有极低的第一类错误率。

参考文献

[1]

陈雷. 国际信用卡欺诈与预防[J]. 中国信用卡, 2004, (6): 43-47

[2]

苗绘. 信用卡欺诈及其防范[J]. 金融教学与研究, 2005, (4): 31-35

[3]

陈建. 信用卡的反欺诈管理[J]. 中国信用卡, 2005, (8): 20-24

[4]

E. Aleskerov, B. Freisleben, B. Rao. CARDWATCH: A Neural Network-Based Database Mining System for Credit Card Fraud Detection. Proc. of the IEEE/IAFE on Computational Intelligence for Financial Engineering, 1997: 220-226

[5]

M. Syeda, Y. Zhang, Y. Pan. Parallel Granular Neural Networks for Fast Credit Card Fraud Detection.

Proc. of the 2002 IEEE International Conference on Fuzzy Systems, 2002

[6]

盛昭瀚,柳炳祥. 一种基于粗集神经网络的欺诈风险分析方法[J]. 应用科学学报, 2003, (2): 209-213

[7]

A. Kokkinaki. On Atypical Database Transactions: Identification of Probable Frauds using Machine Learning for User Profiling. Proc. of IEEE Knowledge and Data Engineering Exchange Workshop, 1997: 107-113

[8]

T. G. Dietterich. Ensemble Methods in Machine Learning[A]. In: Springer-Verlag. Workshop on Multiple Classifier Systems.Lecture Notes in Computer Science [C]. 2000, 1857(1): 1-15

[9]

L Xu, C. Krzyzak, C. Suen. Methods of Combining Multiple Classifiers and Their Applications to Handwriting Recognition [J]. IEEE Trans on Systems, Man and Cybernetics, 1992, 22(3): 418- 435

[10] Robert E. Schapire, Yoram Singer. BoosTexter, A boosting-based system for text categorization[J]. Machine Learning, 2000, 39(2/3): 135-168

第10篇

[关键词] 改进CBA算法; 煤矿安全预警; 数据准备

1 前言

在数据挖掘领域中,分类技术的应用最为普遍,利用分类计数,可以根据一组类别已知的数据来确定分类模型,并在此基础之上对新数据类别进行预测。当前,分类技术在图像处理、医疗诊断以及文本分类等领域中被广泛应用。实践中较为常见的分类方法主要有决策树、关联分类以及贝叶斯等,其中关联分类算法简单易用,精准度较高,在各个领域中备受关注。近些年来,随着相关研究的日益深入,有些研究人员在分类算法基础之上提出改进方案,经过改进的分类算法的效率有显著提升,分类效果更佳优越。本文将对煤矿安全预警管理中对改进的分类算法的应用展开探讨。

2 改进的CBA算法

关联规则挖掘发现(CBA)大量数据中项集之间有趣的关联或相关联系。如果两项或多项属性之间存在关联,那么其中一项的属性就可以依据其他属性值进行预测。它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。最著名的关联规则发现方法是R・Agrawal提出的Apriori算法。关联规则挖掘问题可以分为两个子问题:第一步是找出事务数据库中所有大于等于用户指定的最小支持度的数据项集;第二步是利用频繁项集生成所需要的关联规则,根据用户设定的最小置信度进行取舍,最后得到强关联规则。CBA分类算法的主要思路为:先依据关联算法Apiori,将右部为类别的关联规则确定下来,此种规则就是CAR规则;之后,通过排序及测试等环节将最适合的CAR确定下来,并用其对训练集进行覆盖。CBA分类算法主要包括规则生成算法CBA-RG以及分类器构造算法CBA-CB。

经过数据的预处理以及离散化后的决策信息表S=(U,C∪D), U={x1,x2,…,xn}为训练的样本集,C={?琢1,?琢2,…,?琢n}则为决策属性集。

3 改进CBA算法在煤矿安全预警中的应用

3.1 煤矿井下安全监测预警系统

鉴于煤矿生产过程的特殊性,普遍在井下设置安全预警系统。煤矿井下安全预警系统主要组成部分包括:煤矿井下分站、传感器、执行器构成的工作站点、相应的环境参数及生产参数等,其中,环境参数主要涉及到煤矿井下的瓦斯、风速、一氧化碳、负压、温度、湿度、通风状况、粉尘浓度以及烟雾情况等;生产参数主要涉及到煤仓煤位、带式输送机的启动及停止、水仓水位、压风机风压以及相关机电设备的启动及停止等。煤矿井下安全预警系统的各个构成部分自身具有一定独立性,可以独立开展相应的工作,与此同时,还可以与小分站进行挂接,对煤矿生产过程中的居于安全生产环节实施监测,从而在一定程度上促进了系统应用范围的进一步扩大。

对于煤矿井下安全监测预警系统而言,数据库是一个极为关键的构成部分,其主要发挥存储功能,用来对安全监测系统所监测到的相关数据以及重要操作事件参数进行保存,对于用户而言,可以从自身实际需求出发,对保存期限进行灵活设定,数据库为用户开展二次开发以及追述事件创造了便利条件。在数据维护方面,可以进行定时更新及保存设置,从而可以将超出所设置的保存期限的相关信息资料自动予以删除。

在实践当中,对煤矿安全预警造成影响的因素相当多,诸如煤矿井下矿压、粉尘浓度、水、火以及瓦斯等因素都会在一定程度上给煤矿安全预警造成影响。借助关联规则挖掘技术,可以针对上述影响因素记录集合开展相应的数据挖掘。

3.2 数据准备

在煤矿生产领域中所采用的智能井下安全预警系统,可以完成煤矿作业过程中的实时数据采集工作,所采集到的实时数据具有显著特点,数据多维性、数据异构性、不完全性、随机性以及模糊性等,井下安全预警系统所采集到的实时数据无法直接开展数据挖掘,必须先进性前期处理,利用面向空间数据的概化法对采煤、煤层瓦斯含量、工作面日产煤量以及煤层厚度等相关的属性指标进行挖掘。根据我国煤矿安全规程的相关要求,以危险性程度为依据,可以将矿井划分为三大等级,分别是较弱、中等以及严重等三个等级。以开采深度为依据可以将数据库细分为三个子库,第一个子库开采深度在-150m到120m范围之间,子库二开采深度在-200m到-150m之间;子库三的开采深度则低于-200m。对三个子库分别进行关联规则挖掘,以子库一为例,将开采深度排除考量范围,数据子库详见下表所示。

设support=15%,利用Apriori算法确定大项集,在此基础之上设confidence=70%,确定强规则,即:{瓦斯含量为2.0m3/t―危险等级为1}以及{瓦斯含量为2.5m3/t―危险等级为2};如果设定support=2%,confidence=70%,则所得出的强规则为:{瓦斯含量为3.5m3/t―危险等级为3}。虽然该规则的支持度相对有限,然而对安全危险等级影响较大的相关因素对于煤矿安全隐患的准确预测极为关键。在D2以及D3中同样采用该方法,可以推导出有效的挖掘规则。

4 结语

本文首先介绍了改进的CBA算法,之后对改进的CBA算法在煤矿安全预警管理中的应用情况进行阐述。根据挖掘结果可以得知,煤矿生产过程中,井下瓦斯含量是对煤矿安全造成威胁的主要因素。对于数据库管理人员而言,以所得出的挖掘结果为依据,对可能有瓦斯、一氧化碳浓度超标等因素所导致的井下安全隐患实施监控和指挥,对于突发及意外状况及时采取相应措施加以控制,在必要情况下,可以利用视频系统,这样就好比有专家亲临现场进行指挥,以便对煤矿作业过程中井下所存在的各种安全隐患进行准确预测,并及时采取对策加以解决。

[参考文献]

[1] 陆光义,冯仁剑,万江文.一种基于粗糙集和神经规则法的数据挖掘新方法[J]. 计算机与现代化. 2005(10).

[2] 尹辉,李振军,尹政.基于CMAR算法的水平加权多分类关联规则挖掘[J]. 山东师范大学学报)自然科学版). 2008(02).

[3] 栗继祖,王金云.煤矿安全事故预警、监控与应急响应关键技术研究[J]. 太原理工大学学报. 2009(02).

第11篇

关键词:负选择算法; 人工负选择分类; 反馈学习

中图分类号:TP391 文献标识码:A 文章编号:2095-2163(2013)05-0061-05

0引言

“负选择(Negative selection,NS)”是免疫系统中自体/非自体区分机制的基础。负选择过程是指在T细胞发育过程中,在其表面通过随机遗传重排产生了对于特定抗原决定基高度特异的抗原识别受体来识别抗原的过程。T细胞在胸腺成熟的过程中,生物免疫系统将与自体蛋白质相结合的T细胞消除,保留未结合的T细胞,从而确保T细胞在体内循环时不会识别自体细胞[1]。负选择算法(Negative Selection Algorithm,NSA)模拟了免疫系统识别自体和非自体细胞的负选择过程,首先随机产生候选检测器,然后与自体样本数据集进行识别判断,生成非自体检测器,最后使用非自体检测器对非自体数据进行识别[2],完成自体与非自体数据的分类。负选择算法作为人工免疫系统的核心算法之一,其研究成果涉及诸多领域,例如入侵检测[3]、数据分类[4]聚类[5]和异常检测[6,7]等,但仍存在以下两个问题:一方面,负选择算法中记忆细胞数量选择的不当会对识别精度产生一定的影响;另一方面,由于负选择算法在匹配过程中通常使用K连续位匹配规则,该规则的特殊性使得负选择算法带来的检测器在其覆盖空间出现交集,因而检测器集合整体覆盖空间较低的问题。

在负选择算法中,记忆细胞数量的不同会对算法的识别精度产生影响。由于在传统的负选择算法中,记忆细胞数量是固定值,无法比较判断当前记忆细胞数量是否为最佳值。为了解决记忆细胞数量选择不当对识别精度的影响,本文通过开展记忆细胞数量对识别准确率的影响的研究,提出一种通过反馈学习思想进行记忆细胞数量的优化,从而达到最佳分类效果的方法。

覆盖空间出现交集在将负选择算法应用于分类的过程中体现为“交叉识别”现象。“交叉识别”现象指样本数据未被分配到任何类别。与此对应的“识别洞”现象,是指样本被标记为多个类别,其时则无法判断应属哪一类别。为了解决传统负选择算法存在检测器覆盖空间出现交集、整体覆盖空间较低的问题,本文提出一种通过记忆细胞识别半径的自动化调整,减少检测器覆盖空间交集,提高整体覆盖空间的方法,避免了“交叉识别”和“识别洞”现象的出现。其中,解决“交叉识别”现象的方法是缩小识别半径,避免被多种记忆细胞识别。解决“识别洞”现象的方法是增大识别半径,扩大记忆细胞覆盖空间。

全文共分为五部分,其内容具体安排为:第一部分引言,主要介绍了生物免疫系统的负选择原理,以及课题的研究背景和研究意义,又给出了本文主要研究内容和文章结构。第二部分相关工作,首先分析了负选择算法的国内外研究现状,然后介绍了常用的文本分类算法和基于人工免疫系统的分类算法。第三部分人工负选择分类,首先对负选择算法的原理进行了系统描述,提出负选择算法待解决的问题,其次介绍人工负选择分类算法的具体流程,然后对其中每一部分进行具体论述,并针对负选择算法中出现的问题提供了详细解决方案。第四部分实验结果与分析,针对提出的新算法在两个方面的改进分别进行了试验,证明算法改进后的正确性和优越性。全文第五部分则是论文的结论及对下一步研究工作的展望。

1相关工作

负选择算法已广泛应用到数据分类聚类、异常检测、网络入侵检测等诸多领域。刘锦伟等人[8]通过分析已有实值负选择算法检测率不高的原因,提出一种通过鉴别边界自体样本以提高对“识别洞”的覆盖率的改进负选择算法,并采用人工合成数据集2DSyntheticData和实际Biomedical数据集对算法进行验证,结果表明,该算法针对夜晚视频进行目标检测是准确有效的,对于实现智能交通系统的全天候监控有现实意义;汪慧敏等人[9]为解决基于负选择的异常检测算法中检测器数目和检测器对非我空间的覆盖二者之间的矛盾问题,采用粒子群优化算法(PSO)来优化负选择算法中随机产生的检测器的位置,从而实现利用较少的检测器就能达到对非我空间的更大覆盖;仲巍[10]在分析了影响负选择算法性能的因素后,提出了一种基于切割的负选择算法,算法中使用新型的元素定义标准和匹配规则,结合一种多级检测器生成思想,有效解决了负选择算法中检测效率及检测率低下等问题。同时设计了基于层次型的检测器组织策略和基于优先级的检测器管理策略,并提出了一套快速检测器更新机制,可动态修改检测器信息,而且减少了环境变动时所造成的系统开销;曹霞[11]提出了一种应用于入侵检测系统的实值负选择改进算法,该算法通过估算“非自体”空间大小和优化抗体分布来产生最优化抗体集合,从而提高系统的检测率和降低误报率。国外很多研究学者对负选择算法也展开了研究。Bereta等人[12]将负选择算法与免疫K-means算法相结合应用于数据分析和聚类,研究首先对原始数据进行负选择,使用进化的负选择检测器生成一组人工样本。然后将原始数据与人工样本相结合来构建训练数据,并使用免疫K-means算法训练得到记忆细胞以用于数据聚类,取得了较好的聚类效果;Fernando Esponda等人[13]提出一种通用框架用来分析正负选择在近似匹配背景下的不同,该框架可以应用于异常入侵检测,例如,检测在局域网中异常TCP连接或者检测执行程序的系统调用中的异常模式;Laurentys等人[14]提出了一种基于人工免疫系统的负选择算法原理的故障检测系统的设计方法——多操作算法。

常用的文本分类算法包括贝叶斯分类、神经网络分类、支持向量机、TFIDF算法、粗糙集方法和模糊集(Fuzzy Set)方法等[15]。其中,基于人工免疫系统的分类算法的研究已获得了丰硕成果,例如,Alves等人提出的基于规则的模糊规则归纳算法(Induction of Fuzzy Rules with an Artificial Immune System,IFRAIS)[16];邱小宁对IFRAIS 算法进行了改进,在IFRAIS 算法的规则进化研究中对抗体的克隆选择过程增加了抗体抗原间的交叉,以提高分类准确率,提出了抗体抗原交叉的规则归纳算法(Induction of Rule with Antibody-Cross-Antigen of Artificial Immune System, IRAA),并通过实验对改进算法进行了验证[17];Watkins在克隆选择和有限资源人工免疫系统等基础上提出了人工免疫识别系统(Artificial Immune Recognition System,AIRS)分类器模型[18,19];彭凌西等人对AIRS进行了改进,提出了一种基于免疫的监督式分类算法,有效减少了记忆细胞数量,提高了分类准确率[20];刘芳等人提出了一种基于免疫克隆算法的搜索机制以及Michigan方法模型的规则提取和分类方法——免疫克隆分类算法(Immune Clonal Algorithm for Classification,ICAC)[21];K.lgawa等人对负选择算法进行了改进,将负选择算法应用于多类别分类问题,并提出一种“裁剪”的思想来减弱噪声对分类结果的影响[22]。

2人工负选择分类器

首先对基于人工免疫系统的负选择算法进行介绍,负选择算法借鉴了生物免疫系统中胸腺T细胞生成时的“负选择”过程,其主要算法流程如图1所示。

在产生检测器阶段,负选择算法随机产生候选检测器,并判断其是否与“自体”样本数据集中每个数据进行匹配,若与任一数据匹配,则将该检测器从候选集合中删除,反之,不与任一“自体”数据匹配的候选检测器加入“非自体”检测器集。在检测阶段,将待检测数据与“非自体”检测器集合中的“非自体”检测器进行匹配,若有任一“非自体”检测器可识别该数据,则认定该数据为“非自体”数据,即异常数据,反之,不与任一“非自体”检测器相匹配的数据即可认为是“自体”数据,即正常数据。本研究将传统负选择算法中的“非自体”检测器定义为“记忆细胞”,如果被记忆细胞识别,表明样本不属于该类别。相反,如果无法被记忆细胞有效识别,表明样本属于该记忆细胞所代表的类别。

人工负选择分类器对负选择算法进行了改进,其总体流程如图2所示。算法的主要思想是在学习过程中通过训练数据集获得可用来识别非自体数据的记忆细胞,然后使用反馈学习的思想来调整记忆细胞数量,获得可进行预测的最终非自体记忆细胞集合。最后,在预测分类过程中对待分类数据进行预测分类。

2.1学习过程

传统的负选择算法过程中,记忆细胞的识别半径会影响产生的记忆细胞数量(即非自体检测器数量)。其中,识别半径指随机生成的检测器(即记忆细胞)能够识别样本的最大距离,本文采用欧氏距离计算,在系统初始化时设定。记忆细胞数量的不同会对算法的识别精度产生影响。在传统的负选择算法中,由于记忆细胞数量是固定值,无法判断比较当前记忆细胞数量是否为最佳值。为了解决这一问题,本文在算法的学习过程中增加了反馈机制,通过当前记忆细胞数量对识别精度的反馈信息来调整决定记忆细胞识别半径的参数α,从而对记忆细胞数量进行优化,达到最佳分类效果的方法。

人工负选择分类算法的学习过程主要由获取最佳记忆细胞和反馈调整两部分组成。学习过程旨在通过训练数据集获取记忆细胞,借鉴生物免疫系统的克隆和变异过程对记忆细胞进行优化,并通过使用记忆细胞对训练数据进行识别的过程获得反馈信息,同时根据反馈信息对记忆细胞数量进行调整,从而用数量适当的最佳记忆细胞来对待检测数据进行分类预测,以达到提高识别精度的目的。具体过程如图3所示。

在获取最佳记忆细胞的过程中,首先设置识别半径,然后设置“激活”等级,“激活”等级是指可被该检测器识别的非自体数据的数量,激活等级的值为刺激水平值和次刺激水平值之和。刺激水平是指可被该检测器识别,但不可被自体检测器(即自体记忆细胞集)识别的非自体数据的数量,次刺激水平是指既可被该检测器识别,又可被自体检测器识别的非自体数据的数量。接着,判断随机生成的检测器是否具有成为记忆细胞的条件,只有随机生成的检测器达到最低“激活”等级后才能成为记忆细胞。对于没有达到最低“激活”等级的检测器则需要进行克隆与变异。在克隆过程中,每一个未达到最低“激活”等级的检测器将以一定的克隆数量(初始化时设定)完成克隆后加入检测器集合。变异过程则是借鉴遗传算法中的单点变异,设定变异率为一个常数,在系统初始化时设定,若随机产生的变异概率低于变异率,则该检测器发生变异。经过克隆和变异过程后将产生新的检测器,如果这些新的检测器达到最低“激活”等级,则作为最佳记忆细胞。

在反馈过程中,首先使用当前非自体记忆细胞集对训练样本数据进行预测分类,然后将其分类结果与训练样本数据的实际类别进行比较获取分类准确率,并根据准确率调整决定记忆细胞识别半径的参数α,即间接调整记忆细胞数量,重新获取最佳记忆细胞。如此迭代循环,直至调整至最佳记忆细胞数量值,则将当前的非自体记忆细胞集作为最终非自体记忆细胞集对待分类数据集进行预测分类。

2.2预测分类过程

传统负选择算法在分类过程中存在两种现象——“交叉识别”现象和“识别洞”现象。“交叉识别”现象指待分类样本数据没有被分配到任何类别。当所有记忆细胞都能识别该样本时,表示该样本不属于现有全部记忆细胞所代表的任何类别,即现有记忆细胞无法判断该样本真正属于哪一个类别;“识别洞”现象是指当样本被标记为多个类别时,无法判断属于哪一个类别。当一种记忆细胞无法识别该样本时,表示该样本属于该类别。若多种记忆细胞无法识别该样本,则空间中即出现一个无法识别样本的“空洞”。

第12篇

关键词:大数据环境;会计;云服务平台

在大数据环境下,企业最为重要的资源是各种信息和内部数据[1].随着企业的交流,企业内部会产生大量数据,如何筛选和利用大数据,从而提取出有效数据则会为企业带来不可估量的产业价值.以会计信息系统为对象,面对海量的会计数据需求的压力与日俱增.考虑到会计数据的获取成本高、处理效率低以及挖掘周期长等原因,现阶段构建的会计信息系统无论在会计数据处理方面还是提供有效科学的决策方面都缺乏竞争力.因此,本文利用云计算处理技术来帮助构建高效的大数据处理平台,这不仅可以完善会计信息系统的各项功能,而且还能够提供更有效的商业决策,具有较高的应用价值.

1大数据环境下会计云服务平台构建的可行性分析

在企业内部构建基于大数据环境的会计云服务平台的前提条件就是进行系统的可行性分析,首先论证开发此平台的理论是否科学合理,然后对于后期的构建和维护成本进行预算,最后估计该服务平台的经济效益.

1.1理论可行性分析利用连续性随机变量期望的定义方式[2],构建基于企业的会计方面的大数据(用Y表示),其数学表达式为Y=∫ρ(x)dx(1)其中,ρ(x)表示会计大数据的概率密度函数,利用式(1)得到会计大数据的客观信息,然后利用有效会计大数据V修正客观会计大数据:V=Yr(2)其中,该表达式的价值系数为r∈[0,1],而且当r=1时,V=Y,此时会计大数据可认定为具有价值;当r=0时,V=1,则表示只有一条会计大数据具有价值.知识数据K与有价值的会计大数据V的关系为K=∫iVdV(3)其中,参数i表示有价值信息的知识转化参数.具体来讲,会计信息处理系统会针对客观数据Y进行分类、筛选、整理以及深度挖掘处理,然后自动生成决策信息K.本文设计的会计云服务平台就是扩大会计数据的处理范围,利用先进的信息处理技术来分析和挖掘会计大数据,并提供有效的企业决策.因此,在可行性方面,该平台有较好的可行性.

1.2经济可行性分析企业可以将内部的会计数据全部存储在专业云端平台上,任何授权的机构可以通过云端获取到所需的会计数据,这样将大大减少企业成本[3].首先,在前期构建会计云服务平台时,企业可以节约一部分存储成本;其次,企业也无需在投入系统扩展以面对高峰期数据服务需求.需要说明的是,企业应用的高端服务器的应用率不到20%,因此借助于云端平台企业将不再受到存储容量以及高端服务器的使用限制,从而进一步地节约成本;最后云计算服务提供商可以为企业提供具有不同应用层次的服务,而企业只需按照服务级别付费即可,无需购买多余设备,这也节约了一些硬件成本.利用云计算技术来构建会计云服务平台不仅可以加快数据传输速度,而且还支持多数据格式相互转换,让企业的工作人员可以随时随地通过网络访问云端,并从中获取到所需的数据信息,从而加强了企业内部的相互交流和协作,保障了部门之间的资源共享,整体上提高了工作效率.因此,本文设计的大数据环境下会计云服务平台具有良好的经济可行性.

2平台体系架构设计

按照层次来分,基于大数据环境的会计云服务平台主要包括数据输出展示层、数据加工存储层以及数据获取层等,并且将大数据安全机制以及标准化方式应用到整个云服务平台当中,具体平台整体框架图如图1所示.其中云服务平台主要由系统的存储设施、网络设施以及相应的操作系统构成,其工作模式为云计算提供的服务模式,因此该系统的基础运行环境还是由云计算服务提供商来提供的.该系统的数据获取层主要功能为从企业内部或者外部获取所需的会计业务类型数据、财务管理类型数据以及公开的企业会计信息数据等;系统的数据加工存储层主要功能为统一整合会计大数据,然后将加工后的数据保存在相应的数据库中,比如关于客户信息的会计数据、销售类型的会计数据以及人力资源类型的会计数据统一存储在基础数据库中,而关于知识库、模型库以及方法库等信息数据统一存储在分析类型的数据库中,从而为后续的分析使用提供相应的数据支持.数据输入输出层的主要功能为利用多种数据挖掘技术来分析和处理会计数据,并从不同模块中输出处理后的会计数据.

2.1会计大数据加工存储会计大数据加工存储功能就是利用存储器收集、整理以及存储不同来源和不同类型的会计大数据,并构建不同的数据存储库.当然还可以参照大数据的中高度维度和粒度分析会计大数据,并利用ETL工具转换原始的大数据,并将转换后的数据存储在不同维度表中以便进行有效的调用和管理.加工存储的工作重点在于如何帮助简化数据的结构化、非结构化以及半结构化等特点,从而显著提高数据的可存储性、可传输性、可表示性以及可处理性等[4].与此同时,还可以将人工智能技术以及Hadoop架构技术应用到加工存储功能中,这不仅可以有效去除数据的冗余度,优化数据结构和存储成本,而且还能够优化大数据的非关系类型,为后续的可视化显示提供便利.

2.2会计大数据分析输出会计大数据的分析输出功能主要是在现有数据挖掘技术的基础上改进数据挖掘技术,将现有的财务分析模型、数据判别方法以及运算方式进行统一整理,并进行集成化处理,从而实现对于分布式数据库中的会计大数据进行数据挖掘以及多维分析处理等,然后再利用操作交互界面显示数据挖掘结果,从而满足企业的数据需求.一般来讲,系统的实时性分析工具可以使用Oracle公司的Exadata软件,还可以利用Hadoopl软件来处理半结构化或者非结构化数据[5].

3平台功能构建

3.1财务综合分析本文在基于大数据的财务综合分析功能中添加了哈佛分析功能,从而为企业提供会计数据分析、财务分析、企业战略分析以及企业发展前景分析等功能.具体来讲,在企业战略分析过程中,专门设立基于企业经营、行业发展以及竞争决策等功能[6].在整个行业发展过程中,企业可以通过分析市场需求、行业特点、企业竞争力以及企业发展战略等方面找到该企业的生存和发展策略,比如在企业产品、企业技术以及企业员工等方面进行突破,并利用大数据技术挖掘企业的潜在价值.

3.2财务综合决策大数据技术的应用为平台的财务综合决策提供了海量的会计数据,而且该综合决策也不能再单一依赖于决策者的经验和基本财务数据来进行判断,因此该平台的综合决策更多地依赖于数据的收集、分析、整理以及应用水平.具体的财务综合决策分析流程如图2所示,该平台使用的数据源主要来自于互联网、社会化网络、物联网以及移动互联网等,当然还可以从企业内部系统、工商管理部门以及银行等机构获取.财务综合决策系统规范处理大数据的同时还可以利用数据分析和挖掘技术来挖掘和筛选出相关的出纳、审计以及税收等信息,然后利用可视化技术、基于文本分析技术、智能搜索技术以及智能化技术等帮助进行财务决策.图2财务综合决策分析流程

3.3财务综合预测在财务综合预测过程中,应该根据内部企业资料、外部环境因素以及财务综合分析的结果进行分析,并利用基于单变量和多变量的线性回归方式来预测未来企业的财务状况,为企业规避风险和提高利润提供帮助.营业成本预测技术利用作业成本技术将分配成本方案应用到各个作业中,然后利用聚类分析方法来分析各个因素对于成本的影响,最后根据以往成本和营业数据来选择与之相似的营业趋势模型,从而更好地预测企业未来成本.财务风险预测技术利用了周首华等学者提出的F计分模型来预测企业未来财务风险,还可以利用Kalman滤波技术以及BP神经网络模型来针对企业的财务状况进行智能预警.比如利用Kalman滤波技术以及BP神经网络模型来构建财务预警动态模型,从而提供智能动态预警功能.由于财务危机的诱因就是企业财务状况恶化,而企业经营不善又是财务状况恶化的主导因素,内部和外部因素是财务恶化的推动器,公司财务管理力度不强又是财务恶化的内在原因,因此本文从上述4个方面收集相关企业数据资源,然后利用会计大数据技术来分析企业的经营环境,从而更好地整理出准确反映企业财务风险的因素.财务动态预警分析体系可以将各项指标进行量化处理,从而构建合理的综合指标监测体系,然后进行财务预警,并针对相关企业财务风险及时进行提示和报警.

4平台核心功能的测试分析

4.1测试营业收入和营业成本预测情况会计云计算服务平台根据从2000年到2013年的营业成本和营业收入数据来自动预测未来5年的财务状况,其具体的平台营业收入和营业成本预测图如图3所示.本文设计的预测模型预测该企业的2010年的营业收入约为417.34亿元,企业实际的营业收入为386.87亿元,其误差率约为7.8%;预测模型预测2011年企业的营业收入为545.57亿元,企业实际的图3会计云平台营业收入与成本预测营业收入为549.01亿元,其误差率约为0.6%;预测模型预测2012年企业的营业收入为674.11亿元,企业实际的营业收入为680.67亿元,其误差率约为0.96%;预测模型预测2013年企业的营业收入为781.24亿元,企业实际的营业收入为783.11亿元,其误差率为0.23%,从中不难看出,除了2010年的预测误差较大之外,其余几年的预测误差都比较理想.考虑到2010年企业的营业收入小于预测的营业收入,究其原因,主要是因为新医改政策带来的企业结构调整,当然宏观经济环境、相关政策法规以及市场整理都对企业的营业收入产生了一定的影响,在这之后企业及时进行战略调整,所以在2011年企业的营业收入有了显著提高.以企业在2010年的营业收入作为观测对象,点击可以详细查看企业不同产品在不同区域的销售柱状图,如果点击收入还能够查看不同产品的销售记录.如果点击营业成本点,还可以查看该行业的营业成本关系,具体数据通过点击营业成本选项.

4.2测试3项费用预测情况本文设计的预测模型预测2010年企业的销售费用为28.57亿元,企业实际的销售费用为30.56亿元,其误差率为5%;预测2011年企业的销售费用为32.69亿元,企业实际销售费用为32.46亿元,其误差率为0.67%;预测2012年企业销售费用38.36亿元,企业实际销售费用为45.21亿元,其误差率为2.9%;预测2013年企业销售费用43.83亿元,企业实际销售费用为45.26亿元,其误差率为2.8%.预测模型关于企业的财务费用和管理费用的预测示意图如图4所示.图4会计云平台3项经费预测从图4中不难看出,企业的2010年与2012年的销售费用和管理费用存在较大的误差,主要原因是在2010年和2012年有很多企业进行整合,因此在报表合并时会产生高昂的销售费用和管理费用.企业在2011年财务费用增加的主要原因是大量汇兑造成的,而且2012年企业恢复正常,利用内部融资方案来尽量降低相关财务费用.正是由于预测模型的汇率与实际汇率存在一定的误差,从而造成了预测模型在2010年和2012年产生较大的误差率.上述这些因素都是突发性的,而会计云服务平台无法应对,这也是平台设计的缺陷.

4.3财务预警预测分析测试会计云服务平台利用Z值模型来预测集团财务状况.Z=1.2X1+1.4X2+3.3X3+0.6X4+X5(4)其中当Z<1.80时,企业存在严重的财务危机,预测一年内会出现破产;当1.80<Z<2.66时,企业存在一般财务危机;当Z>2.66时,企业没有存在财务风险,预计企业不会出现财务危机.该平台还专门设定自动报警功能,当Z值一旦低于1.80时,系统会自动提醒企业注意.从表1可以看出:集团Z值主要受到X这一因素的影响,而且系统会实时观测这个影响因素.本文专门针对预测结果和企业具体运行数据进行分析比对,从中发现该集团在年初会出现一定的财务危机,主要是因为年初或者月初的销售计划刚刚开启,企业比较容易陷入财务危机.尤其是企业在2012年中上旬出现财务报表造假现象,而该预测系统预测企业在该年3月或4月出现财务危机,企业实际情况与预测情况相符;但是企业在2014年3月并没有出现财务危机,这与预测的结果有一定出入,因此预测模型还需进一步改进。

5结论

在大数据时代,会计部门将面临海量的企业数据,这已经成为会计部门重要工作之一.通过大数据技术以及云计算技术等,可以帮助挖掘和分析会计大数据的特点,为进一步解决数据资源匮乏、信息孤岛以及企业决策困难等问题提供一体化的解决方案,从而有效管理企业数据,为企业管理者提供科学合理的决策.

参考文献:

[1]成静静,喻朝新.基于云计算的大数据统一分析平台研究与设计[J].广东通信技术,2013(1):6-10.

[2]何晓行,王剑虹.云计算环境下的取证问题研究[J].计算机科学,2012(39):105-108.

[3]孙琪华.新形势下高校财务信息化建设的思考[J].会计之友,2013(12):77-79.

[4]徐立冰.云计算和大数据时代网络技术揭秘[M].北京:人民邮电出版社,2013:2-7.