时间:2023-11-30 11:23:11
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇遗传学条件概率,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
关键词:数据挖掘;图书馆;数字图书馆
中图分类号:G250 文献标志码:A 文章编号:1673-291X(2012)27-0241-03
数据挖掘技术是信息世界发展所得的一种新兴事务,应用领域越来越广。从早期的商业应用,发展到科学研究、金融行业、教育教学等多个领域。并且有了许多成功的应用:在科学实验中,有专家应用决策树和基于规则的方法发现了新的类星体;在零售行业,货篮分析帮助商店确定货架布局以促进销售;在金融领域,孤立点的发现用以预测和预防可疑信用卡交易、恶意透支等;在销售行业,用来提高销售的成功率;在制造业,用来控制产品生产,降低次品率。
一、数据挖掘的定义
数据挖掘技术是一门交叉学科,涉及数据库、统计学、人工智能和机器学习等多个领域。“数据挖掘”概念最早是由Usama Fayaad 1995年提出的。因为数据挖掘技术所涉及的领域比较广,所以现在还不能有一个能包括所有领域的全面的定义。但是比较完整的定义要算是从技术方面给其定义的。数据挖掘的技术定义是这样描述的:数据挖掘(Data Mining)又称数据库中的知识发现(Knowledge Discovery in Database,KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。
这里要说明的是,数据挖掘的目的并不仅仅是在数据库中查找记录。它跟信息检索的任务是有区别的。数据挖掘和信息检索的相同点是从数据抽取数据和信息。不同之处在于数据挖掘寻找现象之间事先未知的关系和关联。也就是说在数据挖掘任务进行之前我们是没法儿预测结果的。信息检索是带有一定目的、用户预先可以感知至少是可以在脑海中想象一个抽象的结果的而检索的结果也不会与用户事先想象的结果有很大差别。信息检索是需要用户明确地提出查询要求。通俗地来讲是信息检索的目的是帮助用户从大量的文件中查找到其想要的文档而数据挖掘是为了揭示文件中所隐藏的知识。这两个是相辅相成的。我们可以使用数据挖掘研究出来的结果来提高信息检索的精确度提高检索结果的“亲近性”,从而使信息检索系统有更高的境界。
二、数据挖掘中的几种重要算法
(一)关联规则算法
关联规则数据挖掘是帮助发现大量数据库中项集之间的关联关系。目前这项技术已成为数据挖掘中最成熟、最重要、最活跃的研究内容。这种算法已发展到如教育、科研、医学等各大领域。
1.关联规则算法的定义
设I={i1,i2…,im}为所有项目的集合,设A是一个由项目构成的集合,称为项集。事务T是一个项目子集,每一个事务具有唯一的事务标识Tid。事务T包含项集A,当且仅当AT。如果项集A中包含k个项目,则称其为k项集。D为事务数据库,项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集。
关联规则就是形如XY的逻辑蕴涵关系,其中XI,YI且XY=Φ,X称作规则的前件,Y是结果,对于关联规则XY,存在支持度和信任度。
支持度是指规则中所出现模式的频率,如果事务数据库有s%的事务包含XY,则称关联规则XY在D中的支持度为s%,实际上,可以表示为概率P(XY),即support(XY)=
P(XY)。信任度是指蕴涵的强度,即事务D中c%的包含X的交易同时包含XY。若X的支持度是support(x),规则的信任度为即为:support(XY)/support(X),这是一个条件概率
P(Y|X),即confidence(XY)= P(Y|X)。
2.关联规则分类
关联规则有很多的分类方法,基于规则中处理的变量的类别,可以分为布尔型和数值型关联规则。基于规则中抽象层次,可以分为单层和多层关联规则。基于规则中涉及的数据维数,可以分为单维和多维关联规则。还有时态、加权、多支持度、负关联和混合关联规则等。
在图书馆数据挖掘应用中,可以使用关联规则算法对图书馆中读者借阅数据进行挖掘,挖掘出具有置信度和支持度的关联规则从而快速挖掘出读者借阅数据中的关联关系,最终可以达到发现学科间的隐性关联这样一个目的。
(二)遗传算法
遗传算法是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型。当前,遗传算法已表现出良好的应用前景,遗传算法的两个主要特点是群体搜索策略和群体中个体之间的信息交换,它实际上是模拟由个体组成群体的整体学习过程,其中每个个体都是给定问题搜索空间的一个解点。