监理公司管理系统 | 工程企业管理系统 | OA系统 | ERP系统 | 造价咨询管理系统 | 工程设计管理系统 | 签约案例 | 购买价格 | 在线试用 | 手机APP | 产品资料
X 关闭

选择合适的数据挖掘算法

申请免费试用、咨询电话:400-8352-114

文章来源:泛普软件

在JDM中,算法是可以选择的,大多数数据挖掘工具为每个挖掘函数提供了默认或者预选择的算法。

如果JDM没有自动选择算法,或者数据挖掘人员想控制算法设置,就可以显式选择算法、指定设置。数据挖掘专门知识、对可用算法的了解,以及往往确定哪种算法最适合解决问题的尝试,这些都有助于选择合适的算法及设置。

决策树算法

决策树算法是最流行的算法之一,因为很容易理解它是如何进行预测的。决策树生成的规则不但可以解释如何进行预测、为何要预测,还有助于对一个群体进行划分,即显示哪几组实例会得出某个结果。决策树广泛用于分类,有些实现的决策树还支持回归方法。

决策树算法会分析一组约束的经验,即数据集。然后,确定提哪些问题才能得出正确答案,即对每个实例进行正确分类。

在本例中,我们假定输入数据集只有三个活动属性来自前面介绍的CUSTOMERS数据集:年龄、资本收益和平均储蓄账户余额,共有10个客户实例。每个实例都有已知目标值,如图1所示。注意:10名客户中有5名流失,因而随机选择的客户会流失的可能性为50%。使用该数据集中的属性细节,决策树算法就可以学习数据模式、构建一棵树。

在决策树中,每次节点分离基于划分或分离数据的属性条件。在本例中,节点1代表数据集中的所有10个客户。算法可以从这10个客户实例中知道:年龄大于36岁的客户可能会流失。所以节点1根据客户年龄,把数据分离成节点2和节点3。节点3根据客户的储蓄账户余额,把数据进一步分成节点4和节点5。

每个树节点都有相关规则,以一定的置信度和支持度来预测目标值。置信度度量的是该树节点会正确预测目标值的可能性。置信度是节点中正确预测的实例与分配给该节点的实例总数之比。支持度度量的是从构造数据集中分配了多少实例给该节点。支持度可以表示为节点中实例数量与构造数据集中实例总数之比。表1列出了树节点的细节。

算法设置让用户可以在构造过程中对算法进行更精确的控制,从而获得更准确的结果。如果允许对构造数据进行过拟合(overfit),决策树模型在构造数据方面能做到极其准确,让算法甚至可以使用针对单个实例的规则来构造更深的树。因而,过拟合模型为构造数据提供了很好的准确性,但不是非常适用于新数据,导致预测准确性降低。

为了避免过拟合,用户可以运用停止标准和剪枝技术。许多算法通常对构造数据进行迭代处理,学习数据中存在的模式,或者进行更细微的区分。有些算法实际上可以让这种迭代无限进行下去。因此,算法往往提供停止标准,告诉算法何时停止构造模型。剪枝是指剪去不太重要的树节点,譬如支持度不够的树节点。

朴素贝叶斯

朴素贝叶斯基于贝叶斯定理,假定预测变量属性就目标属性而言在条件上彼此独立。这种假定大大减少了预测目标值所需的计算数量,因而朴素贝叶斯算法适用于处理大量数据。

朴素贝叶斯算法涉及计算目标和预测属性值每对组合的概率。为了控制这类组合的数量,有连续值或者大量不同值的属性通常进行分箱处理。在本例中,为了简化朴素贝叶斯算法的描述,考虑来自CUSTOMERS(表2)数据集的两个属性: 年龄和储蓄余额。这些属性经过分箱处理有两个分箱值,可以进一步简化这方面的讨论。就年龄而言,bin-1含有小于或等于35的值,而bin-2含有大于35的值。就储蓄余额而言,bin-1含有小于或等于2万美元的值,而bin-2含有大于2万美元的值。在JDM中,朴素贝叶斯算法使用构造数据集中的实例,算出特定属性值的目标值的概率。在本例中,我们的二进制目标有两个属性,它们有两个分箱值。

在JDM中,朴素贝叶斯算法有两个设置: 单例阈值(singleton threshold)和两两阈值(pairwise threshold),可用于定义应当忽视哪些预测变量属性值或者预测变量-目标值对。

支持向量机

支持向量机(SVM)算法是最流行、比较新的监督算法之一。事实证明,SVM可以为复杂的分类问题(如基因表达分析)带来高度准确的结果。在这类问题中,已知实例数量少,但属性数量相当大。SVM在解决传统的数据挖掘问题方面日益得到认可,成为了替代神经网络的一种优先算法。

SVM可以选择核函数。核函数可把数据转变成高维向量空间,并且寻找这类空间中的关系。数据挖掘领域引入了许多核函数。JDM包括kLinear、kGaussian、超正切函数、多项式函数和S形函数。(CCW)

发布:2007-04-22 09:22    编辑:泛普软件 · xiaona    [打印此页]    [关闭]
西安OA系统
联系方式

成都公司:成都市成华区建设南路160号1层9号

重庆公司:重庆市江北区红旗河沟华创商务大厦18楼

咨询:400-8352-114

加微信,免费获取试用系统

QQ在线咨询

泛普西安OA快博其他应用

西安OA软件 西安OA新闻动态 西安OA信息化 西安OA快博 西安OA行业资讯 西安软件开发公司 西安门禁系统 西安物业管理软件 西安仓库管理软件 西安餐饮管理软件 西安网站建设公司