成都公司:成都市成华区建设南路160号1层9号
重庆公司:重庆市江北区红旗河沟华创商务大厦18楼
基于SQL SERVER 2005的数据挖掘系统设计
数据仓库(Data Warehouse)是伴随着决策支持系统的发展而产生的,是人们对信息需求从简单到复杂,从基本的事务处理和业务管理到信息分析和战略决策的体现。而数据挖掘(DataMining)就是应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,是统计学、数据库技术和人工智能技术的综合。
但一方面,随着数据挖掘工具的使用日渐广泛,人们发现有些工具只有精通数据挖掘算法的专家才能熟练使用。如果对算法不了解,难以得出好的模型.所以迫切需要一类使用简单而又具有针对性、功能良好的数据挖掘软件。
另一方面,国内对数据挖掘方面的算法和方面的研究相对较少。因此,本文结合数据挖掘软件的发展,针对第3代数据挖掘系统的设计,提出一种基于SQL Server 2005的纵向数据挖掘解决方案的设计框架。
1 数据挖掘软件的发展

1.1 数据挖掘软件经历的4个时代
在对数据挖掘技术和数据挖掘软件的探索和开发过程中,很多学者提出了自己独特的观点。对于数据挖掘软件的发展,Robert Grossman认为,数据挖掘软件经历了或即将经历的时代有4个,如表1所示。
表1 数据挖掘软件经历的4个时代
1.2 数据挖掘工具经历的3个阶段
目前在整个数据挖掘技术的发展过程中,数据挖掘工具一共经历了3个阶段,分别是:
1)独立的数据挖掘软件。该阶段对应第一代数据挖掘系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件。这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作。
2)横向的数据挖掘工具集。此类工具集的特点是提供多种数据挖掘算法,包括数据的转换和可视化。由于此类工具并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具。
3)纵向的数据挖掘解决方案。此类工具的特点是,针对特定的应用提供完整的数据挖掘方案,所以称之为纵向的数据挖掘解决方案。
2 SQL Server 2005简介
2.1 数据挖掘的范围及其在SQL Server 2005中的功能实现
SQL Server 2005不仅是一个成熟的数据库管理系统(DBMS),而且更是一个高度集成的功能强大的商业智能平台。下面结合商务智能的范围来介绍SQL Server 2005所提供的相关组件。
图1 数据挖掘在SQL Server 2005中的功能实现
图1所示的就是数据挖掘的三个重要的方面,即数据报表、数据分析和数据挖掘。其中,数据报表模块为企业解决了“它现在是什么样”的问题,数据分析,也就是人们经常说的OLAP模块为企业解释了“它为什么是这样”的原因,而数据挖掘模块则为企业提供“它以后会是什么样”的预测。而SQL Server 2005作为商业智能解决方案,则分别提供了相应的功能模块和组件,即数据挖掘、分析服务和报表服务。
其中,数据挖掘功能的组件主要包括集成服务(SQL Server Integration Services,SSIS)和分析服务(Analysis Services,AS)。集成服务可用于数据预处理阶段,完成数据的转换、清洗和加载(ETL)过程;而分析服务用于完成模式发现功能,两者具体功能介绍如下。

