C1ementine是SPSS的数据挖掘应用工具。这种工具可把直观的用户图形界面与多种分析技术相结合。这些技术包括神经元网络、关联规则和规则归纳技术。这些分析能力由一个易于使用的可视化编程环境所提供。
C1ementinee所使用的图形表现是在屏幕上拖动、按下和连接功能节点。节点的类型分为数据访问节点、数据操纵节点、数据可视化节点、机器学习节点和模型分析节点。模型产生过程由从托盘中选择正确的节点、把它们放到屏幕上和连接节点组成。
C1ementinee提供了丰富的数据访问能力,其中包括对展开文件和关系数据库(通过ODBC)的访问。C1ementine具有通过把建模结果写回一个与ODBC兼容的DBMS而使它们保持一致的能力。输入数据操纵包括合并匹配字段和派生新字段的能力。
C1ementine的数据可视化能力包括分布图、线性图和网络分析。
C1ementine可在运行W1ndowsNT的Intel Penhum系统、运行HPUXl0及以上的HP900系列、运行IRIX的Silicon Graphics、运行Solaris 2.x的SunSPARC和运行DigihlUNIX 3.x或VMS6.x的D1gihlALPm上使用。
数据访问、操纵和预处理:C1emen6ne能导入分隔的文本文件、用逗号分隔值的文件和定长记录的文件(ASC11)。别的数据源可通过支持的ODBC接口使用。主要的关系数据库系统包括Oracle、Sybase、Infomix和CA—Ingres都可通过ODBC访问。
C1ementlne的数据操纵能力包括以下这些方面:
●通过记录顺序对记录进行合并。
●用户定义的集合。
●过滤无关系的记录。
●使用用户定义的准则和逻辑符号派生新字段。
●数据取样的能力;包括最初和最后的N个记录、从N个记录中取一个样本和随机取样。数据挖掘技术、算法和应用程序:C1咖6n6ne支持规则归纳算法、神经元网络(包括Kohonen网络)和关联规则:
●C1emen加e规则归纳算法很容易理解:一旦被训练过了,算法就创建一棵决策树代表规则。随后将要进行的频繁处理就是定位在树的最项层的重要变量并用这些变量训练个神经元网络。
●C1ementine的神经元网络提供一系列不同的拓扑结构和训练方法。在进行性能评估时,—7个默认的单隐藏层网络能与一个更加复杂的双隐藏层网络相比较。
●C1ementine提供了Kohonen神经元网络以解决聚类问题。
●关联规则就像名字所暗示的用于把一系列属性与一个特定的结论相关联。任何属性之间都有关联,这一点被证明对像市场售货篮分析这样的应用非常有用。
C1ementine支持顾客剖析、时序分析、市场售货篮分析和欺诈行为侦测。使用工具:通过连接结点的表示形式,模型在一个可视化编程环境中被确定。建模结点的对话框提供对算法和训练方法的某些控制。
C1ementlne允许用户知道哪些输入对系统的预测是重要的,虽然神经元网络本身难以被理解。决策树算法支持一种交互的、易于使用的规则浏览器。
C1ementlne提供了对模型进行评估的一系列功能,其中包括一个分析结点用来报告对系统输入进行正确诊断的数量;取值范围从0到1的置信度;以及提供给用户跨表字段选择能力的矩阵模式。
C1ementlne能以C代码的形式导出决策树、神经元网络和K0honen网络。在C1emelItine中,当一个模型被构造后,它能以C代码的形式被导出,并在外部环境被展开。例如,如果一个神经元网络模型必须被导出,C1eme06ne将导出三个文件:一个头文件、一个函数文件和一个网络定义文件。由规则归纳算法所产生的规则也能被导出。
C1ementine的可视化编程环境适合于初学者。建模的顺序被清晰地表达了出来,并且各种各样的选项增强了灵活性。一个想要操纵C1eme咖算法的有经验的用户就没有那么自由了。然而,在神经元网络中仍然有一些选项来调整学习率和控制决策树算法中的修剪。
Clementine不提供事务模板。在写此书时,元数据接口还不可用。
C1emetine是一个强大的产品。以公布的用户基推测试来看,它在可伸缩性、预测准确率和处理的时间方面都表现得很好。总的来说,C1gneBtine对小规模和大规模的分析实现都很合适。