数据存储与管理IQ
数据仓库的存储可以选用多维数据库,也可以选用关系型数据库或其它特殊的存储方式。数据的存储要保证数据的安全性、完整性、一致性,同时还要具有复杂的分析查询的高效性。
Sybase的数据仓库产品Sybase IQ。IQ是一个关系型数据库,为高性能决策支持和数据仓库的建立而进行了优化。IQ中的关键技术是纵向数据存储(通过列而不是通过行来进行)、Bit-Wise查询索引、数据压缩和Multiplex技术。使数据仓库应用拥有卓越的查询性能与最低的总拥有成本。
带压缩的列存储
适合决策处理中的很多查询只需要很少量的列数据
按列存储数据时由于相邻的字段值具有相同的数据类型,所以使Sybase IQ更容易对数据做压缩处理。
增加列时不会引起数据库结构的改变
IQ比典型传统数据库引擎少做超过10-100倍的磁盘I/O
独特的索引结构
专利的比特式索引及相应的压缩技术是Sybase的一项专利
Sybase IQ中对所有的列至少进行一次索引化,由此不仅带来查询效率的大幅提高,而且还降低了对磁盘空间的使用。IQ所需的磁盘一般只占原始输入数据所需空间的40%-60%,而且,查询速度会比传统的数据库引擎数以千倍的提高。
灵活性
Sybase IQ支持任意类型的查询。存取方法只与数据有关而与查询无关,因此正确的数据结构在数据加载时就能够预期得到。因此,数据仓库的用户可以随心所欲地提出查询要求而无须数据库管理员作任何干预。
可扩展性
Sybase IQ还使企业在处理能力上拥有极大的伸缩性,用户可以从一个小型的数据仓库开始,扩展到大型的数据仓库。也可以从大型开始扩展到超大型的数据仓库。
IQ是一个新的并行数据库架构,支持无限的用户访问数据仓库,它与单节点的IQ一样简单,能够将系统扩充到数百个节点而不需要对应用或DBA控制程序做任何的修改,并且不需要中断系统的运行。在各种并行数据库中,IQ 是唯一的能够在同一个环境中混合使用不同架构(包括CPU和操作系统)节点的并行数据库。IQ也是唯一的在流行的应用软件中预先包装好性能和扩展性的数据仓库。
数据仓库设计工具PowerDesigner
从设计一开始,利用PowerDesigner的Warehouse Architect,很直观地设计数据仓库模型对象。然后,WarehouseArchitect可生成加载数据仓库的脚本,甚至能够直接向商业应用提交它们所需的信息。这样,客户就可以立即与数据仓库交互了。由于WarehouseArchitect既支持关系模式,也支持星型模式,还支持聚集,所以无论设计者所面临的业务需求多么复杂,都可以从Warehouse Architect得到强有力的工具支持。
数据转换与集成PowerCenter
在进行数据仓库的建立时,最大的挑战之一是如何将原始业务数据转化为一致的格式,使之更好地为决策支持服务。这包括对已有数据的准确性和一致性进行检验、净化,将数据进行转化、提取、转换、装载到数据集市或数据仓库以及对其进行定期更新和管理。PowerCenter作为数据抽取工具,从各种异够的数据源中抽取数据,在数据抽取过程,用户可以根据不同的抽取阶段,灵活定制各种数据抽取流程,并定时地将数据加载到数据仓库中。
PowerCenter是一个集成的软件产品套件,用于建造和管理数据集市和分析应用。PowerCenter交付了一个开放的可伸缩的解决方案,主要定位于数据集市完整的生命周期和分析应用开发及产品化的管理,能够支持多种平台上快速变化的大量数据作为数据来源,进行复杂的转换处理以及支持高速的数据加载。其metadatarepository能够协调并驱动一系列的核心功能,包括抽取、转换、加载和管理等。
PowerCenter的图形化用户接口帮助数据仓库管理人员很容易的设计复杂的source-to-target的映射,然后可以由PowerCenter强大的服务器来自动地执行。
数据分析和展现
联机分析处理(OLAP)是一个分析处理技术,它从企业的数据集合中收集信息,并运用数学运算和数据处理技术,灵活、交互式地提供统计、趋势分析和预测报告。通过多种OLAP工具对数据仓库中的数据进行多维分析、汇总,形成图表或报表的形式,使决策者可以清晰、直观地看到分析结果,这正是数据仓库系统所要达到的目的。
数据仓库的开发应用主要有结构设计、数据集中组织和管理、数据的快速高效访问等。其中数据的访问一般都是由较为成熟的业务智能工具完成,因此不同于OLTP系统,数据仓库系统的前端开发编程量是比较小的,但是其维护工作的时间跨度要大,因为决策支持应用的随意性较强,不可能再象业务系统那样固定一个统一的操作模式。
Sybase的数据仓库解决方案采取开放的集成策略,对现在市场上主流的OLAP和前端展现工具都可以很好的配合,因此可以更好的适应贵州电信的实际需要。
另外数据挖掘也是商业智能很重要的一个方面,本方案采用的SPSS Clementine提供了一个可视化的快速建立模型的环境,被誉为业界第一的数据挖掘工具。使用它,企业可以将数据分析和建模技术与特定的商业问题结合起来,找出其他传统数据挖掘工具可能找不出的答案。
组成部分:包括数据获取(Data Access)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和报告(Reporting)??都使用一些有效、易用的按钮表示,用户只需用鼠标将这些组件连接起来建立一个“数据流”,可视化的界面使得数据挖掘更加直观交互,从而可以将用户的商业知识在每一步中更好的利用。
数据仓库的维护和管理
元数据是关于数据的数据,能够表示、定义数据的意义及系统各组成部件之间的关系的数据,它包括关键字、属性、数据描述、物理数据结构、源数据结构、映射及转换规则、综合算法、代码、缺省值、安全要求及数据时限等。管理好元数据是管理数据仓库的关键。
Sybase的Warehouse Control Center通过对元数据仓库的集中管理,提供了数据仓库解决方案的保证技术。从设计和开发到实现到最终用户访问,由工具和数据库产生的对元数据的密集型集成和管理保证了真正企业级数据仓库的建立。Warehouse Control Center是基于Intellidex技术的为数据仓库开发人员提供的数据仓库元数据管理工具,能够在数据仓库环境下进行数据采集、捕捉、存储、管理和发布逻辑的、物理的以及上下文相关的信息,而不用去管它的物理存储位置是在联合数据仓库上、分布式数据仓库上还是二者兼有。业务用户可以浏览根据其需求而生成的元数据对象,甚至可以使用发布和登记性能请求或选择附加性能。
四、系统主要功能
1.数据采集:采集系统管理、手工录入采集、脱机平面文件采集和联机数据的抽取采集。
2.主题分析:客户主题分析、业务发展主题分析、帐务主题分析、营销管理主题分析、市场竞争主题分析、服务质量主题分析。
3.专题分析:客户流失分析、客户发展分析、客户信用度评估分析、营销计划预演、竞争对手分析、高额欺诈分析、业务使用情况分析。
五、结束语
整体解决方案有效地支撑了电信决策经营分析系统的建设,而且可以预见,由于整体方案领先的技术、开放的架构以及与战略合作伙伴的软件集成的策略,必为整个系统适应将来剧烈的市场变化环境下对经营分析系统的高适应性要求提供坚实的基础。