会员登陆:
载入中…
我要发布
联系我们
广告合作
推荐:系统管理 信息安全 企业管理 大众消费 多媒体 存储备份 商业智能 系统软件 PK 企业库 软件商城 威客 在线演示 我要发布

| 数据仓库 | 报表工具 | OLAP Server | 数据挖掘 | ETL工具 |

Informatica | IBM | Microsoft | SAS | BO | Cognos 其它
您现在的位置: 中华软件网|中国软件导购网 >> 商业智能 >> ETL工具 >> 解决方案 >> 商业智能正文
企业新闻
推荐商业智能SAS加快引领中国商务智能步伐
推荐商业智能Informatica看好数据整合潜力
推荐商业智能SAS整合产品来提供卓越的绩效管
推荐商业智能SAS发力数据整合市场
推荐商业智能INFORMATICA 发布历史上最具创
推荐商业智能BO:一切为了客户
推荐商业智能基于IT基础设施 SAS提供开放可
导购论坛
·常用软件导购
·
报表工具软件导购
·
数据备份软件导购
·
系统管理软件导购
·
信息安全软件导购
·数据库软件导购
·基础软件导购
·行业软件导购
软件购买咨询
      请登陆导购论坛
产品评测
推荐商业智能加快 ETL 设计,改进数据质量
推荐商业智能SAS9 获金软件奖
推荐商业智能Informatica获读者评最佳ETL奖
推荐商业智能SAS ETL SERVER效能世界第一
推荐商业智能Leading Analyst 公司称Inform
推荐商业智能Informatica是企业数据集成领域
推荐商业智能BO被评选为企业ETL工具市场一级
相关软件下载
相关技术白皮书
在线体验
服务点评
  • 此栏目下没有推荐商业智能
  • 专家点评
    推荐商业智能ETL设计要点
    推荐商业智能ETL应用浅析
    推荐商业智能探求数据仓库关键环节ETL的本质
    推荐商业智能四种数据ETL模式
    推荐商业智能BI厂商加码ETL工具 奠基商业智
    推荐商业智能选择合适的ETL工具
    推荐商业智能ETL的思考
    客户评价
    推荐商业智能阿迪达斯公司评价Business Obj
    推荐商业智能Jet Services评价SAS商业智能解
    推荐商业智能德国邮政统一采用INFORMATICA 
    推荐商业智能INFORMATICA幫助PFIZER JAPAN 
    推荐商业智能美疾控中心利用INFORMATICA防止
    推荐商业智能上海宝钢评价SAS商业智能系统
    推荐商业智能中国网通评价BO商业智能解决方
    负面报道
  • 此栏目下没有推荐商业智能
  • 解决方案
    推荐商业智能IBM DB2 Warehouse Manager 应
    推荐商业智能微软商业智能解决方案
    推荐商业智能天维数码采用IBM ETL解决方案
    推荐商业智能IBM DB2 Universal Database 的
    推荐商业智能Business Objects公司EIM解决方
    推荐商业智能Business Objects商务智能中国
    推荐商业智能Informatica-ETL工具解决方案
    Google
    论坛
    Informatica-ETL工具解决方案
    作者:佚名    商业智能来源:本站原创    点击数:    更新时间:2006-8-15


     

    信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。目前,大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统,用来记录事务处理的各种相关数据。据统计,数据量每23年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占在总数据量的2%~4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以致于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。于是,企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段。

    数据仓库(DataWare,即DW)系统是在业务系统的基础上发展而来的,其内部存储的数据来自于事务处理的业务系统和外部数据源。而企业内各源数据又缺少统一的标准,因企业的业务系统是在不同时期、不同背景,面对不同应用、不同开发商等各种客观前提下建立的,其数据结构、存储平台、系统平台均存在很大的异构性。因而其数据难以转化为有用的信息,原始数据的不一致性导致决策时其可信度的降低。

    ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DWBusiness Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%80%,这是国内外从众多实践中得到的普遍共识。

     

    Informatica工具成快速实现ETL

    ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的原因有很多,由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统之间数据模型不一致;业务系统不同时期业务过程有变化;旧系统模块在运营、人事、财务、办公系统等相关信息的不一致;遗留系统和新业务、管理系统数据集成不完备带来的不一致性。

    Informatica-ETL工具可以集中地体现为以下几个方面:

    空值处理,可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。

    规范化数据格式,可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。

    拆分数据,依据业务需求对字段可进行分解。例,主叫号 861084613409,可进行区域码和电话号码分解。

    验证数据正确性,可利用Lookup及拆分功能进行数据验证。例如,主叫号861084613409,进行区域码和电话号码分解后,可利用Lookup返回主叫网关或交换机记载的主叫地区,进行数据验证。

    数据替换,对于因业务因素,可实现无效数据、缺失数据的替换。

      Lookup查获丢失数据,Lookup实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。

      建立ETL过程的主外键约束,对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键惟一记录的加载。

    目前,ETL面临的最大挑战是当接收数据时其各源数据的异构性和低质量。以电信为例,A系统按照统计代码管理数据,B系统按照账目数字管理,C系统按照语音ID管理。当ETL需要对这三个系统进行集成以获得对客户的全面视角时,这一过程需要复杂的匹配规则、名称/地址正常化与标准化。而ETL在处理过程中会定义一个关键数据标准,并在此基础上,制定相应的数据接口标准。

    ETL过程在很大程度上受企业对源数据的理解程度的影响,也就是说从业务的角度看数据集成非常重要。Informatica工具一个优秀的ETL设计具有如下功能:

    管理简单;采用元数据方法,集中进行管理;接口、数据格式、传输有严格的规范;尽量不在外部数据源安装软件;数据抽取系统流程自动化,并有自动调度功能;抽取的数据及时、准确、完整;可以提供同各种数据系统的接口,系统适应性强;提供软件框架系统,系统功能改变时,应用程序很少改变便可适应变化;可扩展性强。

     

    数据模型:标准定义数据
      合理的业务模型设计对ETL至关重要。数据仓库是企业惟一、真实、可靠的综合数据平台。数据仓库的设计建模一般都依照三范式、星型模型、雪花模型,无论哪种设计思想,都应该最大化地涵盖关键业务数据,把运营环境中杂乱无序的数据结构统一成为合理的、关联的、分析型的新结构,而ETL则会依照模型的定义去提取数据源,进行转换、清洗,并最终加载到目标数据仓库中。
      模型的重要之处在于对数据做标准化定义,实现统一的编码、统一的分类和组织。标准化定义的内容包括:标准代码统一、业务术语统一。ETL依照模型进行初始加载、增量加载、缓慢增长维、慢速变化维、事实表加载等数据集成,并根据业务需求制定相应的加载策略、刷新策略、汇总策略、维护策略。

     

    元数据:拓展新型应用
      对业务数据本身及其运行环境的描述与定义的数据,称之为元数据(metadata)。元数据是描述数据的数据。从某种意义上说,业务数据主要用于支持业务系统应用的数据,而元数据则是企业信息门户、客户关系管理、数据仓库、决策支持和B2B等新型应用所不可或缺的内容。
      元数据的典型表现为对象的描述,即对数据库、表、列、列属性(类型、格式、约束等)以及主键/外部键关联等等的描述。特别是现行应用的异构性与分布性越来越普遍的情况下,统一的元数据就愈发重要了。"信息孤岛"曾经是很多企业对其应用现状的一种抱怨和概括,而合理的元数据则会有效地描绘出信息的关联性。
      而元数据对于ETL的集中表现为:定义数据源的位置及数据源的属性、确定从源数据到目标数据的对应规则、确定相关的业务逻辑、在数据实际加载前的其他必要的准备工作,等等,它一般贯穿整个数据仓库项目,而ETL的所有过程必须最大化地参照元数据,这样才能快速实现ETL。

     

    ETL体系结构
      下图为ETL体系结构,它体现了主流ETL产品框架的主要组成部分。ETL是指从源系统中提取数据,转换数据为一个标准的格式,并加载数据到目标数据存储区,通常是数据仓库。

     

    ETL体系结构图

     

    Design manager 提供一个图形化的映射环境,开发者定义从源到目标的映射关系、转换、处理流程。设计过程的各对象的逻辑定义存储在一个元数据资料库中。

     

    Meta data management 提供一个关于ETL设计和运行处理等相关定义、管理信息的元数据资料库。ETL引擎在运行时和其它应用都可参考此资料库中的元数据。

     

    Extract 通过接口提取源数据,例如ODBC、专用数据库接口和平面文件提取器,并参照元数据来决定数据的提取及其提取方式。

     

    Transform 开发者将提取的数据,按照业务需要转换为目标数据结构,并实现汇总。

     

    Load 加载经转换和汇总的数据到目标数据仓库中,可实现SQL或批量加载。

     

    Transport services 利用网络协议或文件协议,在源和目标系统之间移动数据,利用内存在ETL处理的各组件中移动数据。

     

    Administration and operation 让管理员基于事件和时间进行调度、运行、监测ETL作业、管理错误信息、从失败中恢复和调节从源系统的输出。

     

    Copyright@ 2003-2008 www.soft2008.com.cn All Right Reserved
    京ICP备06062655号