设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 232|回复: 1

大数据时代下的数据集成变化

[复制链接]
发表于 2019-11-7 18:02:27 | 显示全部楼层 |阅读模式

数据集成为组织提供了存储在多个数据源中数据的统一视图,而提取、转换和加载(ETL)技术就是数据集成的早期尝试。使用ETL,可以从多个源事务系统提取、转换和加载数据到单个位置,例如公司数据仓库。提取和加载部分相对机械,但转换部分不那么容易。为了实现这一点,您需要对业务规则进行定义,来解释哪些转换是有效的。  
ETL与数据集成之间的一个主要区别是,数据集成是一个更广泛的领域。它可能还包括数据质量和定义主引用数据的过程,例如在公司范围内定义客户、产品、供应商和其他与业务事务提供有关的关键信息。  
事实证明,实现集成化的数据比ETL和数据集成本身更广泛。数据质量也是一个重要因素。如果发现客户或产品文件中有重复的内容怎么办?一些项目中,有80%的客户记录都是重复的。这意味着,该公司的商业客户数量只有它认为的五分之一。  在原材料中,主文件的重复率通常是20%到30%。当进行公司概述,需要汇总数据时,应该消除这些异常情况。  
尽管数据集成对大公司来说有其优势,但也不是没有挑战。如公司产生的非结构化数据的持续增长。  而且,由于数据以不同的格式保存 ; ;传感器数据、web日志、呼叫记录、文档、图像和视频 ; ;ETL工具在这种环境中可能是无效的,因为它们在设计时并没有考虑到这些因素。当存在大量数据或大数据时,这些工具也会遇到困难。如ApacheKafka等类似工具,试图通过实时流数据来解决这个问题,这使他们能够克服以前的消息总线方法对实时数据集成的限制。  
从早期的ETL到现在,数据集成的相关技术、理念已经发生了很大的变化。但仍需要继续保持不断进化,以跟上企业持续变化的需求和大数据时代下不断涌现的新型挑战。  

回复

使用道具 举报

发表于 2019-11-7 18:02:30 | 显示全部楼层
锄禾日当午,发帖真辛苦。谁知坛中餐,帖帖皆辛苦!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4 京公海网安备110108001289号  

GMT+8, 2019-12-16 17:01 , Processed in 0.286591 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表