专业网站建设品牌,十四年专业建站经验,服务6000+客户--广州京杭网络
免费热线:400-683-0016      微信咨询  |  联系我们

mysql查询期限,数据仓库ETL到底是什么_数据库

当前位置:网站建设 > 技术支持
资料来源:网络整理       时间:2023/3/5 14:42:38       共计:3586 浏览
mysql查询期限,数据仓库ETL到底是什么?

数据仓库,百度百科的解释:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

通俗的解释数据仓库

上面的解释不够直白,下面用一个例子来解释一下,比如秦国在统一六国以后,发现其他六国都有自已的文字,很多文字之间差距较大,大家互不认识,为方便统治和管理,秦王开始统一文字。把来自其他各国的文字进行了统一,最终形成了全国通用的文字。方便了以后的使用者。

数据仓库也是类似,一个公司的数据可能来自不同的系统,有MySQL、Oracle、SQLserver等,这些数据之间规则不统一,不能直接拿来使用,所以为了方便的使用,就把它们取来放到一个统一规则的地方,然后就可以对这些数据进行使用,比如:数据挖掘、数据分析、制作报表等。而这个地方存放数据的地方就叫数据仓库。

为了方便、稳定、安全的使用数据。数据仓库必须有规则

目前数据仓库的特点如下

面向主题

不同于传统数据库对应于某一个或多个项目,数据仓库根据使用者实际需求,将不同数据源的数据在一个较高的抽象层次上做整合,所有数据都围绕某一主题来组织。

比如购物是一个主题,那么购物里面包含用户、订单、支付、物流等数据综合,对这些数据要进行归类并分析,分析这个对象数据的一个完整性、一致性的描述,能完整、统一的划分对象所设计的各项数据。

数据集成

数据仓库中存储的数据是来源于多个数据源的集成,原始数据来自不同的数据源,存储方式各不相同。要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。

第一:每一个主题的源数据在原有分散数据库中的有许多重复和不一致,且不同数据库的数据是和不同的应用逻辑捆绑的。

第二:数据仓库中的综合性数据不能从原有的数据库系统直接得到,因此在数据进入数据仓库之前要进过统一和综合。(字段同名异意,异名同义,长度等)

数据不可更新和修改

数据仓库的数据主要是提供决策分析用,设计的数据主要是数据查询,一般情况下不做修改,这些数据反映的是一段较长时间内历史数据的内容,有一块修改了影响的是整个历史数据的过程数据。

数据仓库的查询量往往很大,所以对数据查询提出了更高的要求,要求采用各种复杂的索引技术,并对数据查询的界面友好性和数据凸显性提出更高的要求。

随时间不断变化

数据仓库中的数据不可更新是针对应用来说,从数据的进入到删除的整个生命周期中,数据仓库的数据是永远不变的。

数据仓库的数据是随着时间变化而不断增加新的数据。

数据仓库随着时间变化不断删去久的数据内容,数据仓库的数据也有时限的,数据库的数据时限一般是60 ~ 90天,而数据仓库的数据一般是5年~10年。

数据仓库中包含大量的综合性数据,这些数据很多是跟时间有关的,这些数据特征都包含时间项,以标明数据的历史时期。

数据仓库分层架构

ODS层(临时存储层):也叫贴源层,就是将所有涉及业务系统的数据抽取到这一层集中存放,同时也会保留历史数据,这一层基本保留了与源系统一样的结构和数据。一般对这些数据分为全量更新和增量更新,通常在贴源的过程中会做一些简单的清洗。

DW层(数据仓库层):将一些数据关联的日期进行拆分,使得其更具体的分类,一般拆分成年、月、日,而ODS层到DW层的ETL脚本会根据业务需求对数据进行清洗、设计,如果没有业务需求,则根据源系统的数据结构和未来的规划去做处理,对这层的数据要求是一致、准确、尽量建立数据的完整性。

APP层(应用层):它应技术或业务需要而建,直面需求,方便展现,同时提高数据的存储性能。

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

ETL就是数据搬家的过程

搬家第一步,我们要将旧住所的东西打包;

第二步,我们叫来搬家公司将打包的东西运输到新住所;

第三步,我们在新住所将打包的东西解开,重新整理,摆放。

ETL的主要作用

数据要从一地方到另一个地方,必须要入乡随俗。也就是说,数据到某一层就要按照该层对数据的要求去存放,而ETL就是告诉数据每层的要求是什么。

完整的说就是ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。数据清洗是指将不符合要求的数据除掉,包括错误数据、不完整数据、重复数据。数据转换要做的工作是把所有数据的模板、标准、计算规则等进行统一,如存储结构、数据编码等。清洗转换好的数据按着标准的ETL架构存储到数据仓库中,以备进行数据分析和决策。

ETL主要有两种任务

一种是数据流任务,相当于将旧住所打包的东西运输到新住所;

一种是清理任务,相当于在新住所重新整理摆放。

ETL的重要性

ETL是商业智能(BI)重要的一个环节,也是进行数据分析的基础。数据仓库构建好后,才有可能基于数据仓库来构建分析模型并根据需求展现最终的结果。做好一个BI项目,其中很大一部分工作是ETL,ETL的质量决定了BI是否成功。有的BI工具本身就带着ETL功能,实际上是把前期和后期工作整合到一起了。有的公司也是自己开发的ETL工具。当然专门的ETL工具就有很多,开源有免费的比如:kettle,也有收费如:Informatica完全可以满足BI的需要,因而在工作中除了要考虑工具的性能、效率,还要考虑项目的成本,经济也是必须考虑的因素。

版权说明:
本网站凡注明“广州京杭 原创”的皆为本站原创文章,如需转载请注明出处!
本网转载皆注明出处,遵循行业规范,如发现作品内容版权或其它问题的,请与我们联系处理!
欢迎扫描右侧微信二维码与我们联系。
·上一条:mysql查询字符,Mysql中如何查询值为Unicode编码的字符串_数据库 | ·下一条:查询mysql账户,mysql怎么查询姓什么的所有信息_数据库

Copyright © 广州京杭网络科技有限公司 2005-2025 版权所有    粤ICP备16019765号 

广州京杭网络科技有限公司 版权所有