大数据的流式处理和大数据数据仓库?
从就业前景的角度来讲,大数据数据仓库方向要比大数据流式处理方向更好。大数据流式处理,本质就是实时流式数据处理,既对数据进行实时加工和输出。数仓研发同学平时在进行数据处理时,会用到大数据流式处理技术。整体来说,大数据数据仓库包含大数据流式处理,从而大数据数据仓库的就业选择方向要比大数据流式处理更广。
我之前岗位就是数据研发,本质就是结合数据仓库模型,对业务数据进行标准化处理和数据模型构建。业务数据最开始来源线上业务用户的行为数据,通过数据采集,存储到分布式文件系统上,然后使用Hive对数据进行加工。数据研发,整体可以分为离线数据研发和实时流式数据研发,这两个方向其实都需要使用到大数据数据仓库理论对数据建模。
我在进行实时数据研发的时候,主要使用到Flink技术来对流式数据进行处理。其实处理的同时,整体的设计思想就是参考数据仓库设计理论。对流式数据,怎么样处理,才能构建出公共层流式数据,增强数据的可用性,减少资源重复计算,计算出的实时指标,能否做到指标口径统一,如果构建流式数据应用层等。流式数据处理也要参考数据仓库理论来进行设计。
所以,只要你学好大数据数据仓库的理论,无论你是大数据流式处理,还是离线数据处理,你都能够做到得心应手,你可以从事这两个数据研发方向的工作。如果是大数据流式处理,你就只能选择实时计算相关的岗位。大数据数据仓库方向要比大数据流式处理的岗位选择更广。
你如果对大数据流式处理非常感兴趣的话,个人建议你可以先对数据仓库数据模型理论进行学习,ODS层(原始数据层)、DWD层(公共数据明细层)、DWS(公共汇总层)、ADM层(数据应用层),你要清楚数据处理为什么要这么分层。怎么设计数据维表、什么是星形模型、雪花模型,这些概念你都要理解清楚。
学习完数据仓库理论再去学习流式处理,会让你以后对于流式数据处理更加的专业,同时会让你的数据任务更加规范和通用。从事大数据研发,你一定要学会数据仓库理论。
我是Lake,专注大数据技术原理、人工智能、数据库技术、程序员经验分享,如果我的问答对你有帮助的话,希望你能点赞关注我,感谢。
我会持续大数据、数据库方面的内容,如果你有任何问题,也欢迎关注私信我,我会认真解答每一个问题。
Copyright © 广州京杭网络科技有限公司 2005-2025 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有