大数据项目流程中的思路

大数据项目流程中的思路

码农世界 2024-05-24 前端 68 次浏览 0个评论

1- 需要先从元数据中导入mysql

2- 通过datax 把 mysql中的元数据导入hive中  (ODS层)

3- 导入ODS层中需要对数据进行了解并且分析

如果最后的需求有多样性需要通过多层DM层进行筛选

可以通过编写文档例如

 

要思路保持清晰。

4- DM层分层

  • 目标:实现对数据清洗后的数据按照需求进行对应主题的加工处理分析

  • 内容

    • HiveSQL、PrestoSQL:使用SQL对每个主题每一层的数据进行转换处理,加工得到应用层结果

    • SQL脚本:将HiveSQL封装在SQL脚本中

  • 产出:数据分析脚本:SQL

  • 注意:不限制脚本个数

    第4和5 就是每个分层的开发过程

    创建一个主题目录

    DWD层 创建一个DWD层目录保存DWD的hiveSQL代码文件

    DWS层 创建一个DWS层目录保存DWS的hiveSQL代码文件

5-数据导出

  • 目标:将Hive应用层的数据使用Sqoop同步导出到MySQL中,用于构建报表

  • 内容

    • datax程序:开发datax程序实现将Hive数据导出到MySQL

    • json脚本:将sqoop程序封装在json脚本中

  • 产出:数据导出脚本:json

    6-调度脚本(可选)

    • 目标:将整个主题中所有脚本进行调试,封装成任务流调度脚本,实现任务流调度

    • 内容

      • 调度脚本:列举需要调度的所有脚本及SQL文件的内容

      • 任务流调度:使用DS实现构建任务流以及运行任务流

    • 产出:《XXXX主题任务流调度交付文档.md》

      7- 数据报表(可选)

      • 目标:对需要做报表的主题,利用FineBI构建报表

      • 内容

        • 主题报表:按照需求构建主题分析报表

      • 产出:《XXXX主题数据报表交付文档.md》

        8- 项目最终产出

        • 01.项目任务明细

          • 组长每日记录组员完成进度情况

        • 02.每日开发产出

          • 需求分析文档

          • 建模设计文档

          • 数据同步脚本

          • 数据清洗脚本

          • 数据分析脚本

          • 数据导出脚本

          • 任务调度文档(可选)

          • 数据报表文档

        • 03.每日会议纪要

          • 每组成员每天轮流做会议纪要

        • 04.每日工作汇报

          • 所有同学每日都要发送日报给组长,组长保留所有日报

转载请注明来自码农世界,本文标题:《大数据项目流程中的思路》

百度分享代码,如果开启HTTPS请参考李洋个人博客
每一天,每一秒,你所做的决定都会改变你的人生!

发表评论

快捷回复:

评论列表 (暂无评论,68人围观)参与讨论

还没有评论,来说两句吧...

Top