1- 需要先从元数据中导入mysql
2- 通过datax 把 mysql中的元数据导入hive中 (ODS层)
3- 导入ODS层中需要对数据进行了解并且分析
如果最后的需求有多样性需要通过多层DM层进行筛选
可以通过编写文档例如
要思路保持清晰。
4- DM层分层
目标:实现对数据清洗后的数据按照需求进行对应主题的加工处理分析
内容
HiveSQL、PrestoSQL:使用SQL对每个主题每一层的数据进行转换处理,加工得到应用层结果
SQL脚本:将HiveSQL封装在SQL脚本中
产出:数据分析脚本:SQL
注意:不限制脚本个数
第4和5 就是每个分层的开发过程
创建一个主题目录
DWD层 创建一个DWD层目录保存DWD的hiveSQL代码文件
DWS层 创建一个DWS层目录保存DWS的hiveSQL代码文件
5-数据导出
-
目标:将Hive应用层的数据使用Sqoop同步导出到MySQL中,用于构建报表
-
内容
-
datax程序:开发datax程序实现将Hive数据导出到MySQL
-
json脚本:将sqoop程序封装在json脚本中
-
-
产出:数据导出脚本:json
6-调度脚本(可选)
-
目标:将整个主题中所有脚本进行调试,封装成任务流调度脚本,实现任务流调度
-
内容
-
调度脚本:列举需要调度的所有脚本及SQL文件的内容
-
任务流调度:使用DS实现构建任务流以及运行任务流
-
-
产出:《XXXX主题任务流调度交付文档.md》
7- 数据报表(可选)
-
目标:对需要做报表的主题,利用FineBI构建报表
-
内容
-
主题报表:按照需求构建主题分析报表
-
-
产出:《XXXX主题数据报表交付文档.md》
8- 项目最终产出
-
01.项目任务明细
-
组长每日记录组员完成进度情况
-
-
02.每日开发产出
-
需求分析文档
-
建模设计文档
-
数据同步脚本
-
数据清洗脚本
-
数据分析脚本
-
数据导出脚本
-
任务调度文档(可选)
-
数据报表文档
-
-
03.每日会议纪要
-
每组成员每天轮流做会议纪要
-
-
04.每日工作汇报
-
所有同学每日都要发送日报给组长,组长保留所有日报
-
-
-
-
还没有评论,来说两句吧...