02 Datax-web+Datax搭建企业级数据同步中心平台教程

02 Datax-web+Datax搭建企业级数据同步中心平台教程

码农世界 2024-05-26 前端 78 次浏览 0个评论

转载:gitHub-datax-webDataX集成可视化页面,选择数据源即可一键生成数据同步任务,支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源,批量创建RDBMS数据同步任务,集成开源调度系统,支持分布式、增量同步数据、实时查看运行日志、监控执行器资源、KILL运行进程、数据源信息加密等。 - datax-web/userGuid.md at master · WeiYe-Jing/datax-webhttps://github.com/WeiYe-Jing/datax-web/blob/master/userGuid.md

目录

DataX Web用户手册

一、github下载master分支或者release版本到本地

二、安装DataX

三、Web部署

1.linux环境部署

2.开发环境部署(或参考文档 Debug)

2.1 创建数据库

执行bin/db下面的datax_web.sql文件(注意老版本更新语句有指定库名)

2.2 修改项目配置

1.修改datax_admin下resources/application.yml文件

2.修改datax_executor下resources/application.yml文件

四、启动项目

1.本地idea开发环境

五、启动成功

六、集群部署

DataX-WEB说明文档

2 整体说明

3 适用场景

4数据同步服务部署步骤

5 datax-web配置步骤

5.6.1 全量同步示例

5.6.2 时间增量同步示例(推荐)

5.6.3 主键增量同步示例

7 同步任务常见报错及解决方案

7.1 数据源连接失败

7.2 列配置信息有错误

7.3 脏数据,违反唯一约束

7.4 MySQL时区问题


DataX Web用户手册

一、github下载代码

DataX Web下载地址

二、安装DataX

  • 方法一、直接下载DataX工具包:DataX下载地址

    下载后解压至本地某个目录,进入bin目录,即可运行同步作业:

    $ cd  {YOUR_DATAX_HOME}/bin
    $ python datax.py {YOUR_JOB.json}

    自检脚本:    python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json

  • 方法二、下载DataX源码,自己编译:DataX源码

    (1)、下载DataX源码:

    $ git clone [email protected]:alibaba/DataX.git

    (2)、通过maven打包:

    $ cd  {DataX_source_code_home}
    $ mvn -U clean package assembly:assembly -Dmaven.test.skip=true

    打包成功,日志显示如下:

    [INFO] BUILD SUCCESS
    [INFO] -----------------------------------------------------------------
    [INFO] Total time: 08:12 min
    [INFO] Finished at: 2015-12-13T16:26:48+08:00
    [INFO] Final Memory: 133M/960M
    [INFO] -----------------------------------------------------------------
    

    打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下:

    $ cd  {DataX_source_code_home}
    $ ls ./target/datax/datax/
    bin		conf		job		lib		log		log_perf	plugin		script		tmp
  • 配置示例:从stream读取数据并打印到控制台

    • 第一步、创建创业的配置文件(json格式)

      可以通过命令查看配置模板: python datax.py -r {YOUR_READER} -w {YOUR_WRITER}

      $ cd  {YOUR_DATAX_HOME}/bin
      $  python datax.py -r streamreader -w streamwriter
      DataX (UNKNOWN_DATAX_VERSION), From Alibaba !
      Copyright (C) 2010-2015, Alibaba Group. All Rights Reserved.
      Please refer to the streamreader document:
          https://github.com/alibaba/DataX/blob/master/streamreader/doc/streamreader.md 
      Please refer to the streamwriter document:
           https://github.com/alibaba/DataX/blob/master/streamwriter/doc/streamwriter.md 
       
      Please save the following configuration as a json file and  use
           python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json 
      to run the job.
      {
          "job": {
              "content": [
                  {
                      "reader": {
                          "name": "streamreader", 
                          "parameter": {
                              "column": [], 
                              "sliceRecordCount": ""
                          }
                      }, 
                      "writer": {
                          "name": "streamwriter", 
                          "parameter": {
                              "encoding": "", 
                              "print": true
                          }
                      }
                  }
              ], 
              "setting": {
                  "speed": {
                      "channel": ""
                  }
              }
          }
      }

      根据模板配置json如下:

      #stream2stream.json
      {
        "job": {
          "content": [
            {
              "reader": {
                "name": "strea

转载请注明来自码农世界,本文标题:《02 Datax-web+Datax搭建企业级数据同步中心平台教程》

百度分享代码,如果开启HTTPS请参考李洋个人博客
每一天,每一秒,你所做的决定都会改变你的人生!

发表评论

快捷回复:

评论列表 (暂无评论,78人围观)参与讨论

还没有评论,来说两句吧...

Top