联系管理员

开通文章发布权限

扫码 添加微信
微信图片
电话:18888888888 QQ:

DataX和DataX-WEB 安装步骤

DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、 MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。

项目地址

项目github地址DataX

环境依赖

  • Language: Java 8(jdk版本建议1.8.201以上)

  • Python2.7(支持Python3需要修改替换datax/bin下面的三个python文件,替换文件在doc/datax-web/datax-python3下)

  • Environment: MacOS, Windows,Linux

  • MySQL (5.5+) 必选,对应客户端可以选装, Linux服务上若安装mysql的客户端可以通过部署脚本快速初始化数据库

  • JDK (1.8.0_xxx) 必选

  • Maven (3.6.1+) 必选

  • DataX 必选

  • Python (2.x) (支持Python3需要修改替换datax/bin下面的三个python文件,替换文件在doc/datax-web/datax-python3下) 必选,主要用于调度执行底层DataX的启动脚本,默认的方式是以Java子进程方式执行DataX,用户可以选择以Python方式来做自定义的改造

安装java

yum list java*
yum install -y java-1.8.0-openjdk-devel.x86_64
java -version

输出如下结果,安装成功:

openjdk version "1.8.0_362"
OpenJDK Runtime Environment (build 1.8.0_362-b08)
OpenJDK 64-Bit Server VM (build 25.362-b08, mixed mode)

安装maven

wget https://dlcdn.apache.org/maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin.tar.gz
tar xvf apache-maven-3.6.3-bin.tar.gz -O /opt/maven

修改环境变量

#maven
MAVEN_HOME=/opt/maven
export PATH=$PATH:$MAVEN_HOME/bin

查看版本信息 mvn -v

Apache Maven 3.6.3 (cecedd343002696d0abb50b32b541b8a6ba2883f)
Maven home: /opt/maven
Java version: 1.8.0_362, vendor: Red Hat, Inc., runtime: /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.362.b08-1.el7_9.x86_64/jre
Default locale: en_US, platform encoding: UTF-8
OS name: "linux", version: "3.10.0-1160.59.1.el7.x86_64", arch: "amd64", family: "unix"

安装Data-X

下载data-x解压

wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
tar xvf datax.tar.gz
cd datax/bin

删除项目 plugin/reader/plugin/writer/ 目录下面 ._* 开头的文件目录

rm -rf ../plugin/reader/._*
rm -rf ../plugin/writer/._*

编写启动测试文件vim stream2stream.json,内容如下:

{
  "job": {
    "content": [
      {
        "reader": {
          "name": "streamreader",
          "parameter": {
            "sliceRecordCount": 10,
            "column": [
              {
                "type": "long",
                "value": "10"
              },
              {
                "type": "string",
                "value": "hello,你好,世界-DataX"
              }
            ]
          }
        },
        "writer": {
          "name": "streamwriter",
          "parameter": {
            "encoding": "UTF-8",
            "print": true
          }
        }
      }
    ],
    "setting": {
      "speed": {
        "channel": 5
       }
    }
  }
}

启动测试

python datax.py ./stream2stream.json

输出测试结果如下,表示安装成功
图片#B #S #R #60% #auto

安装DataX-Web

项目地址

项目github地址:DataX-Web
图片#B #S #R #60% #auto

安装

安装详细文档
下载源码文件

git clone https://hub.fgit.gq/WeiYe-Jing/datax-web.git
cd datax-web/

编译打包

mvn clean install

build 目录下面生成打包后的文件,build/datax-web-2.1.2.tar.gz,在选定的安装目录,解压安装包

tar xvf datax-web-2.1.2.tar.gz

进入解压后的目录,找到bin目录下面的 install.sh 文件,跳过确认过程,则执行以下命令安装

cd datax-web/
./bin/install.sh --force

创建数据库create database dataxweb;,目录下/bin/db/datax-web.sql脚本去手动执行
修改数据库配置vim modules/datax-admin/conf/bootstrap.properties

#Database
#DB_HOST=
#DB_PORT=
#DB_USERNAME=
#DB_PASSWORD=
#DB_DATABASE=

启动datax-web服务

一键启动所有服务

./bin/start-all.sh

一键取消所有服务

./bin/stop-all.sh

在Linux环境下使用JPS命令,查看是否出现DataXAdminApplication和DataXExecutorApplication进程,如果存在这表示项目运行成功

24982 DataXExecutorApplication
24718 DataXAdminApplication

查看 netstat -tnl 服务启动的端口

tcp6       0      0 :::9527                 :::*                    LISTEN     
tcp6       0      0 :::9504                 :::*                    LISTEN

部署完成后,在浏览器中输入 http://ip:port/index.html 就可以访问对应的主界面(ip为datax-admin部署所在服务器ip,port为为 datax-admin 指定的运行端口)
输入用户名 admin 密码 123456 就可以直接访问系统
图片#B #S #R #60% #auto
datax-web API 相关内容可以访问网址: http://ip:port/doc.html
图片#B #S #R #60% #auto

此文章转载自:1

如有侵权或异议,请联系我们删除

相关文章

neo4j部署手册
Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。
DataX和DataX-WEB 安装步骤
DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、 MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。
K8S集群搭建手册(集群版)
kubernetes,简称K8s,是用8代替名字中间的8个字符“ubernete”而成的缩写。是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署,规划,更新,维护的一种机制。
Apollo部署手册
Apollo(阿波罗)是携程框架部门研发的分布式配置中心,能够集中化管理应用不同环境、不同集群的配置,配置修改后能够实时推送到应用端,并且具备规范的权限、流程治理等特性,适用于微服务配置管理场景。

评论

快捷导航

把好文章收藏到微信

打开微信,扫码查看

关闭

还没有账号?立即注册