# 数据源管理

​ 工具支持配置多种不同类型数据源,包括关系型数据库、数据仓库、文件、NoSQL数据库、消息中间件等。

# 数据源种类

  • 支持的版本仅代表 DataMover团队测试或使用过,但并不一定涵盖所有功能或者特性。
  • 支持的版本更新有一定的滞后性,如遇到本表格未提及的版本,可做一定的尝试,并欢迎反馈。

# 关系型数据库、数据仓库

数据源 数据源 国产数据源
Mysql ClickHouse OceanBase(Mysql模式)
Mariadb Doris Kingbase
Oracle Hive dameng(达梦)
SQLServer Greenplum Gaussdb(高斯数据库)
PostgreSQL Hbase Gbase8a
Db2 StarRocks Gbase8s
Sqlite kudu PolarDb
Citus Cassandra selectdb
Hanadb ODPS
Informix TiDb
Sybase

以新建 MYSQL 为例介绍关系型数据库的数据源配置,配置界面如下图。

image-20250923110907095

数据源名称: 为该数据源定义一个名词,方便管理。
数据源类型: 选择要创建的数据源类型。
数据库 IP: 填写数据库提供者的 MYSQL 数据库 IP 地址。
端口: 填写数据库提供者的 MYSQL 数据库端口号,默认端口 3306。
用户名: 填写数据库提供者的 MYSQL 数据库用户名。
密码: 填写数据库提供者的 MYSQL 数据库用户名对应的密码。
数据库名: 填写数据库需要接入数据的数据库名。
角色: 每个数据源都可以选择是作为源端提供数据或者作为目的端写入数据。也可以同时作为源和目的。根据实际情况进行选择。

配置数据源链接信息后,点击测试连通性按钮。数据源正常连通,点击确定按钮,保存新增的 MYSQL 数据源。若出现异常,请根据提示进行调整。

# 文件数据源

数据源 数据源
FTP Samba(共享文件)
SSH-File(SCP) HDFS(分布式文件系统)

以新建 SSH(SCP) 为例介绍文件数据源配置,配置界面如下图。

image-20251005212236869

数据源名称: 为该数据源定义一个名词,方便管理。
数据源类型: 选择要创建的数据源类型。
主机 IP: 填写SSH服务器 IP 地址。
端口: 填写SSH服务器端口号,默认端口 22。
用户名: 填写SSH服务器用户名。
密码: 填写SSH服务器用户名对应的密码。
数据源角色: 数据源可以选择是作为源端提供数据或者作为目的端写入数据。根据实际情况进行选择。

# 消息队列数据源

数据源 数据源
Kafka ActiveMq
SSH(SCP) RocketMq
DataHub

以新建Kafka数据源为例介绍消息队列数据源配置,配置界面如下图

image-20251005192407906

数据源名称: 为该数据源定义一个名词,方便管理。
数据源类型: 选择要创建的数据源类型。
服务器地址: 填写Kafka服务器连接地址:ip:端口,多个节点用分号分隔。
认证方式:无或Kerveros认证。
用户名: 填写Kerveros认证用户名。
认证文件: 上传kerberos认证文件。
数据源角色: 数据源可以选择是作为源端提供数据或者作为目的端写入数据。根据实际情况进行选择。

# NoSql数据库

数据源 数据源
Mongo Redis
Elasticsearch(ES)

# 数据视图(重点)

数据视图的作用是将结构化数据定义为二维表。

image-20251005203933046

# 关系型数据库、数据仓库

提示

对于这类数据源,DataMover可以直接读取数据库的元数据获取表定义,数据视图非必须定义。

对于数据库管理系统,DataMover可以直接访问元数据信息获取表的定义。例如mysql数据库,DataMover可以直接通过jdbc获取数据库中的表和表结构。这类数据源除了可以直接选取已存在的表作为源表,还可以在数据视图通过sql定义源表。

# 源端数据视图

编写sql进行数据抽取规则定义

image-20251005205941358

# 目的端数据视图

不支持定义目的端数据视图。

# 文件数据源

提示

对于这类数据源,数据视图必须定义,将结构化的文件定义为二维表,指导DataMover进行读取和写入。

对于文件数据源,需要提前将存储数据的文件结构和含义定义清楚,DataMover根据数据视图进行读取和写入。例如FTP数据源,DataMover通过数据视图定义的字段信息,对文本文件进行解析。

# 源端数据视图定义

定义源文件类型、源文件存储路径、源文件名筛选规则、字段提取规则等。

image-20251005223320982

image-20251005223443559

# 目的端数据视图定义

定义输出形式、输出路径、输出文件名生成规则等。

image-20251008143437742

# 消息队列数据源

提示

对于这类数据源,数据视图必须定义,将结构化的消息定义为二维表,指导DataMover进行读取和写入。

支持将源端数据转换为固定分隔符分隔的字符串或JSON或XML输出到kafka指定Topic

# 源端数据视图定义

定义消费kafka或其他消息队列 topic、消息格式 、解析规则等。

image-20251008133136914

# 目的段数据视图定义

定义输出topic、消息格式等。

image-20251008110657183

# NoSql数据源

# 源端数据视图定义

定义读取文档或Key、解析二维表规则。

# 目的段数据视图定义

定义读取文档或Key、解析二维表规则。

Last Updated: 2025/12/14 21:33:58