alibaba / DataX
DataX是阿里云DataWorks数据集成的开源版本。
AI Architecture Analysis
This repository is indexed by RepoMind. By analyzing alibaba/DataX in our AI interface, you can instantly generate complete architecture diagrams, visualize control flows, and perform automated security audits across the entire codebase.
Our Agentic Context Augmented Generation (Agentic CAG) engine loads full source files into context on-demand, avoiding the fragmentation of traditional RAG systems. Ask questions about the architecture, dependencies, or specific features to see it in action.
Repository Overview (README excerpt)
Crawler viewDataX DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。 DataX 商业版本 阿里云DataWorks数据集成是DataX团队在阿里云上的商业化产品,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动能力,以及繁杂业务背景下的数据同步解决方案。目前已经支持云上近3000家客户,单日同步数据超过3万亿条。DataWorks数据集成目前支持离线50+种数据源,可以进行整库迁移、批量上云、增量同步、分库分表等各类同步解决方案。2020年更新实时同步能力,支持10+种数据源的读写任意组合。提供MySQL,Oracle等多种数据源到阿里云MaxCompute,Hologres等大数据引擎的一键全增量同步解决方案。 商业版本参见: https://www.aliyun.com/product/bigdata/ide Features DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统, 每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。 DataX详细介绍 请参考:DataX-Introduction Quick Start Download DataX下载地址 请点击:Quick Start Support Data Channels DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入,目前支持数据如下图,详情请点击:DataX数据源参考指南 | 类型 | 数据源 | Reader(读) | Writer(写) | 文档 | |--------------|---------------------------|:---------:|:---------:|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:| | RDBMS 关系型数据库 | MySQL | √ | √ | 读 、写 | | | Oracle | √ | √ | 读 、写 | | | OceanBase | √ | √ | 读 、写 | | | SQLServer | √ | √ | 读 、写 | | | PostgreSQL | √ | √ | 读 、写 | | | DRDS | √ | √ | 读 、写 | | | Kingbase | √ | √ | 读 、写 | | | 通用RDBMS(支持所有关系型数据库) | √ | √ | 读 、写 | | 阿里云数仓数据存储 | ODPS | √ | √ | 读 、写 | | | ADB | | √ | 写 | | | ADS | | √ | 写 | | | OSS | √ | √ | 读 、写 | | | OCS | | √ | 写 | | | Hologres | | √ | 写 | | | AnalyticDB For PostgreSQL | | √ | 写 | | 阿里云中间件 | datahub | √ | √ | 读 、写 | | | SLS | √ | √ | 读 、写 | | 图数据库 | 阿里云 GDB | √ | √ | 读 、写 | | | Neo4j | | √ | 写 | | NoSQL数据存储 | OTS | √ | √ | 读 、写 | | | Hbase0.94 | √ | √ | 读 、写 | | | Hbase1.1 | √ | √ | 读 、写 | | | Phoenix4.x | √ | √ | 读 、写 | | | Phoenix5.x | √ | √ | 读 、写 | | | MongoDB | √ | √ | 读 、写 | | | Cassandra | √ | √ | 读 、写 | | 数仓数据存储 | StarRocks | √ | √ | 读 、写 | | | ApacheDoris | | √ | 写 | | | ClickHouse | √ | √ | 读 、写 | | | Databend | | √ | 写 | | | Hive | √ | √ | 读 、写 | | | kudu | | √ | 写 | | | selectdb | | √ | 写 | | 无结构化数据存储 | TxtFile | √ | √ | 读 、写 | | | FTP | √ | √ | 读 、写 | | | HDFS | √ | √ | 读 、写 | | | Elasticsearch | | √ | 写 | | 时间序列数据库 | OpenTSDB | √ | | 读 | | | TSDB | √ | √ | 读 、写 | | | TDengine | √ | √ | 读 、写 | 阿里云DataWorks数据集成 目前DataX的已有能力已经全部融和进阿里云的数据集成,并且比DataX更加高效、安全,同时数据集成具备DataX不具备的其它高级特性和功能。可以理解为数据集成是DataX的全面升级的商业化用版本,为企业可以提供稳定、可靠、安全的数据传输服务。与DataX相比,数据集成主要有以下几大突出特点: 支持实时同步: • 功能简介:https://help.aliyun.com/document_detail/181912.html • 支持的数据源:https://help.aliyun.com/document_detail/146778.html • 支持数据处理:https://help.aliyun.com/document_detail/146777.html 离线同步数据源种类大幅度扩充: • 新增比如:DB2、Kafka、Hologres、MetaQ、SAPHANA、达梦等等,持续扩充中 • 离线同步支持的数据源:https://help.aliyun.com/document_detail/137670.html • 具备同步解决方案: • 解决方案系统:https://help.aliyun.com/document_detail/171765.html • 一键全增量:https://help.aliyun.com/document_detail/175676.html • 整库迁移:https://help.aliyun.com/document_detail/137809.html • 批量上云:https://help.aliyun.com/document_detail/146671.html • 更新更多能力请访问:https://help.aliyun.com/document_detail/137663.html • 我要开发新的插件 请点击:DataX插件开发宝典 重要版本更新说明 DataX 后续计划月度迭代更新,也欢迎感兴趣的同学提交 Pull requests,月度更新内容如下。 • [datax_v202309](https://github.com/alibaba/DataX/releases/tag/datax_v202309) • 支持Phoenix 同步数据添加 where条件 • 支持华为 GuassDB读写插件 • 修复ClickReader 插件运行报错 Can't find bundle for base name • 增加 DataX调试模块 • 修复 orc空文件报错问题 • 优化obwriter性能 • txtfilewriter 增加导出为insert语句功能支持 • HdfsReader/HdfsWriter 支持parquet读写能力 • [datax_v202308](https://github.com/alibaba/DataX/releases/tag/datax_v202308) • OTS 插件更新 • databend 插件更新 • Oceanbase驱动修复 • [datax_v202306](https://github.com/alibaba/DataX/releases/tag/datax_v202306) • 精简代码 • 新增插件(neo4jwriter、clickhousewriter) • 优化插件、修复问题(oceanbase、hdfs、databend、txtfile) • [datax_v202303](https://github.com/alibaba/DataX/releases/tag/datax_v202303) • 精简代码 • 新增插件(adbmysqlwriter、databendwriter、selectdbwriter) • 优化插件、修复问题(sqlserver、hdfs、cassandra、kudu、oss) • fastjson 升级到 fastjson2 • [datax_v202210](https://github.com/alibaba/DataX/releases/tag/datax_v202210) • 涉及通道能力更新(OceanBase、Tdengine、Doris等) • [datax_v202209](https://github.com/alibaba/DataX/releases/tag/datax_v202209) • 涉及通道能力更新(MaxCompute、Datahub、SLS等)、安全漏洞更新、通用打包更新等 • [datax_v202205](https://github.com/alibaba/DataX/releases/tag/datax_v202205) • 涉及通道能力更新(MaxCompute、Hologres、OSS、Tdengine等)、安全漏洞更新、通用打包更新等 项目成员 核心Contributions: 言柏 、枕水、秋奇、青砾、一斅、云时 感谢天烬、光戈、祁然、巴真、静行对DataX做出的贡献。 License This software is free to use under the Apache License Apache license. 请及时提出issue给我们。请前往:DataxIssue 开源版DataX企业用户 ` 用户咨询支持: 钉钉群目前暂时受到了一些管控策略影响,建议大家有问题优先在这里提交问题 Issue,DataX研发和社区会定期回答Issue中的问题,知识库丰富后也能帮助到后来的使用者。