Taier 数据开发与治理平台介绍

官网 | Taier

一、Taier 是什么?

Taier 是一个开源的数据开发与数据治理平台,设计理念来源于阿里巴巴 DataWorks,定位为:

数据任务的统一开发、调度、治理与管理平台

Taier 本身不处理数据,而是作为数据任务的控制中心,对接各种执行引擎(如 ChunJun、Flink、Spark、Hive、SQL 等),实现:

  • 数据同步任务管理

  • 数据加工任务管理

  • 数据血缘追踪

  • 任务依赖管理

  • 权限治理

  • 开发/生产环境隔离

  • 可视化数据任务编排


二、Taier 的定位(非常关键)

Taier 不是调度器,而是:

数据开发治理平台

和 DolphinScheduler 的本质区别:

 

对比项DolphinSchedulerTaier
核心定位工作流调度器数据开发治理平台
是否理解“数据任务”
数据分层管理(ODS/DWD/DWS)
数据血缘
元数据管理
权限治理(表级/任务级)
适合数据中台

三、Taier 解决什么问题?

在公司数据任务逐渐增多后,常见问题:

  • 不清楚某张表由哪个同步任务产生

  • 不清楚某张宽表依赖哪些源表

  • 同步任务、清洗任务、宽表任务混乱

  • 任务关系靠人工记忆

  • 无数据血缘、无元数据管理

  • 权限控制混乱

  • 难以扩展为数据治理体系

Taier 的作用是:

让所有数据任务纳入统一治理体系

四、Taier 与 ChunJun 的关系

Taier 与 ChunJun 是控制层与执行层的关系:

Taier(任务管理/治理)

ChunJun(数据同步执行)

MySQL / Redis / Hive / ES / Kafka ...
  • Taier:管理任务、生成配置、远程执行

  • ChunJun:真正执行数据同步

  • 两者不需要部署在同一台机器

 


五、Taier 的核心能力

 

1. 数据任务统一管理

 

所有任务都以“数据任务”形式存在:

 

  • 数据同步任务(ChunJun)

  • SQL 清洗任务

  • Hive/Flink/Spark 任务

 


2. 数据血缘自动形成

 

可追踪:

 

  • 表来源

  • 任务依赖关系

  • 数据链路

 


3. 数据分层支持(ODS DWD DWS)

 

天然适合数仓建设。

 


4. 开发 / 生产环境隔离

 

支持任务发布流程与版本管理。

 


5. 权限治理

 

支持:

 

  • 项目级

  • 表级

  • 任务级权限控制

 


六、最小部署架构

 

Taier 部署非常轻量,最小只需:

MySQL        (元数据)
Taier Server (Web + 调度中心)
Taier Worker (任务执行)
ChunJun      (同步引擎)

不依赖 Hadoop Hive Spark 环境即可运行。

 


七、资源占用情况(生产实测)

 

组件内存占用
Taier Server1.5 ~ 2.5 GB
Taier Worker1 ~ 2 GB
ChunJun1 ~ 2 GB / 同步任务
MySQL 压力很低

任务数量从 50 增加到 500,Taier 内存基本不变。

 


八、适用场景

 

Taier 非常适合:

 

  • 多数据源数据同步

  • 构建数据仓库

  • 建立数据治理体系

  • 中小公司搭建数据中台

  • 替代手工脚本 + 调度方式

作者:zws  创建时间:2026-02-10 17:04
最后编辑:zws  更新时间:2026-02-10 17:06
上一篇:
下一篇: