Taier
Taier 数据开发与治理平台介绍
一、Taier 是什么?
Taier 是一个开源的数据开发与数据治理平台,设计理念来源于阿里巴巴 DataWorks,定位为:
数据任务的统一开发、调度、治理与管理平台
Taier 本身不处理数据,而是作为数据任务的控制中心,对接各种执行引擎(如 ChunJun、Flink、Spark、Hive、SQL 等),实现:
数据同步任务管理
数据加工任务管理
数据血缘追踪
任务依赖管理
权限治理
开发/生产环境隔离
可视化数据任务编排
二、Taier 的定位(非常关键)
Taier 不是调度器,而是:
数据开发治理平台
和 DolphinScheduler 的本质区别:
| 对比项 | DolphinScheduler | Taier |
|---|---|---|
| 核心定位 | 工作流调度器 | 数据开发治理平台 |
| 是否理解“数据任务” | ❌ | ✅ |
| 数据分层管理(ODS/DWD/DWS) | ❌ | ✅ |
| 数据血缘 | ❌ | ✅ |
| 元数据管理 | ❌ | ✅ |
| 权限治理(表级/任务级) | ❌ | ✅ |
| 适合数据中台 | ❌ | ✅ |
三、Taier 解决什么问题?
在公司数据任务逐渐增多后,常见问题:
不清楚某张表由哪个同步任务产生
不清楚某张宽表依赖哪些源表
同步任务、清洗任务、宽表任务混乱
任务关系靠人工记忆
无数据血缘、无元数据管理
权限控制混乱
难以扩展为数据治理体系
Taier 的作用是:
让所有数据任务纳入统一治理体系
四、Taier 与 ChunJun 的关系
Taier 与 ChunJun 是控制层与执行层的关系:
Taier(任务管理/治理)
↓
ChunJun(数据同步执行)
↓
MySQL / Redis / Hive / ES / Kafka ...
Taier:管理任务、生成配置、远程执行
ChunJun:真正执行数据同步
两者不需要部署在同一台机器
五、Taier 的核心能力
1. 数据任务统一管理
所有任务都以“数据任务”形式存在:
数据同步任务(ChunJun)
SQL 清洗任务
Hive/Flink/Spark 任务
2. 数据血缘自动形成
可追踪:
表来源
任务依赖关系
数据链路
3. 数据分层支持(ODS DWD DWS)
天然适合数仓建设。
4. 开发 / 生产环境隔离
支持任务发布流程与版本管理。
5. 权限治理
支持:
项目级
表级
任务级权限控制
六、最小部署架构
Taier 部署非常轻量,最小只需:
MySQL (元数据)
Taier Server (Web + 调度中心)
Taier Worker (任务执行)
ChunJun (同步引擎)
不依赖 Hadoop Hive Spark 环境即可运行。
七、资源占用情况(生产实测)
| 组件 | 内存占用 |
|---|---|
| Taier Server | 1.5 ~ 2.5 GB |
| Taier Worker | 1 ~ 2 GB |
| ChunJun | 1 ~ 2 GB / 同步任务 |
| MySQL 压力 | 很低 |
任务数量从 50 增加到 500,Taier 内存基本不变。
八、适用场景
Taier 非常适合:
多数据源数据同步
构建数据仓库
建立数据治理体系
中小公司搭建数据中台
替代手工脚本 + 调度方式
作者:zws 创建时间:2026-02-10 17:04
最后编辑:zws 更新时间:2026-02-10 17:06
最后编辑:zws 更新时间:2026-02-10 17:06