实时计算平台建设规划
[toc]
实时计算场景业务上支持,实时计算平台化
核心目标
1. 平台可用性
目标:
- 实时计算场景业务上支持,譬如沪杭甬
- 轻量化,可独立运行,也可通过对接数据层对接
- 快速部署,平台及周边相关组件可通过一键部署,一键清理
- 构建实时数仓,提供实时数据流管理
- 离线数据沉淀,支持流批一体
- 打造同盾实时大数据平台,定位是实时场景的整体解决方案
实现路径:
- 版本迭代:根据初版规划的几个大模块,通过版本持续迭代,功能不断加强、提高可用性、稳定性
- 关注社区:对社区应用持续性关注,学习好的思路,不断打磨产品
- 自动化:自动化部署项目对平台相关组件部署、卸载支持
- 技术调研:对 clickhouse、iceberg、hudi、druid、hive 等数据库/数据湖产品调研,与 flink 的适配性
2. 货架产品
目标:
- 打造适用于私有云、PAAS、云端等场景需求
实现路径:
- 前端优化:前后端分离架构,优化前端交互,模块可拆分
- 计算引擎:Flink 流计算引擎,未来跟进社区实现流批一体
- 存储分离:实时数仓、离线数仓、维度数仓
- 业务挖掘:在公司内部挖掘业务方需求,提供实时计算解决方案
3. 知识管理
目标:
- 产品目录:产品相关文档留存
- 项目目录:不同版本功能需求列表,项目时间线
- 技术文档:技术调研、产品调研、行业调研相关文档记录
- 运维目录:机器资源集中管理,机器用途、资源占用情况
实现路径:
- 在公司 wiki 创建产品相关目录,并记录相关文档信息
4. 版本迭代
目标:
- flink 最佳实践
- 硬核实时计算平台
- 实时计算通用性场景落地
实现路径:
- 完整性:先完成平台模块最小可用版本:总览、作业开发、数据运维、系统管理
- 实时数仓:数据中心模块在数据湖,流批一体技术选型确定,功能补充到平台
- 易用性:沉淀行业通用性业务,快速导入不同场景业务
5. 技术支持
目标:
- 流溯第一个 release 版本发布
- 挖掘公司内部业务场景,支持 2 个及以上业务方需求
- 私有云对外客户 POC、项目落地
实现路径
- release 发版:版本快速迭代,完成可用范围广、轻量级产品
- 产品推广:利用公司内部资源,寻求业务方,迁移历史实时计算任务,挖掘新的落地场景
- 项目落地:对售前同事培训,激活潜在客户,支持 POC、项目落地
扩展目标
1. 数据湖
目标:
- 数据源流批一体,将数据湖与 Flink 结合,支持实时读写
- 支持实时数仓数据持久化
实现路径:
- 调研 iceberg、hudi 与 flink 适配场景
2. k8s
目标:
- flink 作业可以运行在 k8s 进行弹性扩缩容
实现路径:
- 调研 flink on k8s
建设计划
| 目标 | 周期 | 价值 | 实现路径 |
|---|---|---|---|
| 平台可用性 | 4~6 月 | 支持 PAAS、云端场景 | 发布最小可用版本 |
| 数据湖调研 | 4~5 月 | 为实时数据持久化、流批同源做准备 | 调研 iceberg、hudi |
| 平台完整性 | 6~7 月 | 引入数据湖,提供数据管理功能 | 完善数据中心模块 |
| 自动化部署 | 7~8 月 | 可快速部署,拆卸,满足 poc,自动化运维等场景 | 自动化部署项目升级 |
| 产品推广 | 6~7 月 | 挖掘客户需求,寻找落地场景 | 内外部推广 |
| flink on k8s | 7~9 月 | 为 flink 提供弹性扩缩容,解决流量峰值、反压等情况 | 调研 kubernetes |
| 项目落地 | 7~12 月 | 切实了解客户真实需求,输出产品能力 | 业务、项目支持 |
