实时计算平台建设规划

2023 年一月 4 号发布在生活

[toc]

实时计算场景业务上支持,实时计算平台化

核心目标

1. 平台可用性

目标：

实时计算场景业务上支持，譬如沪杭甬
轻量化，可独立运行，也可通过对接数据层对接
快速部署，平台及周边相关组件可通过一键部署，一键清理
构建实时数仓，提供实时数据流管理
离线数据沉淀，支持流批一体
打造同盾实时大数据平台，定位是实时场景的整体解决方案

实现路径：

版本迭代：根据初版规划的几个大模块，通过版本持续迭代，功能不断加强、提高可用性、稳定性
关注社区：对社区应用持续性关注，学习好的思路，不断打磨产品
自动化：自动化部署项目对平台相关组件部署、卸载支持
技术调研：对 clickhouse、iceberg、hudi、druid、hive 等数据库/数据湖产品调研，与 flink 的适配性

2. 货架产品

目标：

打造适用于私有云、PAAS、云端等场景需求

实现路径：

前端优化：前后端分离架构，优化前端交互，模块可拆分
计算引擎：Flink 流计算引擎，未来跟进社区实现流批一体
存储分离：实时数仓、离线数仓、维度数仓
业务挖掘：在公司内部挖掘业务方需求，提供实时计算解决方案

3. 知识管理

目标：

产品目录：产品相关文档留存
项目目录：不同版本功能需求列表，项目时间线
技术文档：技术调研、产品调研、行业调研相关文档记录
运维目录：机器资源集中管理，机器用途、资源占用情况

实现路径：

在公司 wiki 创建产品相关目录，并记录相关文档信息

4. 版本迭代

目标：

flink 最佳实践
硬核实时计算平台
实时计算通用性场景落地

实现路径：

完整性：先完成平台模块最小可用版本：总览、作业开发、数据运维、系统管理
实时数仓：数据中心模块在数据湖，流批一体技术选型确定，功能补充到平台
易用性：沉淀行业通用性业务，快速导入不同场景业务

5. 技术支持

目标：

流溯第一个 release 版本发布
挖掘公司内部业务场景，支持 2 个及以上业务方需求
私有云对外客户 POC、项目落地

实现路径

release 发版：版本快速迭代，完成可用范围广、轻量级产品
产品推广：利用公司内部资源，寻求业务方，迁移历史实时计算任务，挖掘新的落地场景
项目落地：对售前同事培训，激活潜在客户，支持 POC、项目落地

扩展目标

1. 数据湖

目标：

数据源流批一体，将数据湖与 Flink 结合，支持实时读写
支持实时数仓数据持久化

实现路径：

调研 iceberg、hudi 与 flink 适配场景

2. k8s

目标：

flink 作业可以运行在 k8s 进行弹性扩缩容

实现路径：

调研 flink on k8s

建设计划

目标	周期	价值	实现路径
平台可用性	4~6 月	支持 PAAS、云端场景	发布最小可用版本
数据湖调研	4~5 月	为实时数据持久化、流批同源做准备	调研 iceberg、hudi
平台完整性	6~7 月	引入数据湖，提供数据管理功能	完善数据中心模块
自动化部署	7~8 月	可快速部署，拆卸，满足 poc，自动化运维等场景	自动化部署项目升级
产品推广	6~7 月	挖掘客户需求，寻找落地场景	内外部推广
flink on k8s	7~9 月	为 flink 提供弹性扩缩容，解决流量峰值、反压等情况	调研 kubernetes
项目落地	7~12 月	切实了解客户真实需求，输出产品能力	业务、项目支持

作者的图片

阿·哲

从事Java 3年、Hadoop、Spark、Flink等大数据技术10年，擅长大数据实时解决方案！

码农🙈

杭州