[toc]

实时计算场景业务上支持,实时计算平台化

核心目标

1. 平台可用性

目标:

  • 实时计算场景业务上支持,譬如沪杭甬
  • 轻量化,可独立运行,也可通过对接数据层对接
  • 快速部署,平台及周边相关组件可通过一键部署,一键清理
  • 构建实时数仓,提供实时数据流管理
  • 离线数据沉淀,支持流批一体
  • 打造同盾实时大数据平台,定位是实时场景的整体解决方案

实现路径:

  • 版本迭代:根据初版规划的几个大模块,通过版本持续迭代,功能不断加强、提高可用性、稳定性
  • 关注社区:对社区应用持续性关注,学习好的思路,不断打磨产品
  • 自动化:自动化部署项目对平台相关组件部署、卸载支持
  • 技术调研:对 clickhouse、iceberg、hudi、druid、hive 等数据库/数据湖产品调研,与 flink 的适配性

2. 货架产品

目标:

  • 打造适用于私有云、PAAS、云端等场景需求

实现路径:

  • 前端优化:前后端分离架构,优化前端交互,模块可拆分
  • 计算引擎:Flink 流计算引擎,未来跟进社区实现流批一体
  • 存储分离:实时数仓、离线数仓、维度数仓
  • 业务挖掘:在公司内部挖掘业务方需求,提供实时计算解决方案

3. 知识管理

目标:

  • 产品目录:产品相关文档留存
  • 项目目录:不同版本功能需求列表,项目时间线
  • 技术文档:技术调研、产品调研、行业调研相关文档记录
  • 运维目录:机器资源集中管理,机器用途、资源占用情况

实现路径:

  • 在公司 wiki 创建产品相关目录,并记录相关文档信息

4. 版本迭代

目标:

  • flink 最佳实践
  • 硬核实时计算平台
  • 实时计算通用性场景落地

实现路径:

  • 完整性:先完成平台模块最小可用版本:总览、作业开发、数据运维、系统管理
  • 实时数仓:数据中心模块在数据湖,流批一体技术选型确定,功能补充到平台
  • 易用性:沉淀行业通用性业务,快速导入不同场景业务

5. 技术支持

目标:

  • 流溯第一个 release 版本发布
  • 挖掘公司内部业务场景,支持 2 个及以上业务方需求
  • 私有云对外客户 POC、项目落地

实现路径

  • release 发版:版本快速迭代,完成可用范围广、轻量级产品
  • 产品推广:利用公司内部资源,寻求业务方,迁移历史实时计算任务,挖掘新的落地场景
  • 项目落地:对售前同事培训,激活潜在客户,支持 POC、项目落地

扩展目标

1. 数据湖

目标:

  • 数据源流批一体,将数据湖与 Flink 结合,支持实时读写
  • 支持实时数仓数据持久化

实现路径:

  • 调研 iceberg、hudi 与 flink 适配场景

2. k8s

目标:

  • flink 作业可以运行在 k8s 进行弹性扩缩容

实现路径:

  • 调研 flink on k8s

建设计划

目标周期价值实现路径
平台可用性4~6 月支持 PAAS、云端场景发布最小可用版本
数据湖调研4~5 月为实时数据持久化、流批同源做准备调研 iceberg、hudi
平台完整性6~7 月引入数据湖,提供数据管理功能完善数据中心模块
自动化部署7~8 月可快速部署,拆卸,满足 poc,自动化运维等场景自动化部署项目升级
产品推广6~7 月挖掘客户需求,寻找落地场景内外部推广
flink on k8s7~9 月为 flink 提供弹性扩缩容,解决流量峰值、反压等情况调研 kubernetes
项目落地7~12 月切实了解客户真实需求,输出产品能力业务、项目支持