实时计算平台产品介绍
流溯 是处理实时数据流的数据分析平台,是基于 Apache Flink 自研构建的一站式实时大数据平台,提供实时计算开发平台的同时,还会加入实时计算领域的最佳实践,以及相关的实时场景解决方案案例,平台包括 5 个模块。
- 总览 总览可以掌握当前项目平台各模块运行的情况,包含各模块精简信息展示,会有一些图表、监控信息等。
- 作业开发 可视化的 WebIDE 开发工作台,提供 SQL 作业编辑、Jar 包作业、Python 作业等开发编辑器,降低数据开发门槛。
- 作业运维 Flink 实时计算作业发布后,对计算任务进行启动、停止、重启、checkpoint、savepoint 等操作,提供 flink 运行环境,对作业统一运维,可以查看作业运行日志,运行监控等信息,对实时流作业运行情况一目了然,降低运维成本。
- 数据中心 数据中心的实时数仓是在实时计算开发体系架构中的一个最佳实践,通过平台规范化实时处理环节中产生的数据资产,将实时计算任务的输入输出数据通过表结构的定义对数据字段及血缘关系进行维护,对实时数据仓库的建设。 数据中心除了实时数仓,还可以将实时表同步到离线数仓进行持久化,在离线数仓中分层、结构数据与实时表相同。
- 系统管理 提供对平台运行环境的管理,包括有集群管理、项目管理、用户管理。
产品架构
流溯,主要使用 Hadoop 作为大规模存储和计算调度系统,用来运行 Flink 任务。并且,在此基础上构建各种应用来完善应用,数据集成和运维监控报警。在选型上,尽量是用支持容器和云原生的组件,方便在之后需要支持的 Kubernetes 上使用。在应用设计上,主要支持前后端分离,多个服务/微服务搭配,Nginx 接口融合聚集。
平台架构

系统和应用依赖

系统配置
平台服务端环境要求:
- 务器:
- 系统要求:Linux (Debian Buster, Centos7.x)
- Java 运行环境:Java 8
- 流溯
- 机器数量:1
- MySQL 版本:5.7.x
- Nginx
- Hadoop 集群
- 机器数量:建议 5 台及以上,具体看数据体量及业务复杂程度
- MySQL 版本:5.7.x
- 单台内核数:16 核+
- 单台内存:32G+
- 单台磁盘:500G+
- Kafka 集群:
- 机器数量:建议 3 台及以上,具体看数据体量及业务复杂程度
- 单台内核数:8 核+
- 单台内存:8G+
- 单台磁盘:500G+
- 监控服务:
- 机器数量:建议 1-2 台
- 单台内核数:4 核
- 单台内存:16G
- 单台磁盘:200G
客户端环境建议:
- 浏览器配置:建议使用谷歌 Chrome、火狐 Firefox 浏览器
- 硬件配置: 建议内存 2G、50G 硬盘以上
- 显示器分辨率:建议 1280*500 以上
