产业链图谱模型设计
介绍图谱概念,产业链图谱模型设计
概念
什么是图,图是离散数学的一个分支,通过拓扑图结构来表达实体之间的关联关系,简单理解就2个概念:
- 节点(node)或者顶点(vertex)

- 关系(relationship)或者边(edge)

图是通过点跟边的组合,行成无向图或者有向图


图关系最小单位
点-边->点

产业链图建模

产业链图应用场景
产业链图谱查询

根据产业链节点查找关联的所有企业

根据关联关系查找关联的所有企业

图谱重构多阶段
核心价值:
从底层技术架构以及数据模型按照知识图谱建模思路打好基础,支撑上层应用可用,再逐步调整上层应用业务逻辑,可作为长期发展路径,成为可持续成长的商业级数据产品。 数据底层可以让数据更加准确,快速,稳定,上层业务逻辑简化,对内维护成本降低,对外客户使用成本降低。
一、MVP版本(Minimal variable Product)
核心目标:
- 底层数据重构
- 支撑现有中枢重构
涉及调整:
- 主要是数据层面以及数据获取层面的调整
- 涉及人员
底层图数据结构重构
- 旧版本是通过二维表来记录线性层级关系,数据冗余且繁杂,重新梳理数据结构,通过图数据结构以及图数据库支撑关联关系数据,从根本上提升性能问题(单Query由分钟级查询->秒级查询)
- 旧版本把标签/规则作为关联图谱与实体的中间节点链路,业务规则维护的成本会越来越大,数据准确性难度只会随着线性增加。从数据层面弱化标签/规则关联,只作为数据关联的中间临时数据,最终业务核心使用的数据只保留图谱节点与实体的直接关联数据,标签不再作为节点,而是作为关联关系

支撑中枢业务关联逻辑重构
- 迁移当前部分核心的产业链多层级图谱
- 部分核心产业链产业链图谱与企业关联
- 通过关联规则查询图谱节点与企业的关联关系(保持不变,长期需要弱化,或者换一种方式圈选)
二、知识图谱重构后续版本内容
核心目标:
- 全产业链图谱及企业关联迁移
- 全量实体数据表重构(企业、专利、新闻、人员等),通过OLAP引擎,提供Ad-Hoc查询
- 业务调整:弱化标签、规则圈选逻辑(减少过期无效规则/减少重复规则/)
- 通过增全合并/在线实时等方式进行数据关联,减少数据重复/复杂规则计算,提升数据准确性
- 支撑全量谱图与实体在线圈选关联
- 支撑查询条件历史记录,可快速圈选
- 终态是对内沉淀业务图谱及实体关联关系,对图进行维护,对外售卖图信息,或者提供专业知识图谱数据产品服务
- 后续版本包含且不限于以上优化路径
涉及调整:
根据实际情况进行阶段性调整及人员规划
时间计划:
根据实际调整及人员预估
