介绍图谱概念,产业链图谱模型设计

概念

什么是图,图是离散数学的一个分支,通过拓扑图结构来表达实体之间的关联关系,简单理解就2个概念:

  • 节点(node)或者顶点(vertex) 产业链图谱模型设计-0
  • 关系(relationship)或者边(edge) 产业链图谱模型设计-1

图是通过点跟边的组合,行成无向图或者有向图 产业链图谱模型设计-2产业链图谱模型设计-3

图关系最小单位

点-边->点 产业链图谱模型设计-4

产业链图建模 产业链图谱模型设计-5

产业链图应用场景

产业链图谱查询

产业链图谱模型设计-6

根据产业链节点查找关联的所有企业

产业链图谱模型设计-7

根据关联关系查找关联的所有企业

产业链图谱模型设计-8

图谱重构多阶段

核心价值:

从底层技术架构以及数据模型按照知识图谱建模思路打好基础,支撑上层应用可用,再逐步调整上层应用业务逻辑,可作为长期发展路径,成为可持续成长的商业级数据产品。 数据底层可以让数据更加准确,快速,稳定,上层业务逻辑简化,对内维护成本降低,对外客户使用成本降低。

一、MVP版本(Minimal variable Product)

核心目标:

  • 底层数据重构
  • 支撑现有中枢重构

涉及调整:

  • 主要是数据层面以及数据获取层面的调整
  • 涉及人员

底层图数据结构重构

  • 旧版本是通过二维表来记录线性层级关系,数据冗余且繁杂,重新梳理数据结构,通过图数据结构以及图数据库支撑关联关系数据,从根本上提升性能问题(单Query由分钟级查询->秒级查询)
  • 旧版本把标签/规则作为关联图谱与实体的中间节点链路,业务规则维护的成本会越来越大,数据准确性难度只会随着线性增加。从数据层面弱化标签/规则关联,只作为数据关联的中间临时数据,最终业务核心使用的数据只保留图谱节点与实体的直接关联数据,标签不再作为节点,而是作为关联关系 产业链图谱模型设计-9

支撑中枢业务关联逻辑重构

  • 迁移当前部分核心的产业链多层级图谱
  • 部分核心产业链产业链图谱与企业关联
  • 通过关联规则查询图谱节点与企业的关联关系(保持不变,长期需要弱化,或者换一种方式圈选)

二、知识图谱重构后续版本内容

核心目标:

  • 全产业链图谱及企业关联迁移
  • 全量实体数据表重构(企业、专利、新闻、人员等),通过OLAP引擎,提供Ad-Hoc查询
  • 业务调整:弱化标签、规则圈选逻辑(减少过期无效规则/减少重复规则/)
  • 通过增全合并/在线实时等方式进行数据关联,减少数据重复/复杂规则计算,提升数据准确性
  • 支撑全量谱图与实体在线圈选关联
  • 支撑查询条件历史记录,可快速圈选
  • 终态是对内沉淀业务图谱及实体关联关系,对图进行维护,对外售卖图信息,或者提供专业知识图谱数据产品服务
  • 后续版本包含且不限于以上优化路径

涉及调整:

根据实际情况进行阶段性调整及人员规划

时间计划:

根据实际调整及人员预估