产业链标签自动关联方案v1.0
企业产业链自动关联方案
背景
目前的产业与企业关联是通过人工标注,正负向词,黑白名单等制定标签规则,通过定期或手动执行任务计算,基于人工制定的上万个规则+亿级别的基础数据(企业数据、专利、新闻、招投标等等)进行复杂的关联计算,再通过人工抽样对数据校准。
在实施的时候沉没陈本比较高,主要有两点:
- 耗费大量人工:打标,制定规则,维护规则,数据校准。
- 耗费大量计算资源:亿级别的基础数据关联上万规则,重复join 多表计算性能低下
沉没陈本过大还不是最大的问题,相对明显的风险是目前上万的规则是通过多人,两年的时间积累出来的:
- 很多编写规则的人已经离职,不利于老规则的维护
- 面对一个标签往往是需要多个规则结合使用才能更大的保证数据准确性,对于新老规则不方便调整
- 规则是随时间持续性线性甚至指数增长的,面对数万的规则,且不说结果准确性多少,面对庞大的规则集编写的有效性都很难评估。
目标
通过算法自动化将产业链图谱与企业做关联,定时或者实时产出产业链图谱关系。
通过机器学习、人工智能、大模型等技术工具,把计算过程当成黑盒,用算法替代规则,把关联过程简单化,计算能力复杂化,通过直接对计算结果评估,常见的评估指标包括准确率、召回率、精确率、F1 值等,还可以训练集和测试集通过交叉验证,正负样本等数据,通过不断优化计算模型,产出更加准确的结果。
算法应用场景
● 实体识别:实体识别是将自然语言文本中的实体映射到知识图谱中的实体的过程。实体识别可以使用命名实体识别(Named Entity Recognition, NER)算法,如CRF、LSTM等。
● 关系抽取:关系抽取是将自然语言文本中的关系映射到知识图谱中的实体之间的关系的过程。关系抽取可以使用依赖解析、规则引擎、机器学习等方法。
● 实体链接:实体链接是将自然语言文本中的实体与知识图谱中的实体进行匹配和连接的过程。实体链接可以使用最近最邻(k-nearest neighbors, k-NN)、基于向量的匹配(Vector Space Matching, VSM)等方法。
● 知识图谱构建:知识图谱构建是将自然语言文本、数据库、API等多种数据源中的信息整合和组织到知识图谱中的过程。知识图谱构建可以使用RDF、OWL、SKOS等知识表示语言。
● 知识图谱推理:知识图谱推理是利用知识图谱中的实体和关系进行推理和推测的过程。知识图谱推理可以使用规则引擎、逻辑推理、图论等方法。
产业链技术架构图

业务流程图

产业链建模
定义产业链图谱,绘制产业节点以及层级关联关系

算法建模
通过机器学习算法对公司实体识别,实体消歧,实体抽取等
关联算法
通过机器学习算法将产业节点与公司实体节点进行自动化关联,抽取关联关系

数据入库
数据写入 OLAP 引擎以及图数据库
优化算法模型
通过算法指标、人工校验的正负样本对算法模型进行调优,优化算法模型,提升模型结果准确性
