王彪
论坛版主
论坛版主
  • UID99
  • 粉丝1
  • 关注0
  • 发帖数11
阅读:6756回复:1

构建知识图谱

楼主#
更多 发布于:2019-03-26 11:09


构建知识图谱的步骤


根据对知识图谱的特征,建立知识图谱步骤一般有以下几步:

图片:1169201-b23c8f823b5bef26.png




知识图谱的设计
主要根据特定领域下的知识图谱的要求进行设计:

1. 需要哪些实体、关系和属性?
 
2. 哪些属性可以做为实体,哪些实体可以作为属性? 3. 哪些信息不需要放在知识图谱中? 信息获取

  1. 对于结构化的数据,比如存储在关系型数据库中的数据,一般可以直接进行获取,

  2. 非结构化数据或半结构化数据
    对于此类数据,例如网页,通过关系抽取、实体抽取技术进行获取

知识融合
实体对齐
从非结构化数据中提取的数据,如 生日出生日期实际上是一个实体,为了减少知识图谱的稀疏
性,需要进行实体对齐:

主流的实体对齐技术有以下几种
1. 基于属性的方法
 
2. 基于聚类的方法
 
3. 主动学习方法
 
4. 基于自学习和嵌入的方法
知识合并
在前面的实体对齐中,已经将实体链接到知识库中对应的正确实体对象那里去了,但需要注意的是,
实体链接链接的是从半结构化数据和非结构化数据那里通过信息抽取提取出来的数据。

那么除了半结构化数据和非结构化数据以外,还有个更方便的数据来源——结构化数据,如外部知识
库和关系数据库。

对于这部分结构化数据的处理,一般来说知识合并主要分为两种:
合并外部知识库,主要处理数据层和模式层的冲突
  合并关系数据库


知识加工
知识加工主要包括3方面内容:本体构建、知识推理和质量评估。
1.    本体构建
本体(ontology)是指概念、抽象,如“人”、“事”、“物”等。 本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式 构建本体。因为人工方式工作量巨大,且很难找到符合要求的专家,因此当前主流的全局本体库产品,都是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。
自动化本体构建过程包含三个阶段:      
实体并列关系相似度计算
实体上下位关系抽取
本体的生成

2.知识推理
在完成了本体构建这一步之后,一个知识图谱的雏形便已经搭建好了。但可能在这个时候,知识 图谱之间大多数关系都是残缺的,缺失值非常严重,那么这个时候,我们就可以使用知识推理技 术,去完成进一步的知识发现。 比如:如果AB的配偶,BC的主席,C坐落于D,那么我们就可以认为,A生活在D这个城市。 根据这一条规则,可以去挖掘一下在图里,是不是还有其他的path满足这个条件,那么就可以将 AD两个关联起来。

3.质量评估
质量评估也是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。
知识更新
从逻辑上看,知识库的更新包括概念层的更新和数据层的更新。

概念层的更新是指新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中。

数据层的更新主要是新增或更新实体、关系、属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗杂等问题)等可靠数据源,并选择在各数据源中出现频率高的事实和属性加入知识库。

知识图谱的内容更新有两种方式:

全面更新:指以更新后的全部数据为输入,从零开始构建知识图谱。这种方法比较简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护;

增量更新:以当前新增数据为输入,向现有知识图谱中添加新增知识。这种方式资源消耗小,但目前
仍需要大量人工干预(定义规则等),因此实施起来十分困难。
杨铁军
骑士
骑士
  • UID325
  • 粉丝2
  • 关注3
  • 发帖数19
  • 社区居民
沙发#
发布于:2019-03-27 14:02
游客

返回顶部