基于TransE算法计算相似度的理论知识

知识图谱

什么是知识图谱

2012年5月,搜索引擎巨头谷歌在它的搜索页面中首次引入“知识图谱”:用户除了得到搜索网页链接外,还将看到与查询词有关的更加智能化的答案。谷歌高级副总裁艾米特·辛格博士一语道破知识图谱的重要意义所在:“构成这个世界的是实体,而非字符串(things, not strings)”。

传统搜索引擎只是机械地比对查询词和网页之间的匹配关系,没有真正理解用户要查询的到底是什么。而知识图谱则会将“泰山”理解为一个“实体”(entity),也就是一个现实世界中的事物。

知识图谱可以为查询词赋予丰富的语义信息,建立与现实世界实体的关系,从而帮助用户更快找到所需的信息。

知识图谱的构建

  1. 大规模知识库
    维基百科。

  2. 互联网链接数据
    国际万维网组织W3C在2007年发起了开放互联数据项目(Linked Open Data,LOD)。LOD以RDF(Resource Description Framework)形式在Web上发布各种开放数据集,RDF是一种描述结构化知识的框架,它将实体间的关系表示为(实体1,关系,实体2)的三元组。LOD还允许在不同来源的数据项之间设置RDF链接,实现语义Web知识库。

  3. 互联网网页文本数据
    与整个互联网相比,维基百科等知识库仍只能算沧海一粟。因此,人们还需要从海量互联网网页中直接抽取知识。OpenIE项目,NELL项目。与从维基百科中抽取的知识库相比,开放信息抽取从无结构网页中抽取的信息准确率还很低,其主要原因在于网页形式多样,噪声信息较多,信息可信度较低。

  4. 多数据源的知识融合
    从以上数据来源进行知识图谱构建并非孤立地进行。在商用知识图谱构建过程中,需要实现多数据源的知识融合。

开放知识图谱

  • DBpedia 是一个大规模的多语言百科知识图谱,可视为是维基百科的结构化版本。
  • Yago 是一个整合了维基百科与 WordNet的大规模本体。
  • Wikidata 是一个可以自由协作编辑的多语言百科知识库。
  • BabelNet 是目前世界范围内最大的多语言百科同义词典。
  • ConceptNet 是一个大规模的多语言常识知识库,其本质为一个以自然语言的方式描述人类常识的大型语义网络。
  • 中文目前可用的大规模开放知识图谱有 Zhishi.me与XLore[103],中文开放知识图谱联盟(OpenKG)。

知识图谱推理技术

知识库推理可以粗略地分为基于符号的推理和基于统计的推理。

基于符号的推理可以从一个已有的知识图谱,利用规则,
推理出新的实体间关系,还可以对知识图谱进行逻辑的冲突检测。
基于统计的推理方法一般指关系机器学习方法。

基于统计:实体关系学习方法

实体关系学习的目的是学习知识图谱中实例和实例之间的关系。是最近几年知识图谱的一个比较热的研究方向,可以分为潜在特征模型和图特征模型两种。

潜在特征模型通过实例的潜在特征来解释三元组。

其中包括:
翻译(translation)模型将实体与关系统一映射至低维向量空间中,且认为关系向量中承载了头实体翻译至尾实体的潜在特征。因此,通过发掘、对比向量空间中存在类似潜在特征的实体向量对,我们可以得到知识图谱中潜在的三元组关系。

词向量表示

one-hot representation

就是用一个很长的向量来表示一个词,向量的长度为词典的大小,
向量的分量只有一个 1,其他全为 0, 1 的位置对应该词在词典中的位置。

word embedding

通过训练将某种语言中的每一个词映射成一个固定长度的短向量
(当然这里的“短”是相对于 one-hot representation 的“长”而言的)
将所有这些向量放在一起形成一个词向量空间,
而每一向量则为该空间中的一个点,在这个空间上引入“距离”,
则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性了。

相似度计算

核心思路就是:
开源知识图谱三元组数据-> 利用知识图谱的翻译模型-> 得到词向量表示的word embedding形式-> 计算相似度

References

《大数据智能》第2章:知识图谱 -by 刘知远THU
知识图谱研究进展 -by 漆桂林、高桓、吴天星
知识图谱向量化表示 -by 窦洪健
词嵌入2017年进展全面梳理:趋势和未来方向 by 机器之心
词的表示: one-hot 与 embedding by 集智俱乐部活动笔记
实体相似度计算的研究 -by 李阳