知识图谱技术是人工智能技术的重要组成部分,以结构化的方式描述客观世界中概念、实体及其键之间的关系。 知识图谱技术提供了更好的组织、管理和理解互联网海量信息的能力,并将互联网信息表达为更接近人类认知世界的形式。 因此,建立具有语义处理能力和开放互联能力的知识库,可以在智能搜索、智能问答、个性化推荐等智能信息服务中重新产生应用价值。
本文主要内容如下
目录
知识图谱的研究背景及意义
简单地从字面意思上理解,知识图谱应该是一个更加结构化(主要是基于图)的知识库,能够有效地组织零散的知识,方便人们查阅,而不是像以前那样,面前有一堆文档。 ,没有明确的捕捉,哈哈哈。 因此,很容易想到知识图谱产生的背景一方面是互联网信息的爆炸和信息的无序化,第一个意义是让人们更快速有效地检索某些信息。 ,其次,随着科学技术的进步和发展,出现了很多先进的技术(比如深度学习)。 人们期望机器能够像人类一样理解海量的网络信息,并且更快、更准确、更智能。 获取您需要的信息。 为了满足这一需求,智能知识图谱应运而生。 它的研究意义还是为了方便人类! (你有没有发现,几乎所有的研究意义都是这四个字?)(这里我只是简单的表达一下,当然还有更多的研究意义,但是知识图谱才刚刚开始流行,当它出现的时候,用于信息检索,为了便于理解和记忆,记住这个就可以了)
一般来说,研究背景反映了研究意义。 以下是官网的语言说明。 非完美主义者可以跳过这些繁琐的文字表达,哈哈哈。
随着Web技术的不断演进和发展,人类先后经历了以文档互联为特征的“Web 1.0”时代、以数据互联为特征的“Web 2.0”时代,并正在迈向基于知识互联的全新“Web 3.0” 。 “时代。
知识互联网的目标是构建一个人类和机器都能理解的万维网,让人们的网络更加智能。 然而,由于万维网内容来源多、组织结构松散,给大数据环境下的知识互联带来了巨大的挑战。 因此,人们需要基于大数据环境下的知识组织原理,从新的视角探索符合网络信息资源发展变化、适应用户需求的知识互联方法,揭示大数据环境下的知识互联方法。人类认知在更深层次上的相关性。 性别。 知识图谱以其强大的语义处理能力和开放互联能力,使得Web 3.0提出的“Web of ”愿景成为可能。
进入21世纪,随着互联网的蓬勃发展和知识的爆炸式增长,搜索引擎得到广泛应用。 传统搜索引擎技术可以根据用户查询对网页进行快速排序,提高信息检索的效率。 然而,这种网页检索效率并不意味着用户可以快速、准确地获取信息和知识。 搜索引擎返回的大量结果仍然需要人工检查和过滤。 面对互联网上日益增长的信息量,网页检索方式(仅包括网页和网页之间的链接的传统文档)已经不能满足人们快速获取所需信息、全面掌握信息资源的需求。 为了满足这种需求,知识图谱技术应运而生。 他们力求以更加有序、有机的方式组织知识,使用户能够更加快速、准确地获取所需的知识和信息,并进行一定的知识挖掘和智能决策。从机构知识库到互联网搜索引擎,许多学者近年来,机构和机构对知识图谱进行了深入的研究,希望能够以更清晰、更动态的方式使用它(注:知识图谱必须是动态的、不断更新的,而不是静态的。(否则就失去了它的真正意义) )来展示各种概念之间的联系并实现
知识图谱的发展
20世纪中叶,Price等人提出了利用引文网络研究当代科学发展的方法,并首先提出了知识图谱的概念。 (注:这里的知识图谱与本博客主要介绍的知识图谱不同,这里指的是,本博客主要介绍的知识图谱指的是Graph)1977年,知识工程的概念在第五次会议上被提出。国际人工智能大会。 会议提出,以专家系统为代表的知识库系统开始得到广泛研究和应用。 直到20世纪90年代,机构知识库的概念才被提出。 此后,关于知识表示和知识组织的研究开始深入开展。 。 机构知识库系统广泛应用于各科研机构、单位的内部数据整合和对外宣传工作。 2012年11月,该公司率先提出知识图谱(Graph,KG)的概念,表示将在其搜索结果中加入知识图谱的功能。 其初衷是为了提高搜索引擎的能力,提升用户的搜索质量和搜索体验。 据2015年1月统计数据显示,构建的KG已拥有5亿个实体和约35亿个实体关系信息,并已广泛用于提高搜索引擎的搜索质量。 知识图谱(Graph)的概念虽然比较新,但并不是一个新的研究领域。 早在2006年,Lee就提出了数据链接(data)的思想,并呼吁推动和完善URI()、RDF()、OWL(Web)等相关技术标准,为数据链接(Web)的到来做好准备。语义网。 随后出现了语义网络研究的热潮。 知识图谱技术基于相关研究成果,是对现有语义网络技术的扬弃和升华。
知识图谱的定义
来自维基百科的KTV条目:知识图谱是用于增强其搜索引擎能力的知识库。 本质上,知识图谱是一种语义网络,它揭示了实体之间的关系,可以形式化地描述现实世界中的事物及其关系。 目前的知识图谱已经被用来指代各种大规模的知识库。 它可以定义如下:
知识图谱:是一种结构化的语义知识库,用于以符号形式描述物理世界中的概念及其关系。 其基本单位是“实体-关系-实体”三元组,以及实体及其相关属性值对。 实体通过关系相互连接,形成网络化的知识结构。
这里,知识图谱包含三个层次的含义:
知识图谱本身是由具有通过关系链接的属性的实体组成的网络知识库。 从图的角度来看,知识图谱本质上是一个概念网络,其中节点代表物理世界中的实体(或概念),实体之间的各种语义关系构成网络中的边。 因此,知识图谱是物理世界的符号表达。 知识图谱的研究价值在于它是在当前Web基础上构建的一层覆盖网络( )。 借助知识图谱,可以在网页上构建概念之间的链接关系,可以以最小的成本将互联网中积累的信息组织起来,转化为可以利用的知识。 知识图谱的应用价值在于它可以改变现有的信息检索方式。 一方面,通过推理实现概念检索(相对于现有的字符串模糊匹配方法); 另一方面,它以图形方式向用户展示流程。 分类结构化知识使人们从手动过滤网页寻找答案中解放出来。知识图谱架构
这里我们主要给出几个常见的知识图谱架构图。 这些图都是相似的,看图就可以清楚地理解,省去了繁琐的文字介绍。
知识图谱架构的主要部分:
- 知识抽取(包括实体抽取、关系抽取、属性抽取等)
- 知识融合(包括实体消歧等)
- 知识处理(包括本体架构、知识推理等)
- 知识更新
大规模知识库
详情请参考下图:
知识图谱关键技术
这部分是本文的重点。 前面的都需要对知识图谱的基础知识有基本的了解。 这部分是本文的核心和主要研究问题。 事实上,知识图谱的关键技术主要是围绕建立高质量的知识图谱来讨论的。 这里主要是简单的总结一下,方便大家理解和记忆。
实体抽取、关系抽取、属性抽取(本质上属性抽取也可以看做是关系抽取)
实体连接
实体消歧——专门用于解决同名实体之间歧义的技术。 实体消歧主要采用聚类方法。 聚类方法消歧的关键问题是如何定义实体对象与所指对象之间的相似性。 常用的方法有:《1》空间向量模型(词袋模型)》《2》语义模型(与空间向量模型类似,不同的是语义模型不仅包含词袋向量,还包含一些语义特征)《3》社交网络模型(该模型的基本假设是物以类聚,物以类聚,而在社会化环境中,实体所指对象的含义很大程度上是由与其关联的实体决定的)《4》百科知识模型(百科网站通常为每个实体分配一个单独的页面,包括与其他实体的链接页面的连接,百科知识模型利用这种链接关系来计算实体所指对象之间的相似度) 实体对齐 – 主要用于消除异构数据中存在的实体冲突、指向不明确等不一致问题,可以从顶层创建大规模的统一知识库,帮助机器理解多源异构数据,形成高质量的知识库。 对齐算法可分为成对实体对齐和集体实体对齐,集体实体对齐又可分为局部集体实体对齐和全局集体实体对齐。 实体对齐:《1》基于传统概率模型的实体对齐方法。 《2》基于机器学习的实体对齐方法。 局部实体对齐方法:局部实体对齐方法为实体本身的属性和与其关联的实体的属性设置不同的权重,通过加权求和来计算整体相似度。 还可以使用向量空间模型和余弦相似度。 为了确定大规模知识库中实体的相似度,该算法为每个实体建立名称向量和虚拟文档向量。 名称向量用于标识实体的属性,虚拟文档向量用于表示实体及其邻居的属性值。 节点属性值的加权和。 全局集体实体对齐方法:“1”基于相似性传播的集体实体对齐方法。 《2》基于概率模型的集体实体对齐方法
实体链接技术还可以从整体层面分类如下:
知识融合
知识加工
知识更新
人类所拥有的信息和知识量是时间单调递增的函数,因此知识图谱的内容也需要与时俱进,其构建过程是一个不断迭代和更新的过程。 从逻辑上讲,哭的更新包括概念层更新和数据层更新。 知识图谱的内容更新有两种方式:数据驱动的全面更新和增量更新。
知识表示
尽管三元组的知识表示形式被广泛认可,但它在计算效率和数据稀疏性方面面临着许多问题。 近年来,以深度学习为代表的学习技术取得了重要进展。 它可以将实体的语义信息表示为稠密的低维实值向量,然后高效地计算低维空间中的实体、关系以及它们之间的复杂关系。 语义关联对于知识库的构建、推理、融合和应用具有重要意义。 分布式表示旨在使用综合向量来表示实体对象的语义信息。 它是一种模仿人脑工作的表示机制。 通过知识表示得到的分布式表示用于知识图谱的计算、补全、推理等。 发挥重要作用的是:语义相似度计算、链接预测(又称知识图谱补全)等代表模型如下:
首先将实体用向量表示,然后通过关系矩阵将实体投影到与实体向量同纬度的向量空间中。 最后,通过计算投影向量之间的距离来判断实体之间存在关系的置信度。 由于距离模型中的关系矩阵是两个不同的矩阵,实体之间的协调性较差,这也是模型本身的主要缺陷。
针对距离模型的缺点,提出了一种利用单层神经网络的非线性模型(层模型,SLM)。 单层神经网络模型的非线性运算虽然可以进一步表征关系下实体的语义相关性,但大大增加了计算开销。
双线性模型也称为潜变量模型(LFM)。 双线性模型主要基于实体之间的关系,通过双线性变换来刻画关系下实体的语义相关性。 该模型不仅形式简单、易于计算,而且能够有效刻画实体之间的协同作用。
其基本思想是将不同维度的实体连接起来,表示实体之间复杂的语义关系。 当神经张量模型构建实体的向量表示时,它会对该实体中所有单词的向量进行平均。 这样一方面可以复用词向量来构造实体,另一方面有利于增强低维向量的密度。 以及实体和关系的语义计算。
通过矩阵分解可以得到低维向量表示,因此很多研究人员提出该方法可以用于知识表示学习,其中典型代表就是模型。
知识图谱的典型应用
知识图谱提供了更有效的方式来表达、组织、管理和利用互联网上海量、异构、动态的大数据,使网络更加智能,更接近人类的认知思维。
知识图谱知识抽取的问题与挑战
知识抽取是组织构建知识图谱、进行问答检索的主要任务,对于深层语义的理解和处理具有重要意义。 一些传统的知识元素(实体、关系、属性)提取技术和方法在有限领域和主题的数据集上取得了很好的效果。 但由于受到诸多限制,算法准确率和召回率较低,并且该方法的可扩展性不够强,不能很好地适应大规模、领域无关、高效的开放信息抽取的要求。 目前,基于大规模开放领域的知识抽取研究还处于起步阶段,仍需研究者努力攻关。 主要问题包括实体抽取、关系抽取和属性抽取。 其中,多语言、开放域的纯文本信息提取问题是当前面临的重要挑战。
, ,WOE, ,R2A2, 这些系统开创了开放领域环境下实体关系抽取中二元关系抽取和n元关系抽取的发展,具有广阔的研究前景。 此外,对于隐含关系的提取,目前主流的开放信息提取方法的性能较低或无法实现。 因此,基于马尔可夫逻辑网络和本体推理的联合推理方法将成为学术界的研究热点。 联合推理方法不仅可以推断出文本语料中无法显示的深层隐含信息,还可以综合信息提取各阶段的子任务,像杠杆一样在各方面之间寻求平衡,从而趋于整体向上理想的效果,为大规模开放领域的知识提取提供了新的思路。 除此之外,跨语言的知识抽取方法也成为当前的研究热点。 对于中国研究者来说,应该充分发挥自己在中文信息处理方面的天然优势,面对挑战和机遇,做出应有的贡献。
知识表示
目前现有的表示方法仍然基于以三元组形式完成的语义映射。 当面对复杂的知识类型和多源融合信息时,其表达能力仍然有限。 因此,有研究者提出针对不同的应用场景设计不同的知识表示方法。
现有工作将知识库中的实体关系类型分为四种类型:1对1、1对N、N对1和N对N。 这种划分方法无法直观地解释知识。 它不能更具体地表达复杂关系中的知识。 但发现分布式知识表示方法来源于认知科学,具有灵活的可扩展性。 综上所述,认知科学领域对人类知识类型的探索将有助于知识类型的划分、表示和处理,是未来知识表示研究的重要发展方向。
**多源信息融合中的知识表示研究尚处于起步阶段,涉及的信息源极其有限。 现有的少数作品主要集中在文本和知识库的融合上。 **此外,现有文献已将注意力转向多源信息融合进行关系表示领域,并在CNN上得到一定程度的实现。 在知识融合表示中,融合是最关键的早期步骤。 如果能够将多个来源的异构实体、关系等信息有机融合,将有助于进一步提高知识表示模型的区分能力和性能。 实体、关系、Web文本和多个知识库的集成都具有广阔的研究前景。
知识整合
知识融合对于知识图谱的构建和表示具有重要意义。 实体对齐是知识融合的关键步骤。 尽管相关研究取得了丰硕成果,但仍存在广阔的发展空间,具体如下:
大规模知识库不仅包含海量的知识,而且具有极其复杂的结构和数据特征,这对知识库实体对齐算法的准确性和执行效率提出了一定的挑战。 目前,许多研究人员正在研究并行或分布式版本的对齐算法。 在兼顾算法准确率和召回率的同时,他们将进一步利用并行编程环境MPI、分布式计算框架、Spark等平台完善知识库。 整体对齐效果。
人机众包算法可以有效提高知识融合的质量。 众包算法的设计强调数据量、知识库对齐质量和人工标注之间的权衡。 将众包平台与知识库对齐模型有机结合,能够有效判断人工标注的质量,都具有广阔的研究前景。
多语言知识库越来越多,多语言知识库的互补能力将为知识图谱在多语言搜索、问答、翻译等领域的实际应用提供更多可能性。 文献在该领域取得了一定的进展,但知识库对齐的质量不高,该领域仍存在广阔的研究空间。
综上所述,主要研究问题包括开放领域条件下的实体消歧、共指消解、外部知识库融合和关系数据库知识融合。 目前学术界广泛关注的一个问题是,如何在上下文信息有限(短文本、跨上下文、跨领域等)的情况下,准确地将文本中提取的实体与知识库中对应的实体联系起来。 )。
知识加工
知识处理是最有特色的知识图谱技术,也是该领域最大的挑战。 主要研究问题包括:本体自动构建、知识推理技术、知识质量评估方法以及推理技术应用。 目前本体构建问题的研究重点是聚类问题,而知识质量评估问题的研究主要集中在建立完整的质量评估技术标准和指标体系。 知识推理的方法和应用研究是目前该领域最困难和最有吸引力的问题。 它需要突破现有技术和思维方式的限制。 知识推理技术的创新也将对知识图谱的应用产生深远的影响。
知识更新
在知识更新过程中,增量更新技术是未来的发展方向。 但现有的知识更新技术严重依赖人工干预,可以预见,随着知识图谱的不断积累,依赖人工更新规则、逐条审核的旧模型所占比例将逐渐减少,自动化程度将不断提高。 如何保证自动更新的有效性是该领域面临的另一重大挑战。
知识应用
目前大规模知识图谱的应用场景和方法还比较有限。 其在智能搜索、深度问答、社交网络等行业的运用才刚刚起步,仍有广阔的拓展空间。 人们在探索需求、探索知识图谱的应用场景时,应充分考虑知识图谱的以下优势: 1)对海量、异构、动态的半结构化和非结构化数据的有效组织和表达能力; 2)依托基于强大知识库的深度知识推理能力; 3)与深度学习、脑科学等领域结合逐步拓展认知能力。 基于知识图谱技术的丰富积累和对人们需求的敏锐认知,我们可以为大规模知识图谱应用找到更广泛、更合适的应用方法。
其他
最具基础研究价值的挑战是如何解决知识的表达、存储和查询问题。 这个问题将伴随着知识图谱技术的发展,而这个问题的解决又会反过来影响之前提出的挑战和关键问题。 目前的知识图谱主要采用图数据库进行存储。 在受益于图数据库带来的查询效率的同时,也失去了关系数据库的优势,比如SQL语言支持、集合查询效率等。 在查询方面,如何处理自然语言查询,对其进行分析和推理,并将其翻译成知识图谱可以理解的查询表达式和等价表达式,也是知识图谱应用中需要解决的关键问题。
总结
知识图谱的重要性不仅在于它是全球知识库、支撑智能搜索、深度问答等智能应用的基础,更在于它是一把能够打开人类宝库的钥匙。知识并开拓许多相关学科的新领域。 发展机会。 从这个意义上说,知识图谱不仅是一项技术,更是一项战略资产。 本文的主要目的是介绍和宣传这项技术,希望能够吸引更多的人关注和投入这项研究工作。
参考文献2016-知识图谱技术综述_徐增林.2016-知识图谱构建技术综述_刘巧