基于清华大学李涓子教授“知识图谱研究综述”一文的阅读笔记
根据论文大概分为几个模块
一、概念
知识图谱旨在描述客观世界的概念、实体、事件及其间的关系
概念是指人们认识世界过程中形成的对客观事物的概念化,如人、动物、组织机构等;
实体是客观世界中的具体事物,如篮球运动员姚明、互联网公司腾讯等;
事件是客观世界的活动,如地震、买卖行为等;
关系描述概念、实体事件之间客观存在的关联,如毕业学院描述了个人及其所在院校的关系,运动员和篮球运动员之间的概念和子概念的关系等。
知识图谱是将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网信息的能力。涉及的技术:认知计算、知识表示和推理、信息检索与抽取、自然语言处理和语义web、数据挖掘与机器学习等, 知识图谱技术具体地包括知识表示、知识图谱构建和知识图谱的应用三方面。
知识表示研究客观世界知识的建模,从知识的表示和存储,以及知识的使用和计算来使得知识便于机器的识别和理解;
知识图谱的构建解决如何建立计算机算法从客观世界或者或联网的各种数据资源中获取客观世界的知识,主要研究使用何种数据和方法抽取何种知识;
知识图谱应用主要研究如何利用知识图谱建立基于知识的智能服务系统,更好地解决实际应用问题。
二、现有的知识图谱资源
人工构建(英文wordNet和Cyc项目以及中文的HowNet,Cyc是世界知识库)
群体智慧构建(维基百科是至今利用群体智能建立的互联网上最大的知识资源,因此出现了很多使用维基百科构建知识库的项目,如DBpedia、YAGO和Freebase等。)
基于互联网链接 数 据 构 建 的 知 识 资 源(国际万维网组织W3C 于2007年发起的开放互联数据项目(LOD)
基于机器学习和信息抽取构建的知识图谱(从互联网数据自动获取知识是建立可持续发展知识图谱的发展趋势。这类知识图谱构建的特点是面向互联网的大规模、开放、异构环境,利用机器学习和信息抽取技术自动获取 Web上的信息构建知识库。如华盛顿大学图灵中心的KnowItAll和TextRunner)
三、知识表示
基于符号逻辑的表示(与人类的自然语言比较接近,是最早使用的一种知识表示方法,但在大数据时期不能很好的解决知识表示的问题)
万维网内容的知识表示(XML,基于万维网资源语义元数据描述框架RDF,基于描述逻辑的本体描述语言OWL,XML通过内容标记,便于数据交换;(重点)RDF通过三元组(主体,谓词,客体)描述互联网资源之间的语义关系;OWL构建在RDF之上,具有更强的表达及解释能力的语言。)
表示学习(通过机器学习或深度学习,将研究对象的语义信息表示为稠密低维的实值向量。对不同粒度的知识单元进行隐式的向量化表示,来支持大数据环境下知识的快速计算)
三、知识图谱的构建技术
互联网上分布、异构的海量资源 ->概念层次学习,事实学习;已有的结构化异构语义资源->异构资源的语义集成
1.概念层次学习通过合理的技术,抽取知识表示中的概念,确定其上下位关系
2.事实学习:
有监督的事实知识获取方法需要有已标注文档作为训练集,可以分为基于规则学习、基于分类标注和基于序列标注方法等。基于规则学习的语义标注方法从带语义标注的语料中自动学习标注规则,利用规则对数据资源进行语义标注,适合比较规范资源上的知识获取;基于分类的知识获取方法将知识获取转化为分类问题,根据确定的标注特征从标注语料中学习标注模型;基于序列模式标注的方法同时考虑多个语义标注之间的关系,可以提高标注的准确率。
半监督的知识获取方法主要包括自扩展方法和弱监督方法。自扩展方法需要初始的种子实体对,根据这些种子实体对,发现新的语义模板,再对语料进行迭代抽取以发现新的实体对,其主要问题是语义漂移;弱监督方法使用知识库中的关系启发式地标注文本,其主要问题在于训练实例中本身带有大量噪音。
无监督的知识获取方法主要是开放信息抽取,使用自然语言处理方法,无须预先给定要抽取的关系类别,自动将自然语言句子转换为命题,这种方法在处理复杂句子时效果会受到影响
3.语义集成,就是在异构知识库之间,发现实体间的等价关系,从而实现知识共享。主要方法包括:
基于文本的方法主要利用本体中实体的文本信息,例如实体的标签和摘要。通过计算两个实体字符串之间的相似度来确定实体之间是否具有匹配关系。
基于结构的 方 法 主 要 利 用 本 体 的 图 结 构 信 息 对 本 体 进 行 匹 配。利用本体的图结构,对实体间的相似度进行传播,从而提高对齐的效果。
基于背景知识的方法一般使用DBpedia或WordNet等已有的大规模领域无关知识库作为背景知识来提高匹配效果。
基于机器学习的方法将本体匹配问题视为机器学习中的分类或优化问题,从而采取机器学习方法获得匹配结果。
四、知识图谱的应用
语义搜索、知识问答,以及基于知识的大数据分析与决策