搜索
您的当前位置:首页知识图谱研究综述

知识图谱研究综述

来源:飒榕旅游知识分享网
第37卷第4期赤峰学院学报渊自然科学版冤Vol.37No.42021年4月JournalofChifengUniversity(NaturalScienceEdition)Apr.2021知识图谱研究综述刘燕袁贾志杰袁闫利华袁邹妍渊赤峰学院数学与计算机科学学院袁内蒙古赤峰024000冤摘要院知识图谱将知识库以一种图谱的形式展现出来袁使知识具有可解释性尧可推理性袁从而使机器具备认知能力袁是人工智能的重要基石遥本文对知识图谱构建的关键技术尧工具以及应用进行了综述袁并且对知识图谱未来的研究方向做出展望遥关键词院知识图谱曰实体抽取曰知识融合中图分类号院TP391文献标识码院A文章编号院1673-260X渊2021冤04-0033-041知识图谱概念及主要应用用户推荐一个小规模的商品集合袁知识图谱为推荐知识图谱[1]系统提供了额外的辅助信息来源袁可以提高推荐系大规模语义网络渊袁K它包含了各种各样的实体nowledgeGraph冤本质上是一种尧概念统的精度遥易趣正在构建其产品知识图谱袁从而给以及实体之间的语义关系袁是大数据时代知识表示出产品的定位和吸引买家的因素[3]的重要方式之一遥2012年google发布了基于知识2知识图谱的主要特征遥图谱的搜索引擎产品袁由于知识图谱将知识以一种知识图谱利用图的形式展现数据实体的关系袁直观尧可视化的方式展现出来袁并且可以建立碎片数据通常以三元组RDF的形式表示袁S尧O化的数据的关联袁因此袁知识图谱成为语义搜索尧问在图谱中代表节点袁表示实体袁P在图谱中代表边袁答系统尧推荐系统等领域的研究热点[2]表示实体之间的野关系冶遥例如袁在民政救助服务领语义搜索可以利用知识图谱准确地捕捉用户遥域袁针对遭受意外事件受到民政救助信息的三元的搜索意图袁进而用基于知识图谱中的知识解决传组<人员姓名袁救助原因袁救助金额>形成可视化的统搜索中遇到自然语言输入带来的表达多样性尧数据袁如图1所示[4]歧义性问题袁通过实体链接实现知识与文档的混遥合检索遥Google尧百度和搜狗等搜索引擎公司通过构建KnowledgeGraph尧知心和知立方改进搜索质量遥问答系统是信息服务的高级形式袁基于知识图谱的问答系统能够让计算机以精准的自然语言自动回答用户提出的问题遥北京大学构建了基于开放领域知识图谱的自然语言问答(QA)系统-gAnswer袁图1民政救助知识图谱用户通过自然语言输入袁经过一系列的转化能直接知识图谱是一个空间的概念袁使知识具有可视得到最终答案遥化的展示袁能够直观地看到实体之间的关系袁通常个性化推荐系统是所有面向用户的互联网产具有以下几个特征遥品的核心技术袁在大量商品中袁猜测用户的兴趣袁给2.1知识图谱可以直观地表示实体之间的关系收稿日期院2021-01-05基金项目院赤峰学院服务赤峰市经济社会发展应用项目渊cfxycf201846冤-33-.com.cn. All Rights Reserved.计算机与科学技术如图1所示袁展示了民政救助知识图谱中野救助人冶和野救助原因冶野救助金额冶实体之间的关系袁将民政部门救助情况直观地展示出来遥2.2知识图谱使知识具有可扩展性随着时间变化袁可以在知识图谱中增加新的知识节点渊实体冤袁新的知识结构和知识内容能够累积成一个完整的知识结构袁在图1中还可以抽取救助人的家庭成员尧收入等信息袁使知识图谱更完备遥2.3知识图谱使知识具有可推理性知识图谱中大多数的关系是缺失的袁基于已有的三元组关系袁知识图谱还可以推导出新的关系袁可以进一步实现知识发现遥例如在知识图谱中存在<老虎袁科袁猫科>袁<猫科袁目袁食肉目>这样的关系袁可以推导出<老虎袁目袁食肉目>这样的关系遥2.4知识图谱使知识具有可解释性由于知识图谱具有可推理性袁使得知识具有可解释性袁尤其是在推荐系统的应用袁能为用户推荐需要的商品袁还能解释推荐的原因遥2.5知识图谱的数据存储形式可以提高检索速度知识图谱所采用的知识存储方式袁在知识查询的过程中可以提高查询速度和效率袁尤其是随着数据量的增多和关联深度的增加袁更能展现知识图谱的数据查询和分析的优势遥3知识图谱构建的主要技术知识图谱主要分为知识图谱构建和知识图谱应用两个部分袁其中知识图谱的构建是关键袁基本流程和主要技术为模型设计尧知识抽取尧知识融合尧知识存储和管理遥3.1模型设计知识图谱的逻辑结构主要分为模式层和数据层袁模式层在数据层之上袁是知识图谱的核心袁模式层存储的是经过提炼的知识袁用本体表示袁本体渊念之间的关系ontology冤的本质是概念模型[5]库来管理袁主要的本体库有W遥通常知识图谱的模式层采用本体袁表达的是概念及概ordNet尧DBpedia尧Cys等袁可以借助本体库对公理尧规则和约束条件的支持能力来规范实体的类型以及实体之间的关系类型遥例如袁高血压尧糖尿病等实体在本体库中归类为病症袁发烧尧咳嗽归类为症状袁在本体库中的规-34-则约束病症和症状之间的联系遥比较流行的本体编辑工具是Prot佴g佴袁用户只需要在概念层次上进行本体的模型构建袁比较灵活袁但缺乏对中文的支持遥3.2知识抽取知识抽取是在海量尧多源异构的数据中抽取出实体和关系袁对结构化和半结构化的数据可以通过专门的工具进行抽取袁对于非结构化的数据进行实体抽取通常有三种方法遥3.2.1基于词典和规则的方法基于词典和规则的实体抽取方法需要通过人工定义命名词典尧实体抽取规则模板袁从文中抽取出三元组信息遥例如袁在医疗领域知识抽取过程中我们可以定义这样的规则院X+谓语+疾病渊X作为实体可能是疾病尧药品尧症状冤袁将这个规则保存在信息库袁对于要抽取的文本经过处理后和信息库的规则进行匹配袁基于以上规则袁对于野高血压引起脑出血尧脑梗等疾病冶的描述袁可以抽取出<高血压袁引起袁脑出血>这样的三元组信息遥这种方法的缺点是需要依靠大量的人工标注和制定规则袁对于不同的应用领域袁需要专家重新标注词典和定义规则袁效率低尧可移植性差袁但准确性较高遥3.2.2基于统计的机器学习的方法基于统计模型的方法通过对已经标注语料采用统计方法进行训练袁并保存训练模型袁从训练语料中挖掘出特征袁对于要抽取的文本调用模板获取命名实体遥主要模型有隐马尔可夫模型尧条件马尔可夫模型尧最大熵模型尧条件随机场模型袁这些模型都是将命名实体作为序列标注问题处理遥例如袁隐马尔可夫模型[6]就是在给定模型下袁从一定的观察序列X选取一个最优的标记序列Y袁使得P渊Y|X冤的概率最大袁如图2所示遥图2隐马尔可夫模型3.2.3基于深度学习的方法深度学习方法将文本词向量作为输入袁通过深.com.cn. All Rights Reserved.计算机与科学技术度神经网络学习模型实现端到端的命名实体识别袁不再依赖人工定义的特征袁这种方法的迁移学习能力强袁但由于网络模型繁多袁对参数设置依赖大袁模型可解释性较差遥目前袁采用深度学习的模型有BiLSTM尧CNN尧RNN尧BiLSTM-CRF等遥CNN渊卷积神经网络模型冤分为卷积层尧池化层和全连接层袁卷积层的输入是一个M伊N的矩阵袁N代表的是词向量的维度袁M代表的是词的个数袁例如袁一句话中有5个词袁每个词是10维的词向量袁那么输入就是一个5伊10的矩阵遥卷积操作是指卷积核在输入张量上按步长进行左右上下滑动袁每一步的滑动卷积核与张量重叠部分的元素按位相乘后求和[7]用多个卷积核抽取多种特征遥通常一个卷积核用来抽取一个特征袁卷积层的输出结果为袁一般特征图袁一个卷积核对应一个特征图袁如图3所示遥池化层主要是对卷积结果进行池化操作袁降低卷积操作的数据量遥全连接层对卷积层和池化层提取的特征进行分类遥图3卷积操作3.3知识融合知识融合是构建不同数据源获取的知识之间的关联袁在构建知识图谱之前袁首先需要消除来自多个不同数据源知识的歧义袁以及进行知识的统一表达等袁然后才能将实体链接到知识库中的实体上袁对于知识库中没有的知识补全到知识库中遥通常知识融合的方法有基于聚类的实体消歧和基于实体链接的命名实体消歧遥基于聚类的实体消歧不给定目标实体列表袁以聚类的方式对实体指称项进行消歧遥方法是对每个实体指称抽取其特征渊上下文的词袁实体袁概念冤袁组成特征向量袁然后利用向量的余弦相似度进行比较袁将指称项聚类到与之最相近的实体指称项集合中[8]遥基于实体链接的命名实体消歧给定目标实体列表袁对于待消歧的实体根据上下文信息通过打分的方式获取分数最高的实体作为目标实体遥例如袁中关村的苹果不错袁苹果是水果苹果还是苹果电脑钥通过计算相关度渊中关村袁水果苹果冤=0.1袁相关度渊中关村尧电脑苹果冤=0.7进行实体消歧遥3.4知识存储和管理3.4.1基于邻接表的存储方式知识图谱中的知识以三元组的形式表示袁在抽取完实体尧关系后袁将三元组的知识存储在数据库中袁基于邻接表的存储方式的典型是gStore[9]方式将每个实体点的邻接表转化成一个二进制位袁这种串袁将二进制位串按照知识图谱中的实体之间的关系连接起来遥查询的时候将查询的子图也按照这种方式转化成一个二进制位串的形式袁那么袁知识图谱的查询就变成了子图匹配的问题遥gStore采用的查询语言为SPARQL查询语言遥3.4.2基于图数据库的存储方式图数据库是基于图模型袁对图数据进行存储尧操作和访问的一项技术袁与关系型数据库相比袁图数据库在处理关联数据时展现出高性能尧灵活尧敏捷的优势[10]层以图的方式把用户定义的节点和关系存储起来遥典型的图数据库是Neo4j[11]袁Neo4j底袁通过这种方式袁实现从某个节点开始袁利用节点与节点之间的关系袁找出另外的节点之间的关系遥Neo4j的查询语言为Cypher查询语言遥3.4.3基于分布式的知识图谱存储由于知识图谱的数据规模不断扩大袁为了应对大规模知识图谱的存储和管理袁将知识图谱采用分布式的存储方式袁一种是利用现有的云存储平台和云平台上成熟的任务处理模式处理知识图谱的任务袁称为基于云平台的分布式知识图谱存储方法曰另一种根据知识图谱的查询要求袁将知识图谱数据按照一定的方法进行划分袁形成不同的分片袁分别存储这些分片袁称为基于数据划分的分布式知识图谱存储方法袁采用这种方法面临的问题就是如何对数据进行划分袁使得知识图谱查询速度最快遥4知识图谱未来研究方向4.1大规模知识图谱的自动化构建由于知识图谱在不同认知领域的广泛应用袁要-35-.com.cn. All Rights Reserved.计算机与科学技术求能从大规模非结构化内容中自动构建知识图谱遥目前袁自动化构建知识图谱有四大技术重点院如何自动化地从结构化数据库映射为知识图谱并做知识融合曰如何通过小样本学习和领域知识迁移的技术减少人工标注成本曰如何从非结构化文本中做篇章级的事件抽取和多事件关联曰基于深度学习的知识表示在各个构建的环节的应用遥4.2时序性知识图谱的构建目前袁知识图谱中展现的实体或者是概念的关系都是静态的袁事实不随时间的变化而变化袁对知识图谱的时序动态研究比较少袁然而袁在大数据背景下袁能够实现数据的实时采集袁事实通常具有时效性袁静态的知识图谱难以适应对数据准确性要求较高的业务遥例如袁在知识图谱中实体的数量尧实体之间的关系或者是实体的属性值会实时变化袁如果简单的通过对图数据库进行delete和insert操作实现袁会大大影响知识图谱的性能袁那么如何构建具有时序性的知识图谱成为研究方向之一遥5结束语知识图谱提供了一种新的知识表示尧存储尧管理方式袁使机器能够理解知识袁进行知识推理袁在很多领域得到了广泛应用袁未来袁知识图的研究也会越来越受到重视遥本文介绍了知识图谱的应用尧构建以及未来研究方向袁目前知识图谱的应用领域相对较小袁下一步我们要在大规模知识图谱的自动化构技术和时序性知识图谱的构建做深入研究袁提高知识图谱在其他领域的应用水平遥要要要参考文献要要要要要要要院要要要要要要要要要也1页漆桂林,工程,2017,高桓,3渊01吴天星.冤:4-25.知识图谱研究进展[J].情报-36-也2页黄恒琪,系统应用,于娟,2019,廖晓.28(6)知识图谱研究综述[:1-12.J].计算机也3页G.andGichalni.Induslengestry-[Js]ca.Clomeknowmunilcatedgeiongrofaphsthe:lAesCsonsM,2019,62(08):36-43.也4页YalianzatiLionu,RYesanearchZou,ofLihuaPeoplYe'an,sZLihiveljiiehoodJia,VSerisu鄄鄄viceDatabasedonKnowledgeGraph[C].2020IEEEInternationalConferenceonInformationTechnology,BigDataandArtificialIntelligence(ICIBA).IEEE,2020.也5页邓志鸿,北京大学学报,唐世渭,2002,张铭,38(等.05)O:731-ntology737.研究综述[J].也6页赵琳瑛.研究[D]基于隐马尔可夫模型的中文实体识别.西安:西安电子科技大学,2008.也7页广州:霍振朗.华南理工大学,基于深度学习的命名实体识别研究[2018.D].也8页范鹏程,述的实体联合消歧方法[沈英汉,许洪波,程学旗.J].中文信息学报,融合实体知识描2020,35渊07冤:42-49.也9页王鑫,[J].软件学报,邹磊,王朝坤.2019,30(知识图谱数据管理研究综述07):2139-2174.也10页KOurL]t.htCtpsagl://we.Grwaphw.forDbesatabas.comes/sGitoes/cogniMainsttrieamve鄄[J/world/2019/07/18/graph-databases-go-mainstream/#32d93bd0179d,2019-07-18.也11页ZedgeouYG,raphLiuofY.AiTrheCrasIhmplDemataentbasatediononKNnoweo4jl鄄*[C]//2020IEEE4thInformationTechnology,Networking,ElectronicandAutomationCon鄄trolConference(ITNEC).IEEE,2020..com.cn. All Rights Reserved.

因篇幅问题不能全部显示,请点此查看更多更全内容

Top