知识图谱构建(Knowledge Graph Construction)

发布时间:2016-01-31  栏目:自然语言处理  评论:0 Comments

长期以来,Google 搜索的进化主要着眼于改善排名,为用户提供最有价值的网页。但搜索的形式并没有太大变化,输入关键词-页面显示十个结果,结果由标题、链接以及关键词相关的简短内文片段组成。虽然现在搜索页面也会插入图片等结果,不过搜索结果大体上依然通过文字简介的形式提供。

今天推出的知识图谱则不同,它在搜索页面右栏集成了更直接的答案。比如搜索“taj mahal”(泰姬陵)会呈现泰姬陵在地图上的位置、来自维基百科的文字简介、建筑相关信息表(高度、开放时间、设计师等)。页面下方还有与  taj mahal 同名的人物、赌场结果。

新搜索页面,taj mahal 搜索结果(图片点击放大)

就目前得到的信息来看,最迟去年 11 月 Google 就已经开始小范围公开测试知识图谱,不过这功能当时只显示为“来源”。

从用户角度来看,知识图谱的好处显而易见。你能够直接获得搜索内容的基本信息汇总,而不用根据文字片段和网站名称判断究竟哪个链接最有价值,然后再打开新页面人工过滤页面内的有价值信息。

 

个人感觉,这个跟NLU也许有些关系。

 

知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。

facebook构建了之前大家热捧的兴趣图谱,而兴趣图谱也是知识图谱的一种,终究都是图,只是大家定义的图中的节点类型,边类型不同而已,上述图模型可用W3C提出的资源描述框架RDF 或属性图(property graph)来表示。大家有兴趣,可以看一下这些标准。

为了更好地理解知识图谱,我们先来看一下其在搜索中的展现形式——知识卡片(Knowledge Card)。知识卡片为用户查询中所包含的实体或返回的答案提供详细的结构化摘要,是特定于查询(query specific)的知识图谱。例如,当在搜索引擎中输入“姚明”作为关键词时,我们发现搜索结果页面的右侧原先用于置放广告的地方被知识卡片所取代。广告被移至左上角,而广告下面则显示的是传统的搜索结果,即匹配关键词的文档列表。这个布局上的微调也预示着各大搜索引擎在提高用户体验和直接返回答案方面的决心。

为了提高搜索质量,特别是提供如对话搜索和复杂问答等新的搜索体验,不仅要求知识图谱包含大量高质量的常识性知识,还要能及时发现并添加新知识。在这种背景下,知识图谱通过收集来自百科类站点和各种垂直站点的结构化数据来覆盖大部分常识性知识。这些数据普遍质量较高,更新速度慢。

另一方面,知识图谱通过从各种半结构化数据(形如HTML表格)抽取相关实体的属性-值对来丰富实体的描述。此外,也可以通过搜索日志(query log)发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。相比高质量的常识性知识,通过数据挖掘抽取得到的知识数据更大,更能反映当前用户的查询需求并能及时发现最新的实体或事实,但其质量相对较差,存在一定的错误。这些知识利用互联网的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信度,并通过人工审核加入到知识图谱中。

实体对齐(ObjectAlignment):旨在发现具有不同标识实体但却代表真实世界中同一对象的那些实体,并将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中。虽然实体对齐在数据库领域被广泛研究,但面对如此多异构数据源上的Web规模的实体对齐,这还是第一次尝试,目前多采用聚类的方法。聚类的关键在于定义合适的相似度度量。

下面介绍一下知识图谱上的挖掘:

通过各种信息抽取和数据集成技术已经可以构建Web规模的知识图谱。为了进一步增加图谱的知识覆盖率,需要进一步在知识图谱上进行挖掘。主要技术包括推理、实体重要性排序和相关实体挖掘。

一、推理(Reasoning或Inference):被广泛用于发现隐含知识。推理功能一般通过可扩展的规则引擎来完成。知识图谱上的规则一般涉及两大类。一类是针对属性的,即通过数值计算来获取其属性值。例如:知识图谱中包含某人的出生年月,我们可以通过当前日期减去其出生年月获取其年龄。这类规则对于那些属性值随时间或其他因素发生改变的情况特别有用。另一类是针对关系的,即通过(链式)规则发现实体间的隐含关系。例如,我们可以定义规定:岳父是妻子的父亲。利用这条规则,当已知姚明的妻子(叶莉)和叶莉的父亲(叶发)时,可以推出姚明的岳父是叶发。

二、实体重要性排序:是指当用户查询涉及多个实体时,搜索引擎将选择与查询更相关且更重要的实体来展示。实体的相关性度量需在查询时在线计算,而实体重要性与查询无关可离线计算。和传统的网页链接组成的图相比,知识图谱中的节点是各种类型的实体,而图中的边是各种语义关系。由于不同的实体和语义关系的流行程度以及抽取的置信度不同,这些因素将影响实体重要性的最终计算结果。

三、相关实体挖掘:是指在相同查询中共现的实体,或在同一个查询会话(Session)中被提到的其他实体称为相关实体。一个常用的做法是将这些查询或会话看作是虚拟文档,将其中出现的实体看作是文档中的词条,使用主题模型(如LDA)发现虚拟文档集中的主题分布。当用户输入查询时,搜索引擎分析查询的主题分布并选出最相关的主题。同时,搜索引擎将给出该主题中与知识卡片所展现的实体最相关的那些实体作为“其他人还搜了”的推荐结果。

留下评论

You must be logged in to post a comment.

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

welonshen@gmail.com

2015 in Shanghai