设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 234|回复: 1

结构化与半结构化知识获取介绍

[复制链接]
发表于 2019-11-13 18:00:00 | 显示全部楼层 |阅读模式

从不同的来源、不同结构的数据中进行知识提取存入到知识图谱,这一过程我们称之为知识获取。从知识的来源大致可以分为三类,分别是结构化数据转换、半结构化数据提取和非结构化文本数据提取。
结构化数据转换
结构化数据转换就是指将关系型数据库数据,转换为RDF结构知识图谱的知识获取方式。W3C在2012年专门为此制定了一个标准R2RML(Relational database to RDF Mapping Language)。这是一种可以用于表示从关系型数据库到RDF数据集的自定义映射的语言,通过这种映射关系,我们可以将关系型数据库中的数据转换为自定义的知识图谱结构。
虽然这种转换并没有直接生成真正的RDF数据集,仅仅只是在数据库和知识图谱的本体中间做了一重映射关系,但是通过表示映射关系的mapping文件,系统可以将对RDF三元组的查询等操作翻译成对应的SQL语句,快速将企业过去积累的数据转化为知识图谱,这种转化后的数据本身以及数据之间的关系都符合业务的需要,可以让产品快速落地进行迭代。
半结构化数据
半结构化的数据是指没有按照RDF格式,但是却有着一定规律的网络数据,通过网络爬虫爬取完整的网页信息之后,再通过包装器(wrapper)将其转换成知识图谱数据。
半结构化的数据来源主要有两个,一是维基百科、百度百科这类百科网站的信息表格(infobox),另外则是来源于各类网页中的文本、列表数据,如图所示。
在百度百科中搜索乔布斯的相关词条会发现这样一个表格,表格中详细记录了乔布斯与其他实体之间的关系,与搜索的词条之间形成了一个完整的 RDF三元组,例如乔布斯的国籍是美国。通过对百科网站的infobox进行信息抽取,可以快速获得高质量的知识实体。但是,通过infobox只能抽取到实例层数据,对于类层面的关系还需要通过别的方式来进行构建,例如自顶向下由领域专家构建。
对于其他的网页信息而言,抽取数据时需要过滤掉网页中含有的广告、外链等冗余信息,只保留有实际需要的知识信息,这需要根据网页的HTML代码标签构建专用的网页包装器。
如果给每一个网页都开发一个专门的包装器,不仅需要投入大量的开发人力,而且通用性会比较差,为了解决这个问题,可以先对需要爬取的网页进行聚类,针对聚类来设计包装器会大幅提高知识获取的速度。
通过爬虫和包装器抽取互联网的公开信息会面临一个问题,就是随着网站的更新迭代,网页的信息结构可能会发生改变,既是一个微小的变动也可能会导致原本构建的包装器失效无法再继续工作。对于这个问题最简单的办法是重新创建一个新的包装器以适应网站的升级,但是如果爬取的网站数量非常多,这种做法不但效率很低而且会给开发人员带来很重的工作负担。
为了能维持包装器的正常工作,我们可以对需要采集的数据进行数据标注,用机器学习的方法对数据的特征进行学习并构建出模型,进而在整个网页站点下使用模型自动生成新的包装器进行数据的抽取。

回复

使用道具 举报

发表于 2019-11-13 18:00:03 | 显示全部楼层
顶起顶起顶起
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4 京公海网安备110108001289号  

GMT+8, 2019-12-16 16:50 , Processed in 0.326029 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表