知识谱基础(一)-什么是知识谱

网上有关“知识谱基础(一)-什么是知识谱”话题很是火热,小编也是针对知识谱基础(一)-什么是知识谱寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够...

网上有关“知识谱基础(一)-什么是知识谱”话题很是火热,小编也是针对知识谱基础(一)-什么是知识谱寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。

笔者是一只已经离职的AI产品经理,主要擅长的方向是知识图谱与自然语言处理,写这些文章是为了总结归纳目前已经搭建的知识体系,也在于科普。如有不对,请指正。

知识图谱在国内属于一个比较新兴的概念,国内目前paper都比较少,应用方主要集中在BAT这类手握海量数据的企业,这个概念是google在2012年提出的,当时主要是为了将传统的keyword-base搜索模型向基于语义的搜索升级。知识图谱可以用来更好的查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。

个人认为,知识图谱最大的优势是在于对数据的描述能力非常强大,各种机器学习算法虽然在预测能力上很不错,但是在描述能力上非常弱,知识图谱刚好填补了这部分空缺。

知识图谱的定义非常多,我这里提供一部分我自己的理解:

1.知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的强关系,我们用关系去描述两个实体之间的关联,例如姚明和火箭队之间的关系,他们的属性,我们就用“属性--值对“来刻画它的内在特性,比如说我们的人物,他有年龄、身高、体重属性。

2.知识图谱可以通过人为构建与定义,去描述各种概念之间的弱关系,例如:“忘了订单号”和“找回订单号”之间的关系

知识库目前可以分为两种类型:Curated KBs 和 Extracted KBs

Curated KBs :以yago2和freebase为代表,他们从维基百科和WordNet等知识库抽取了大量的实体及实体关系,可以把它理解城一种结构化的维基百科。

Extracted KBs :主要是以Open Information Extraction (Open IE),? Never-Ending Language Learning (NELL)为代表,他们直接从上亿个网页中抽取实体关系三元组。与freebase相比,这样得到的实体知识更具有多样性,而它们的实体关系和实体更多的则是自然语言的形式,如“姚明出生于上海。” 可以被表示为(“Yao Ming”, “was also born in”, “Shanghai”)。直接从网页中抽取出来的知识,也会存在一定的噪声,其精确度低于Curated KBs。

a)“姚明出生于上海”

b)“姚明是篮球运动员”

c)“姚明是现任中国篮协主席”

以上就是一条条知识,把大量的知识汇聚起来就成为了知识库(Knowledge Base)。我们可以从wikipedia,百度百科等百科全书获取到大量的知识。但是,这些百科全书的知识是由非结构化的自然语言组建而成的,这样的组织方式很适合人们阅读但并不适合计算机处理。

为了方便计算机的处理和理解,我们需要更加形式化、简洁化的方式去表示知识,那就是三元组(triple)。

“姚明出生于中国上海” 可以用三元组表示为(Yao Ming, PlaceOfBirth, Shanghai)[1]。这里我们可以简单的把三元组理解为(实体entity,实体关系relation,实体entity)。如果我们把实体看作是结点,把实体关系(包括属性,类别等等)看作是一条边,那么包含了大量三元组的知识库就成为了一个庞大的知识图。

有些时候会将实体称为topic,如Justin Bieber。实体关系也可分为两种,一种是属性property,一种是关系relation。如下图所示,属性和关系的最大区别在于,属性所在的三元组对应的两个实体,常常是一个topic和一个字符串,如属性Type/Gender,对应的三元组(Justin Bieber, Type, Person),而关系所在的三元组所对应的两个实体,常常是两个topic。如关系PlaceOfBrith,对应的三元组(Justin Bieber, PlaceOfBrith, London)。

(图中蓝色方块表示topic,橙色椭圆包括属性值,它们都属于知识库的实体;蓝色直线表示关系,橙色直线表示属性,它们都统称为知识库的实体关系,都可以用三元组刻画实体和实体关系)

这里只是简单介绍一下数据结构,知识表达这一块会在《知识图谱基础(二)-知识图谱的知识表达系统》中详细讲解。

读者只要记住,freebase的基础知识表达形式:(实体)-[关系]-(实体),(实体)-[关系]-(值)即可,参考图3,姚明和叶莉的关系。

通过知识图谱,不仅可以将互联网的信息表达成更接近人类认知世界的形式,而且提供了一种更好的组织、管理和利用海量信息的方式。下图是笔者整理的知识图谱有关的应用,接下来的一些文章笔者会对下面的应用进行剖析。

从图4上看,知识图谱的应用主要集中在搜索与推荐领域,robot(客服机器人,私人助理)是问答系统,本质上也是搜索与推荐的延伸。可能是因为知识图谱这项技术(特指freebase)诞生之初就是为了解决搜索问题的。知识存储这一块可能是企查查和启信宝这些企业发现使用图结构的数据比较好清洗加工。

在语义搜索这一块,知识图谱的搜索不同于常规的搜索,常规的搜索是根据keyword找到对应的网页集合,然后通过page rank等算法去给网页集合内的网页进行排名,然后展示给用户;基于知识图谱的搜索是在已有的图谱知识库中遍历知识,然后将查询到的知识返回给用户,通常如果路径正确,查询出来的知识只有1个或几个,相当精准。

问答系统这一块,系统同样会首先在知识图谱的帮助下对用户使用自然语言提出的问题进行语义分析和语法分析,进而将其转化成结构化形式的查询语句,然后在知识图谱中查询答案。

科普是普及科学或科学普及,也就是把道理深刻的科学道理勇浅显,明了的语言,让科学知识水平较低的人群易于接受,并能在实践中进行应用。著名的科普作家,比如前苏联的伊林,其代表作《十万个为什么》极大的推进了中国的科普进程,而近期科普代表作要数霍金的《时间简史》,《果壳中的宇宙》,用通俗易懂的语言来讲解相对论和物理,宇宙知识。

科普类文章的写作要有深厚的科学知识基础,并且语言功底要扎实,表达描述能力要强,与生活实际相结合,这些在《十万个为什么》您可以有深刻的体会。多阅读一些科普文章会有不小的帮助!

关于“知识谱基础(一)-什么是知识谱”这个话题的介绍,今天小编就给大家分享完了,如果对你有所帮助请保持对本站的关注!

本文来自作者[乜文勇]投稿,不代表华烁号立场,如若转载,请注明出处:https://hsyu.cn/jyfx/202501-65809.html

(11)

文章推荐

  • 曲江寒窑遗址公园雕塑啥意思 西安曲江池遗址公园

    曲江寒窑遗址公园的雕塑主要表达了爱情的主题,体现了人类对爱情的赞美和追求。公园中的雕塑作品,如“上帝之吻”,象征着良缘天赐的高尚与无价,展示了一对男女相拥亲吻的姿态,其创作初衷并非以一种写实和逼真的塑造手法,而是以雕塑特有的架构性语言,横平竖

    2025年01月17日
    12
  • 樊振东得过亚锦赛和全锦赛吗 樊振东晋级全锦赛四强

    得过樊振东拿过的大赛冠军有:2016世界杯冠军、2017亚锦赛冠军、2018年亚运会冠军、2019世界杯冠军、2021世乒赛冠军、2021全运会冠军要参加。樊振东的身体状态备受关注,自9月22日起,他就一直连续作战,连续参加比赛,毫无喘息。而

    2025年01月17日
    13
  • 萧敬腾出道历程 萧敬腾超级星光大道

    萧敬腾是2007年参加台湾《超级星光大道》节目踢馆,一战成名。2008年发行同名专辑《萧敬腾》正式出道,发片首周即登上“G-MUSIC”与“五大金榜”双榜冠军,凭借该专辑获得第20届台湾金曲奖最佳新人奖提名。萧敬腾是通过唱歌而出道的,萧敬

    2025年01月17日
    12
  • 广场舞的发展趋势

    网上有关“广场舞的发展趋势”话题很是火热,小编也是针对广场舞的发展趋势寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。广场舞当前在我国发展是非常迅速的,随着广场舞的日益国际化,其发展将会越来越繁荣,越来越能够丰富人们的物质文化生活,能够在广场舞的发展过程中,有

    2025年01月19日
    15
  • 我国金融机构的演变和发展?

    网上有关“我国金融机构的演变和发展?”话题很是火热,小编也是针对我国金融机构的演变和发展?寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。20世纪70、80年代,随着非银行金融业务如证券、保险、信托及期货、期权等衍生金融工具的迅猛发展,国际上,实施分业经营的商

    2025年01月19日
    15
  • 预防艾滋病的手抄报内容怎么写_1

    网上有关“预防艾滋病的手抄报内容怎么写”话题很是火热,小编也是针对预防艾滋病的手抄报内容怎么写寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。1、什么是艾滋病艾滋病是英文AIDS的音译,它的医学全称是“获得性免疫缺陷综合征”。中文根据英文全称(Acquired

    2025年01月25日
    13
  • 景区智能化建设方案怎么写

    网上有关“景区智能化建设方案怎么写”话题很是火热,小编也是针对景区智能化建设方案怎么写寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。旅游景区网站建设方案一、旅游景区网站建设背景随着社会的高速发展,互联网+的模式崛起,不少传统企业纷纷投入了互联网+的怀抱,借助

    2025年01月26日
    10
  • 国家电投中卫新能源有限公司是国企吗

    网上有关“国家电投中卫新能源有限公司是国企吗”话题很是火热,小编也是针对国家电投中卫新能源有限公司是国企吗寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。是国有企业是指国务院和地方人民政府分别代表国家履行出资人职责的国有独资企业、国有独资公司以及国有资本控股公

    2025年01月30日
    10
  • 短篇夫妻情感故事

    网上有关“短篇夫妻情感故事”话题很是火热,小编也是针对短篇夫妻情感故事寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。 成熟的爱情,敬意、忠心并不轻易表现出来,它的声音是低的,它是谦逊的、退让的、潜伏的,等待了又等待。那么夫妻间的情感故事你知道的有多少呢?下面

    2025年02月05日
    4
  • 社会心里服务体系建设应该哪个部门管理

    网上有关“社会心里服务体系建设应该哪个部门管理”话题很是火热,小编也是针对社会心里服务体系建设应该哪个部门管理寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。根据相关资料查询显示:民政部门。1、社会心里服务体系建设是民政部门管理,民政部门第八条建立完善机关企事

    2025年02月14日
    4

发表回复

本站作者后才能评论

评论列表(4条)

  • 乜文勇
    乜文勇 2025年01月27日

    我是华烁号的签约作者“乜文勇”!

  • 乜文勇
    乜文勇 2025年01月27日

    希望本篇文章《知识谱基础(一)-什么是知识谱》能对你有所帮助!

  • 乜文勇
    乜文勇 2025年01月27日

    本站[华烁号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 乜文勇
    乜文勇 2025年01月27日

    本文概览:网上有关“知识谱基础(一)-什么是知识谱”话题很是火热,小编也是针对知识谱基础(一)-什么是知识谱寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够...

    联系我们

    邮件:华烁号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们