手机浏览器扫描二维码访问
这章没有结束,请点击下一页继续阅读!
知识图谱不是天上掉下来的,得靠人“一点点攒、一步步搭”,整个过程就像“整理一本超级百科全书”,主要分三步:找素材、理关系、建图谱。
(一)第一步:找素材——从“海量数据”里挖“知识点”
建知识图谱首先得有“原料”,也就是各种数据。这些数据来源特别广,主要分三类:
1. 公开的“大百科”:比如 Wikipedia、百度百科、搜狗百科,这些里面全是现成的知识点,比如“李白,字太白,唐代诗人”,直接就能拿来用。
2. 专业的“数据库”:比如政府公开的企业信息库、医院的疾病数据库、电商的商品数据库,这些数据更精准,比如“阿里巴巴,成立于1999年,创始人马云”。
3. 零散的“网页/文本”:比如新闻报道、论坛帖子、微信文章,这些里面藏着很多“隐性知识”,比如新闻里说“周杰伦在台北举办演唱会”,就得从这句话里挖出“周杰伦”“台北”“演唱会”这几个实体,以及“举办”这个关系。
挖素材的过程靠“AI自动提取+人工校对”。AI用“实体识别技术”找关键词,比如从“姚明身高2.26米”里认出“姚明”是人物实体、“2.26米”是身高属性;再用“关系抽取技术”找联系,比如从“王菲是窦靖童的母亲”里认出“王菲”和“窦靖童”是“母女关系”。不过AI偶尔会出错,比如把“张三和李四是朋友”里的“朋友”当成“兄弟”,这时候就需要人工来改,保证素材准确。
(二)第二步:理关系——给“知识点”建“通讯录”
挖来的素材是零散的,比如有“周杰伦”“《青花瓷》”“方文山”三个实体,得搞清楚它们之间到底啥关系。这一步就像“给人建通讯录”,不光要记名字,还要记“谁是朋友、谁是同事、谁是家人”。
理关系的时候,得先定“规则”,比如“演唱”关系是“人→演唱→歌曲”,“作词”关系是“人→作词→歌曲”。然后把挖来的实体往规则里套:周杰伦→演唱→《青花瓷》,方文山→作词→《青花瓷》,这样就把三个实体连起来了。
有时候还会遇到“多对多”的复杂关系,比如“《青花瓷》收录在《我很忙》专辑里”“《我很忙》发行于2007年”“《青花瓷》获得过金曲奖”,这时候就得把这些关系一层层连起来,形成“周杰伦→演唱→《青花瓷》→收录于→《我很忙》→发行于→2007年”的链条,让知识变得有层次。
(三)第三步:建图谱——把“关系网”变成“可查可用的结构”
理清楚关系后,就可以把这些实体和关系“装”进专门的数据库里,建成知识图谱了。这种数据库叫“图数据库”,和咱们平时用的Excel表格不一样,它是用“节点”和“边”来存数据的:每个实体是一个“节点”,每个关系是一条“边”,边还能附带属性(比如“结婚”关系可以附带“结婚时间”)。
举个简单的图谱结构例子:
- 节点1:周杰伦(属性:生日1979-01-18、职业歌手)
- 节点2:《青花瓷》(属性:发行2007-11-02、风格中国风)
- 节点3:方文山(属性:生日1969-01-26、职业作词人)
- 边1:周杰伦→演唱→《青花瓷》(属性:收录于《我很忙》)
2000年4月,史上最动荡的西甲即将收官,长期挣扎在降级区的马德里竞技在风雨飘摇之际,迎来了最后的机会。 看杨浩如何力挽狂澜,率领马竞上演一场疯狂的保级大战,在世界足坛最辉煌的时代,书写下最耀眼夺目的史诗篇章!...
欲渴小说全文番外_文国栋闻声欲渴, 欲渴(公媳乱伦高h) 作者 东竹...
众生卑微如草芥,龙飞天际埋骨时。生死并非是枷锁,顿开牢笼一念间。难劫灾,玄牝门,永劫无归必经年。渡尽劫波兄弟在,相逢眼前是终焉。“楚太上的高武世界”别名为......
新说钮一篇情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的都市言情小说,新说钮一篇-钮家金子-小说旗免费提供新说钮一篇最新清爽干净的文字章节在线阅读和TXT下载。...
(无系统+凡人流)人体传送实验的实验体李活因为实验失败,穿越到修真异世却成一介凡人,还好修真世界奇遇无数,弱如凡尘,亦有成长之道。......
小村春色情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的都市言情小说,小村春色-猎枪-小说旗免费提供小村春色最新清爽干净的文字章节在线阅读和TXT下载。...