您的位置:IT爆料网 > 互联网

从知识获取到应用,华为云知识计算三大关键技术揭秘

发布时间:2022-12-24 18:37:09  来源:互联网     背景:

AI 行业落地一直是业界的一个难题,华为云在探索AI落地之道的过程中发现,各个行业都有各种形态的知识,这些知识存在于不同的媒介,比如各种专业书籍记录的学科行业知识,百科网站上的基本常识等。其中,许多行业知识是行业专家经验的沉淀,甚至是只存在于老专家脑海里的不传之秘。这些知识代表了行业智慧,同时也是实现行业AI落地的关键。

基于在各个行业的成功实践,2020年华为云发布了业界首个全生命周期知识计算解决方案,提供从知识获取、建模、管理到应用的全套决方案,赋能行业用户去构建属于企业自己的知识计算平台。

7月22日,华为云TechWave人工智能专题日举办,华为云自然语言处理专家在会上分享了从知识获取到应用的整个流程中,包含的知识计算几个关键技术:知识获取、知识建模、知识应用。

关键技术一:知识获取

知识计算首先要获取知识,知识获取的一个核心技术是信息抽取。信息抽取涵盖范围广泛,比如实体抽取是从文本中抽取类似人名、地名等实体词或者词组。如果要构建知识图谱,就需要抽取更复杂的由主语、谓词、宾语构成的三元组。比如从《朝花夕拾》是文学家鲁迅的散文集,1928年由北京未名社出版。从这个句子中可以抽取“朝花夕拾”、“出版社”、 “未名社”这个三元组,而每个三元组都代表了一个客观事实,比如这个三元组表达的就是朝花夕拾的出版社是未名社。针对这类三元组的抽取,华为云研发了基于阅读理解框架和级联思想的信息抽取算法,可以用一个框架统一建模实体的抽取和关系的抽取,效果相比传统方法有显著提升。

实际落地过程中,往往还存在标注人力成本高,标注数据不足的情况。针对这种情况,华为云还发展了一系列小样本信息抽取方法,可以有效降低对标注数据的依赖。比如基于meta-learning的三元组抽取方法,在部分场景中,在保证准确率基本持平的情况下,标注数据量可以从两千条左右下降到几十到百条。这样就降低了知识获取的难度,同时也就降低了用户使用的门槛。

除了信息抽取外,知识获取还有一个很重要的步骤是实体链接,因为从文本抽取到的信息往往是有歧义的,需要把信息链接到知识图谱中正确的实体上。比如,李娜在澳洲公开赛打败了齐布尔科娃,这句话中有三个实体,李娜、澳大利亚公开赛、齐布尔科娃,这些实体在知识库都有不止一个候选实体,因为叫李娜这个名字的人很多,到底哪一个才是这个句子里说的李娜呢? 

针对这种短文本中的实体链接问题,华为云首次提出了M3框架,即multi-turn multi-choice MRC framework,即基于多轮多项选择的阅读理解框架。基于该框架,能很好地完成实体链接任务,准确率相对传统方法提升了大约5个百分点。华为云提出的M3框架相关论文,发表在人工智能国际顶级学术会议AAAI 2021上。

关键技术二:知识建模

完成知识获取以后,还需要对知识建模。知识建模中,知识融合/实体融合是一个非常关键的步骤。因为绝大多数的知识图谱都是为特定的目的构造的,这会导致即使是相同的概念,在不同的知识图谱中也会有不同的描述;同时相同的描述也有可能代表不同的概念。比如,在一个图谱中苹果是一种水果,在另外一个图谱中,苹果却是一家公司。针对知识融合问题,华为云研发了多种算法和解决方案,其中包括在多模态知识图谱实体融合方面的原创工作。

针对多模态知识图谱的实体对齐问题,华为云提出了一种多模态知识嵌入方法,生成三种模态知识的表示;然后设计了一种多模态知识融合方法,以融合三种模态的知识表示。最后采用了交互训练的方式,端到端的优化华为云提出的MMEA模型。华为云提出的这个模型也发表在了去年知识工程的国际学术会议KSEM上,并获得唯一的最佳论文奖。

在多模态知识嵌入模块中,华为云提取关系、视觉、数值信息,分别对不同模态的知识做嵌入表征,去补充实体的有效特征。

多模态知识融合模块的作用则是集成多模态的知识表示。在多模态知识融合模块里,华为云将多模态知识嵌入从各自分离的空间中迁移到一个统一的空间里。统一空间的学习使得多模态的特征能够互相受益,利用多模态的互补性,提升了实体对齐任务的准确率。

关键技术三:知识应用

完成知识建模以后,可以做多种应用,比如事理图谱。什么是事理图谱呢?知识图谱是以实体为核心的,主要建模的是实体之间的关系,通过三元组来表达一些客观事实。事理图谱则是以事件为核心,主要建模的是事件之间的因果、顺承等关系。

另外一个应用是将知识融入到预训练模型中。预训练模型是近两年最热门的技术之一,比如BERT、GPT3、华为云盘古大模型等。这些预训练模型的一个共同特征是利用大规模的无标注的文本数据,通过自监督的方式训练一个模型,从而使得这些模型里面蕴含了重要的先验信息或者说知识。但是大模型使用的语料都是通用领域的,没有行业属性,模型设计与训练也没有显式融入行业知识。针对这种情况,华为云提出了一个可以融合医疗领域知识的预训练模型,BERT-MK,该模型可以显式地将建模好的医疗行业知识,比如医疗行业的知识图谱,融入到预训练模型中。融入了行业之后,在医疗相关的下游任务上,该模型都表现出了比通用模型更好的效果。

有了融入了医疗知识的预训练模型,可以进一步把它应用到医疗领域,比如医疗信息抽取。基于这些融入了医疗行业知识的预训练模型,华为云自研了CHIEF医疗信息抽取框架。基于该框架,华为云从相关医疗文献里面,构建了一个医学领域知识图谱,即从跟新冠肺炎相关文献中构建了一个包含新冠肺炎相关的病毒、蛋白、药物的知识图谱。 

华为云知识计算解决方案从解决企业痛点、提升企业效率、提供知识化服务的角度全面赋能企业,让各行业的企业通过应用知识,释放知识化带来的红利,全面提升企业在智能化时代的竞争力。 


本文标题:从知识获取到应用,华为云知识计算三大关键技术揭秘 - 互联网
本文地址:www.itbaoliao.com/hlw/14900.html

返回网站首页

本文评论
12.5寸小米笔记本Air体验评测:多花100元值不值
前言:小米与笔记本电脑说起来,小米与笔记本电脑挺有缘分。早在2013年,就有传闻称小米将进入笔记本市场,传闻越传越真,后来雷军也架不住热情粉丝的询问,亲口否认了小米出笔记本的计划。当然后来的事儿大家知道了,2016年7...
日期:12-14
HTC天猫店关闭 悄然撤离中国内地市场
目前,HTC手机京东自营旗舰店、天猫官方旗舰店现已经无法搜索。在京东搜索“HTC”,已经没有HTC手机的踪迹,在天猫打开HTC的官方旗舰店,也只能看到HTC Vive京东自营旗舰店及相关商品。...
日期:12-01
九九房力推个人房源
近日,记者从租房搜索网站九九房获悉,网站已全新改版。其宣布今后将力推个人房源,针对性的解决目前租房市场中存在的这个核心需求。据了解,全国每天有超过600万的用户在网上寻找租房房源。“通过我们以往的搜索数据可以看到,其中超过80...
日期:09-10
华为G7正式发布 售价约2390元人民币
华为G7正式发布 售价约2390元人民币【TechWeb报道】9月4日消息,今日华为于德国柏林召开新品发布会,除了最先亮相的Mate7,华为G7也来到我们的视野,G7采用5.5英寸IPS屏幕,电池容量3000毫安,采用1300万后置摄像...
日期:11-24
“色情炸弹”大肆传播淫秽图片硬盘数据五秒全删除
12月10日,江民全球病毒监控系统、云安全防毒系统监测到一个“大胆”的“色情炸弹”变种aey病毒, 该病毒会将淫秽图片设置为用户的桌面壁纸,同时删除用户计算机上除C盘外,D盘到G盘分区中的全部文件,给用户带来巨大的、无法挽回的损失。...
日期:12-15
《QQ自由幻想》开心称号获取全攻略
在《QQ自由幻想》众多称号中,开心辞典活动称号以其特有的风格深受玩家青睐,但象征《QQ自由幻想》世界中最高学识荣誉的三种开心光效称号,至今仍然只有少数玩家拥有。其实获得这些称号并不困难,玩家只需要参与游戏里的“开心辞典”活动就可以拥有这些称...
日期:10-25
lol 英雄联盟 IEM总决赛:大龙毁一生QG屈居亚军
在今天凌晨开始的IEM总决赛上LPL联赛的代表队伍QG最终以2:3遗憾不敌Ever屈居亚军,伴随着IEM落下帷幕,今年最后一个世界大赛也宣告结束。在整个2015年除了MSI上EDG斩获冠军之外...
日期:11-16
十大人均收入最高城市:前7个城市人均收入超过了6万元
【TechWeb】2月13日消息,通过对各大城市(包括直辖市、省会城市、计划单列市和普通地级市)居民人均可支配收入统计梳理发现,2020年我国人均收入最高的十大城市分别是上海、北京、深圳、广州、苏州、杭州、南京、宁波、厦门和无锡。其中,前7...
日期:10-29
TOM非要独占黄健翔激情之夜 钱应该落谁口袋
一时间,“黄健翔激情解说”无线产品的版权所属成了争论的焦点。要搞清“黄健翔激情解说”的版权到底归谁所有,首先要了解这一作品产生的背景。伴随着黄健翔富有激情的解说,世界杯决赛最终以意大利夺冠落下帷幕。但是,互联网上黄健翔“伟大...
日期:12-20
交通银行机器人:大受欢迎!还能生物特征识别
交通银行机器人:大受欢迎!还能生物特征识别 捷通华声对外宣布:捷通华声应用灵云智能客服机器人系统,联手多家企业与交通银行共同推出国内第一个大规模应用的智能客服机器人--“交交”,“交交”已成功在新疆、山东、辽宁、江苏、贵州、广东、深圳等25个省市第一批交行营业厅正式“上岗”,“交交”的隆重推出,不仅引发金融银行界的轰动与广泛关注,更得到无数交通银行客户的热情欢迎。...
日期:11-21
最土团购程序被指存安全漏洞 或可泄露团购消费信息
安全厂商提供的“最土团购”SQL漏洞代码(TechWeb配图)【TechWeb报道】2月24日消息,安全厂商近日发布漏洞修复报告称,国内团购常用的“最土团购程序”部分版本曝出SQL注入漏洞...
日期:11-30
小猪佩奇不差钱是什么梗 小猪佩奇为什么不差钱
最近小猪佩奇又一次火爆了整个朋友圈,最近大家又在说小猪佩奇不差钱,那么这是什么梗呢?为什么说小猪佩奇不差钱?下面就来一起看下吧。...
日期:12-06
酷6网宣布推出酷6剧场 启用juchang.com域名
3月11日消息,酷6网宣布启动“酷6剧场”(www.juchang.com)用以播放电影、电视剧等长视频。...
日期:10-15
《征途》最新“弹性任务”图文攻略
大家一定还记得金庸笔下的那个“丐帮”吧,小时候一直都不明白:为什么“要饭”也要成立帮派,难道就不怕“狼多肉少”分不过来吗?后来又看了《古惑仔》等电影,才渐渐明白:所谓的帮会、门派等实际上都是一个团队。正是因为有了团队的存在,才使得那些乞丐们...
日期:12-07
4399千万元成蓝港《飞天西游》国内市场总代
腾讯科技讯(乐天)1月26日消息,国内小游戏运营商4399小游戏网(下简称:4399)近日宣布与第三代网络游戏公司蓝港在线达成合作,以1000万元的代理费取得后者自主研发的网页游戏《飞天西游WEB》国内市场总代理。据了解,《飞天西游WEB》...
日期:10-22
手机撒谎软件网上受追捧
【新民晚报】近日,网上开始流行一款名为“手机撒谎”的软件,将此软件安装进手机后,当接电话时,机主可根据需要改变通话背景环境。比如,车水马龙的声音、开会的声音等,让接电话的人以为对方就处在那样的环境中。  此外,还有一款名...
日期:12-09
西藏冒险王遗体确认 网友:一路走好!
综合国内媒体报道,3月22日,嘉黎县警方经过DNA鉴定检测,确认近日打捞出来的男尸为此前落水失踪的王相军本人。消息曝光后,网友纷纷表示“一路走好”。家属王龙(王相军弟弟)透露,嘉黎县警方和家属及律师团队沟通畅通,...
日期:12-04
盗墓笔记官方大结局公布 吴邪终于等到小哥回家
与“天下霸唱”的《鬼吹灯》不同,“南派三叔”所著的《盗墓笔记》一直未能有一个官方结局,这一点令很多粉丝多年来遗憾不已。...
日期:12-24
格力发布第二期员工持股计划 覆盖超过12000名员工
中基层干部、核心员工、技术专家等优先认购比例达97.47%,其他高管可认购份额不高于2.53%。...
日期:12-18
淘宝网举办“美胸大赛” 女网友秀露乳照引争议
淘宝网最近举办了一项“美胸大赛”,众多女网友通过上传自己的胸部照片参赛。论坛里充满“波涛汹涌”、“秀乳沟”等用词热辣的大字标题帖子。...
日期:11-23