知識(shí)圖譜是新一代知識(shí)工程技術(shù)的代表,傳統(tǒng)的知識(shí)工程重度依賴人工干預(yù),知識(shí)建模和獲取主要從領(lǐng)域?qū)<姨帿@取專業(yè)知識(shí)。自 2012 年谷歌提出"知識(shí)圖譜"的概念并運(yùn)用到搜索引擎后,知識(shí)圖譜的構(gòu)建技術(shù)與應(yīng)用引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
最近幾年,隨著 AI 技術(shù)的發(fā)展和大數(shù)據(jù)時(shí)代的到來,知識(shí)圖譜的自動(dòng)化構(gòu)建成為可能,從構(gòu)建技術(shù)看,它經(jīng)歷了由人工構(gòu)建到群體智慧構(gòu)建到自動(dòng)獲取、構(gòu)建的過程。 自動(dòng)化構(gòu)建知識(shí)圖譜的特點(diǎn)是面向互聯(lián)網(wǎng)的大規(guī)模、開放、異構(gòu)環(huán)境,利用機(jī)器學(xué)習(xí)和信息抽取技術(shù)自動(dòng)獲取互聯(lián)網(wǎng)上的信息。
明略科技科學(xué)院知識(shí)工程實(shí)驗(yàn)室負(fù)責(zé)人張杰在接受 AI 前線采訪時(shí)表示,對企業(yè)而言,知識(shí)圖譜的構(gòu)建,如果自動(dòng)化程度和準(zhǔn)確度都能很高,具有兩方面意義:
為企業(yè)拓展數(shù)據(jù)規(guī)模增加數(shù)據(jù)連接。知識(shí)圖譜可以連接內(nèi)部結(jié)構(gòu)化數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)、外部非結(jié)構(gòu)化數(shù)據(jù),進(jìn)而可能成為下一代企業(yè)管理數(shù)據(jù)的主流技術(shù)路線;
另一方面,提升數(shù)據(jù)的挖掘深度和利用效率。以往多數(shù)企業(yè)做數(shù)據(jù)挖掘項(xiàng)目,都僅僅對靜態(tài)數(shù)據(jù)做淺層加工得到標(biāo)簽,然后再訓(xùn)練模型。以圖結(jié)構(gòu)為主的關(guān)系數(shù)據(jù)、以時(shí)空序列為主的動(dòng)態(tài)數(shù)據(jù)并沒有得到充分利用。
人工構(gòu)建和自動(dòng)化構(gòu)建各有優(yōu)缺點(diǎn)。人工構(gòu)建圖譜耗時(shí)耗力,構(gòu)建出的圖譜規(guī)模較小。知識(shí)圖譜發(fā)揮作用需要依靠規(guī)模效應(yīng),如果單純依靠人工構(gòu)建,容易陷入此前專家系統(tǒng)的瓶頸,導(dǎo)致實(shí)用能力有限,無法發(fā)展起來。而自動(dòng)化構(gòu)建處理速度快,可以減少人工、時(shí)間、成本,更適應(yīng)大數(shù)據(jù)時(shí)代的應(yīng)用要求。
不過以目前的技術(shù)水平,自動(dòng)化構(gòu)建的準(zhǔn)確率還低于人工,一般情況下減少人工會(huì)導(dǎo)致準(zhǔn)確性下降。在一些結(jié)構(gòu)化不強(qiáng),需要人工理解才能判斷的場景,如果缺少人工參與,將會(huì)影響知識(shí)圖譜的質(zhì)量。
在知識(shí)圖譜構(gòu)建的主流技術(shù)路線中,人工對于其中幾個(gè)環(huán)節(jié)仍不可或缺。 如在從結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)映射為知識(shí)圖譜的工作中,主要工作量在于工程師梳理映射邏輯和開發(fā)映射規(guī)則,然后機(jī)器去批量化的自動(dòng)執(zhí)行;在從非結(jié)構(gòu)化文本中自動(dòng)抽取本體的工作中,自動(dòng)化程度較高,在標(biāo)注訓(xùn)練數(shù)據(jù)集上,準(zhǔn)確度往往難以保證商用,仍需人工校驗(yàn)。
國雙數(shù)據(jù)科學(xué)團(tuán)隊(duì)負(fù)責(zé)人表示,現(xiàn)階段要兼顧效率和精度,最合理的方式是半自動(dòng)化結(jié)合人工。目前業(yè)內(nèi)構(gòu)建知識(shí)圖譜很少見純?nèi)斯ず腿詣?dòng)方法,采用的主流方式是半自動(dòng)結(jié)合人工方式,約占 80% 以上。
半自動(dòng)結(jié)合人工方式操作的流程是,前期借助人工標(biāo)注適量數(shù)據(jù),訓(xùn)練模型自動(dòng)化抽取,最后由人工進(jìn)行審核或驗(yàn)證。
目前商業(yè)化的知識(shí)圖譜,均有部分自動(dòng)化構(gòu)建能力,實(shí)現(xiàn)動(dòng)輒千萬甚至上億數(shù)據(jù)規(guī)模的知識(shí)圖譜。一般手工部分出現(xiàn)在知識(shí)圖譜構(gòu)建早期(冷啟動(dòng)),隨著圖譜規(guī)模的擴(kuò)大,依據(jù)知識(shí)推理和機(jī)器學(xué)習(xí),自動(dòng)化程度會(huì)逐漸提升。后期的知識(shí)圖譜自動(dòng)更新主要集中在動(dòng)態(tài)更新實(shí)體數(shù)據(jù)、發(fā)現(xiàn)新的實(shí)體,從新入庫的各類原始數(shù)據(jù)中獲取新的知識(shí)等環(huán)節(jié)。
現(xiàn)階段,一定程度的人工參與加機(jī)器自動(dòng)化的方式可能在相當(dāng)長一段時(shí)間內(nèi)會(huì)是主流。 圖譜結(jié)構(gòu)的定義依賴于具體應(yīng)用場景和要解決的問題,需要人來定義。有些場景對數(shù)據(jù)質(zhì)量要求極高,如公共安全、金融、醫(yī)療等領(lǐng)域做知識(shí)融合要通過人工校驗(yàn)來最大程度保證可靠性。
張杰表示,如果一些場景的知識(shí)圖譜可以滿足商用要求( TO C 場景下準(zhǔn)確率要到 95%,TO B 場景下要更高),就可以全面交給機(jī)器來進(jìn)行自動(dòng)化構(gòu)建。 他認(rèn)為,To C 場景下的檢索、推薦,應(yīng)該會(huì)很快實(shí)現(xiàn)全面自動(dòng)化,而 To B 場景下的推理、決策,通往全面自動(dòng)化還要很久。
國雙認(rèn)為,在一些垂直的有限領(lǐng)域如司法等可能將在未來 2~3 年實(shí)現(xiàn)可自動(dòng)更新實(shí)體數(shù)據(jù)的知識(shí)圖譜體系。
盡管實(shí)現(xiàn)全面自動(dòng)化構(gòu)建知識(shí)圖譜還有很長的一段路要走,但已有不少企業(yè)在積極探索降低人工參與度,提升自動(dòng)化構(gòu)建水平,如明略科技推出了人類智能、機(jī)器智能、組織智能三位一體的 HAO 智能系統(tǒng),國雙通過自研的知識(shí)抽取算法設(shè)計(jì)平臺(tái)完成知識(shí)抽取流程設(shè)計(jì)。
這里以國雙為例,說明知識(shí)圖譜自動(dòng)化構(gòu)建的方法。
自動(dòng)化構(gòu)建流程主要包括本體創(chuàng)建 –> 數(shù)據(jù)標(biāo)注 –> 模型訓(xùn)練 –> 知識(shí)抽取 –> 知識(shí)融合 –> 知識(shí)推理 –> 知識(shí)更新等環(huán)節(jié)。具體來看:
數(shù)據(jù)標(biāo)注和模型訓(xùn)練環(huán)節(jié),通過知識(shí)抽取算法設(shè)計(jì)平臺(tái)完成;
在知識(shí)抽取環(huán)節(jié),以相對復(fù)雜的非結(jié)構(gòu)化知識(shí)抽取為例,國雙運(yùn)用的技術(shù)是將標(biāo)注數(shù)據(jù)清洗擴(kuò)增,使用基于 Encoder 和 Decoder 的端到端三元組聯(lián)合抽取模型進(jìn)行知識(shí)抽取。針對沒有標(biāo)注數(shù)據(jù)的冷啟動(dòng)知識(shí)抽取需求,構(gòu)建了一套利用依存句法分析算法實(shí)現(xiàn)無監(jiān)督情況下抽取三元組的系統(tǒng)。
在知識(shí)融合環(huán)節(jié),國雙構(gòu)建了一套結(jié)合傳統(tǒng)字符串相似度和圖卷積網(wǎng)絡(luò)的融合系統(tǒng),將知識(shí)圖譜經(jīng)過 GCN 編碼后得到表示向量,通過計(jì)算表示向量相似度和實(shí)體的字符串相似度,并結(jié)合 Sieve 模式高效篩選出融合結(jié)果。
在知識(shí)推理環(huán)節(jié),在基于規(guī)則和基于算法的知識(shí)推理方面做了一些嘗試,例如通過業(yè)務(wù)本體框架中的相關(guān)約束來做相關(guān)推理。
在知識(shí)更新環(huán)節(jié),使用知識(shí)抽取實(shí)驗(yàn)平臺(tái)把新的增量數(shù)據(jù)去重新訓(xùn)練模型,且依靠知識(shí)抽取算法 API 來實(shí)現(xiàn)自動(dòng)的知識(shí)更新。
張杰表示,知識(shí)圖譜自動(dòng)構(gòu)建的過程中主要運(yùn)用到了自然語言處理、小樣本訓(xùn)練、領(lǐng)域遷移等關(guān)鍵的 AI 技術(shù)。自動(dòng)化構(gòu)建知識(shí)圖譜有四大技術(shù)重點(diǎn):
如何自動(dòng)化的從結(jié)構(gòu)化數(shù)據(jù)庫映射為知識(shí)圖譜并做知識(shí)融合;如何通過小樣本學(xué)習(xí)和領(lǐng)域知識(shí)遷移的技術(shù)減少人工標(biāo)注成本;如何從非結(jié)構(gòu)化文本中做篇章級(jí)的事件抽取和多事件關(guān)聯(lián);基于深度學(xué)習(xí)的知識(shí)表示在各個(gè)構(gòu)建的環(huán)節(jié)的應(yīng)用。
針對結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),明略科技提出了 HAO profiling 技術(shù),對來自不同數(shù)據(jù)源的結(jié)構(gòu)化 / 半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行匯聚、組織,試圖理解數(shù)據(jù),解決數(shù)據(jù)冗余、沖突等問題,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、連接,形成數(shù)據(jù)的知識(shí)圖譜,進(jìn)行可視化展示,并以統(tǒng)一視圖服務(wù)查詢、計(jì)算等應(yīng)用需要。
針對非結(jié)構(gòu)化數(shù)據(jù),明略科技設(shè)計(jì)、開發(fā)了一套算法工具包:HAO 圖譜。HAO 圖譜包括關(guān)系抽取、事件抽取、實(shí)體對齊、網(wǎng)絡(luò)結(jié)構(gòu)嵌入式表示、時(shí)空序列數(shù)據(jù)表示、圖譜摘要、基于圖譜的短文本生成等算法。
知識(shí)圖譜在構(gòu)建過程中面臨著諸多挑戰(zhàn)。
張杰指出,自動(dòng)化構(gòu)建主要的技術(shù)挑戰(zhàn)點(diǎn)有三項(xiàng):信息丟失、信息冗余、信息重疊。 信息丟失是指應(yīng)該抽取出來的信息沒有抽全。信息冗余指在輸入文本中不存在但在背景知識(shí)中存在的額外概念和關(guān)系。信息重疊是指能否將原文中距離跨度較大的屬性歸結(jié)到正確的實(shí)體上,并對動(dòng)態(tài)變化的屬性進(jìn)行適當(dāng)存儲(chǔ)。
此外,知識(shí)圖譜構(gòu)建成本高昂,小樣本的抽取和構(gòu)建問題,也是業(yè)界公認(rèn)的難題。
對于小樣本的抽取問題,在國雙看來,從小樣本中進(jìn)行抽取,很難采用直接數(shù)據(jù)驅(qū)動(dòng)的方式,一般需要借助知識(shí)來降低對數(shù)據(jù)的依賴。知識(shí)輔助的方式有兩種,一種是人工將知識(shí)寫入系統(tǒng),即規(guī)則編碼等方式;另一種是機(jī)器進(jìn)行知識(shí)推理,也就是基于背景知識(shí)進(jìn)行概率推理,這個(gè)方法在消歧或?qū)嶓w鏈接、關(guān)系預(yù)測上經(jīng)常使用。
人工構(gòu)建一個(gè)知識(shí)圖譜的成本是非常高的,降低成本從某種程度上可以說是構(gòu)建過程的核心和關(guān)鍵。明略科技和國雙分享了自己的解決方案:
明略科技認(rèn)為,降成本需要做到行業(yè)經(jīng)驗(yàn)復(fù)用和技術(shù)工具復(fù)用。 為此,在行業(yè)經(jīng)驗(yàn)復(fù)用方面,明略科技成立了行業(yè)咨詢團(tuán)隊(duì),形成了面向行業(yè)的最佳實(shí)踐和成功案例,且投入到國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、聯(lián)盟標(biāo)準(zhǔn)的制定中。
技術(shù)工具復(fù)用方面,明略科技將技術(shù)體系(行業(yè)交付團(tuán)隊(duì)、技術(shù)部、科學(xué)院)的技術(shù)能力全集團(tuán)范圍內(nèi)共享打通,科學(xué)院的成果會(huì)輸出到技術(shù)部,技術(shù)部形成公司級(jí)的產(chǎn)品組件,行業(yè)交付團(tuán)隊(duì)初次面對新行業(yè)時(shí)會(huì)做些定制化開發(fā),再次復(fù)用后會(huì)凝練為產(chǎn)品并回流到技術(shù)部。
國雙認(rèn)為,構(gòu)建知識(shí)圖譜的成本需要考慮三大因素:人,模型,數(shù)據(jù)。首先由人來創(chuàng)建正確有效的本體,標(biāo)注少量數(shù)據(jù);利用數(shù)據(jù)增強(qiáng)等方式來訓(xùn)練機(jī)器學(xué)習(xí)模型,再利用模型處理有標(biāo)注和無標(biāo)注數(shù)據(jù);最后人工查驗(yàn),在保證標(biāo)注精度的情況下最大程度減少人工干預(yù),最終實(shí)現(xiàn)控制成本、做大規(guī)模,同時(shí)保證知識(shí)圖譜的質(zhì)量。使用知識(shí)抽取算法設(shè)計(jì)平臺(tái),可以通過平臺(tái)化的方式設(shè)計(jì)知識(shí)抽取流程,在設(shè)計(jì)過程中流程化地預(yù)估各個(gè)方案的預(yù)期結(jié)果和成本,最終通過科學(xué)決策選擇性價(jià)比最好的方案。
目前自動(dòng)化構(gòu)建的知識(shí)圖譜主要運(yùn)用在智能問答、智能推薦、語義搜索、網(wǎng)絡(luò)行為動(dòng)態(tài)分析等場景中。由于需要大量領(lǐng)域?qū)<业母深A(yù),很多特定領(lǐng)域的知識(shí)圖譜自動(dòng)化構(gòu)建的進(jìn)展有些緩慢,尤其在一些小規(guī)模、應(yīng)用場景復(fù)雜、專家知識(shí)密集的場景。
但知識(shí)圖譜需要運(yùn)用到廣闊的業(yè)務(wù)場景里才能夠發(fā)揮出它的真正價(jià)值。
據(jù)了解,明略科技一直在營銷、公共安全、數(shù)字城市、工業(yè)、金融等領(lǐng)域探索自動(dòng)化構(gòu)建行業(yè)知識(shí)圖譜。明略科技的 HAO 智能系統(tǒng)在以人為本、人機(jī)協(xié)同的基礎(chǔ)上,加入了面向行業(yè)應(yīng)用、具體細(xì)分領(lǐng)域的 Organizational Intelligence。
該系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)通用治理平臺(tái) CONA(關(guān)聯(lián)所有數(shù)據(jù)),可通過設(shè)置數(shù)據(jù)轉(zhuǎn)換規(guī)則,結(jié)合數(shù)據(jù)多值溯源和融合策略,自動(dòng)完成標(biāo)準(zhǔn)化對標(biāo),實(shí)現(xiàn)數(shù)據(jù)治理自動(dòng)化,這能夠大大提高行業(yè)知識(shí)圖譜構(gòu)建效率。以公共安全領(lǐng)域?qū)嶋H數(shù)據(jù)治理為例,業(yè)務(wù)系統(tǒng)中近千張表,傳統(tǒng)方法和工具做圖譜構(gòu)建可能需要半年以上的時(shí)間,而 CONA 能夠縮短到 2 周。
張杰介紹,在協(xié)同推理方面,明略科技采用專家規(guī)則加數(shù)據(jù)驅(qū)動(dòng)的方式形成了行業(yè)因果圖譜,以便于對未來事件的走向做預(yù)測。這一技術(shù)今年有望應(yīng)用在復(fù)雜度較高且客單價(jià)較高的行業(yè)中。
國雙從 2016 年開始在司法領(lǐng)域構(gòu)建知識(shí)圖譜,并逐步擴(kuò)展到了營銷領(lǐng)域和工業(yè)領(lǐng)域。其中,司法知識(shí)圖譜是目前做到技術(shù)成熟度最高和規(guī)模最大的。
在構(gòu)建這個(gè)知識(shí)圖譜的過程中,由于知識(shí)來自于文書庫、法律法規(guī)庫和司法專業(yè)知識(shí)庫等多個(gè)來源,存在知識(shí)重復(fù)和指代不明等問題,為了做到自動(dòng)化、高質(zhì)量地構(gòu)建知識(shí)圖譜,國雙針對這些問題運(yùn)用層次聚類和基于密度的聚類方法,實(shí)現(xiàn)了實(shí)體間的對齊和內(nèi)部消歧,消歧的正確率達(dá)到 98%。
“知識(shí)圖譜的構(gòu)建是一個(gè)復(fù)雜的系統(tǒng)工程,不可能通過某一項(xiàng)技術(shù)適配所有場景。綜合來看,解決這個(gè)問題需要以技術(shù)為基礎(chǔ),構(gòu)建工具體系,然后面向場景進(jìn)行系統(tǒng)設(shè)計(jì)”,國雙數(shù)據(jù)科學(xué)團(tuán)隊(duì)負(fù)責(zé)人表示。
通過以上專家的分析,可以預(yù)見的是,大規(guī)模知識(shí)圖譜的自動(dòng)化、高質(zhì)量構(gòu)建將成為重要的發(fā)展趨勢。
張杰認(rèn)為,要實(shí)現(xiàn)上述目標(biāo),至少需要三方面的能力:
算法把控能力: 知道各類算法的適用場景和算法所能達(dá)到的上限大致在哪里,不盲從所謂的主流,不迷信所謂的前沿,實(shí)際場景下有效的系統(tǒng)往往是多種技術(shù)方案共同作用的結(jié)果;
跨層并行能力: 從原數(shù)據(jù)到圖譜應(yīng)用是個(gè)很長的鏈條,并不是所有環(huán)節(jié)在處理大規(guī)模數(shù)據(jù)時(shí)都能夠獨(dú)立的做并行化處理,如何跨層做聯(lián)合優(yōu)化,需要架構(gòu)的設(shè)計(jì)者打通技術(shù)棧;
業(yè)務(wù)理解能力: 技術(shù)人員要對所屬行業(yè)和所面臨的場景需求要有很好的理解,才能在投入與產(chǎn)出之間做出良好的平衡。
采訪嘉賓介紹 :
張杰,明略科技科學(xué)院知識(shí)工程實(shí)驗(yàn)室負(fù)責(zé)人,天津大學(xué)本科、碩土、博士畢業(yè),研究方向?yàn)闄C(jī)器學(xué)習(xí)、自然語言處理、知識(shí)工程,發(fā)表學(xué)術(shù)論文十余篇,發(fā)明專利八十余項(xiàng),曾就職于華為諾亞方舟實(shí)驗(yàn)室,后作為聯(lián)合創(chuàng)始人創(chuàng)辦金融科技公司并任 CTO,曾主持搭建百科知識(shí)問答、對話機(jī)器人、推薦引擎、決策引擎、大數(shù)據(jù)風(fēng)控等多項(xiàng)系統(tǒng),累計(jì)創(chuàng)造商業(yè)價(jià)值數(shù)億元。
國雙數(shù)據(jù)科學(xué)團(tuán)隊(duì),經(jīng)歷了五年多的發(fā)展目前成員共計(jì) 30 多人。所有成員均來自國內(nèi)外一流大學(xué),包括數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)建模專家、計(jì)算機(jī)視覺專家、自然語言處理專家、語音工程專家等。目前數(shù)據(jù)科學(xué)應(yīng)用主要服務(wù)能源、汽車、金融、快消、政府、司法等行業(yè)。
特別聲明:
文章來源:AI前線(ai-front)
作者:劉燕
原文鏈接:https://mp.weixin.qq.com/s/EAxYJyRHuG-b7ybWQwb6MA
RPA中國推薦閱讀,轉(zhuǎn)載此文是出于傳遞更多信息之目的。如有來源標(biāo)注錯(cuò)誤或侵權(quán),請聯(lián)系更正或刪除,謝謝。
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國RPA生態(tài)發(fā)展 | 流 > 80% 的企業(yè)采用半自動(dòng)化構(gòu)建知識(shí)圖譜,全自動(dòng)化什么時(shí)候?qū)崿F(xiàn)?
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會(huì)成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國