
視頻、語音、文本是拉動(dòng)人工智能發(fā)展的三駕馬車,但是,相比視頻和語音,文本智能處理更難突破。成立于2015年的達(dá)觀數(shù)據(jù)是一家專注于文本智能處理的公司,基于自然語言處理、知識(shí)圖譜等技術(shù),為客戶提供文本自動(dòng)抽取、審核、糾錯(cuò)、搜索、推薦、寫作等智能軟件系統(tǒng),實(shí)現(xiàn)業(yè)務(wù)流程自動(dòng)化,提高企業(yè)效率。近日,達(dá)觀數(shù)據(jù)CEO陳運(yùn)文博士向億歐分享了文本智能處理技術(shù)和應(yīng)用現(xiàn)狀。
文本挖掘工作一半是技術(shù)一半是藝術(shù)
在人類過去大概100萬年的進(jìn)化過程中,人類文明迭代速度很慢,但文字的出現(xiàn)使其陡然加速,為人類文明帶來了光和熱。隨著技術(shù)的發(fā)展,文字處理工作也由人工轉(zhuǎn)化為計(jì)算機(jī)。文本挖掘工作經(jīng)歷了第一代符號(hào)主義、第二代語法規(guī)則、第三代統(tǒng)計(jì)學(xué)習(xí),目前處于第四代深度學(xué)習(xí)階段,將實(shí)現(xiàn)用一個(gè)復(fù)雜的模型模擬人腦神經(jīng)網(wǎng)絡(luò)運(yùn)作。
在文本挖掘技術(shù)上,達(dá)觀數(shù)據(jù)一直走在行業(yè)前沿。達(dá)觀數(shù)據(jù)文檔審核系統(tǒng)2.0在深度學(xué)習(xí)的基礎(chǔ)上采用了遷移學(xué)習(xí)和增強(qiáng)學(xué)習(xí),可實(shí)現(xiàn)注意力模型、BERT模型等,這也被稱為4.5代技術(shù)。陳運(yùn)文表示,4.5代技術(shù)的使用可以加強(qiáng)機(jī)器的泛化能力,即提高機(jī)器對(duì)于文字的自適應(yīng)理解能力或者說舉一反三能力,這將大大縮減訓(xùn)練成本。
陳運(yùn)文認(rèn)為:“文本挖掘工作,一半是技術(shù),一半是藝術(shù)。”文本挖掘工作需要慢工出細(xì)活,通過對(duì)文字的深入理解來探討如何使用數(shù)學(xué)模型更好的進(jìn)行文字解讀。但是,從數(shù)學(xué)模型角度來講,很多時(shí)候文字的運(yùn)用是不符合常理的。例如,“天很冷,能穿多少穿多少”和“天很熱,能穿多少穿多少”,同樣是“能穿多少穿多少”,但表達(dá)的是兩個(gè)意思。所以文本挖掘工作,它既是一個(gè)數(shù)學(xué)問題,通過后臺(tái)大量的數(shù)學(xué)運(yùn)算對(duì)文字進(jìn)行解讀,同時(shí)也需要將語言學(xué)等偏藝術(shù)領(lǐng)域的知識(shí)納入進(jìn)去,才能讓計(jì)算機(jī)更好的解讀文字,甚至代替人完成一部分文字撰寫的工作。
NLP+RPA解放白領(lǐng)的手和腦
陳運(yùn)文創(chuàng)業(yè)之前曾擔(dān)任盛大文學(xué)首席數(shù)據(jù)官、騰訊文學(xué)高級(jí)總監(jiān)、百度核心技術(shù)研發(fā)工程師等職位,一直從事文本挖掘相關(guān)工作。他發(fā)現(xiàn),工作中有60%左右的內(nèi)容都是與文字相關(guān),文字資料的處理和應(yīng)用在互聯(lián)網(wǎng)企業(yè)內(nèi)部雖然發(fā)揮了很大價(jià)值但沒有實(shí)現(xiàn)價(jià)值最大化。反而,在一些其他行業(yè),人工智能技術(shù)應(yīng)用還處于早期狀態(tài),大量工作靠人手工記錄,NLP和RPA的結(jié)合將可以實(shí)現(xiàn)白領(lǐng)部分工作的自動(dòng)化。
NLP (Natural Language Processing) ,自然語言處理可以讓計(jì)算機(jī)模擬白領(lǐng)的大腦運(yùn)轉(zhuǎn),實(shí)現(xiàn)閱讀和理解;RPA(Robotic Process Automation),機(jī)器人流程自動(dòng)化可以模擬白領(lǐng)的手去進(jìn)行鼠標(biāo)和鍵盤的操作,實(shí)現(xiàn)自動(dòng)化。如果只有RPA技術(shù),計(jì)算機(jī)只能承擔(dān)初級(jí)的工作,但是有了NLP技術(shù)的幫助,就可以做更復(fù)雜的任務(wù),真正承擔(dān)起虛擬員工的角色。
陳運(yùn)文認(rèn)為,NLP+RPA在中國大有可為,將是一片藍(lán)海市場(chǎng)。首先,技術(shù)走向成熟,國內(nèi)RPA技術(shù)雖剛剛起步,但國外已經(jīng)有許多成熟的應(yīng)用。同時(shí),UiPath、BluePrism等國外RPA企業(yè)也在通過不同的形式向中國市場(chǎng)滲透。其次,NLP+RPA可以明顯降低企業(yè)成本,帶來高回報(bào)率。根據(jù)IBM在《使用人工智能優(yōu)化機(jī)器人流程自動(dòng)化的價(jià)值》報(bào)告中的估算,通過RPA可實(shí)現(xiàn) 30% 到 50% 的投資回報(bào)率 (ROI)。最后,市場(chǎng)規(guī)模大。據(jù)《全球人工智能市場(chǎng)2017-2021》報(bào)告披露的數(shù)據(jù),RPA的市場(chǎng)規(guī)模預(yù)計(jì)將在2024年達(dá)到50億美元,復(fù)合增長(zhǎng)率達(dá)到61.3%。在亞太地區(qū),RPA的市場(chǎng)規(guī)模預(yù)計(jì)在2021年達(dá)到8.17億美元,在此期間的增長(zhǎng)率將達(dá)到181%。
金融行業(yè)是NLP+RPA落地的重要領(lǐng)域
NLP+RPA主要替代一些高重復(fù)、標(biāo)準(zhǔn)化、規(guī)則明確且高準(zhǔn)確率要求的工作。金融行業(yè)過半員工在與文本合同打交道,但是他們90%的工作都是可以被替代的。
以信貸業(yè)務(wù)為例,貸前基于OCR可以幫助銀行工作人員對(duì)提交材料進(jìn)行人物、事件、數(shù)值等關(guān)鍵信息抽取和審核;貸中支持合同多版本比對(duì),對(duì)合同關(guān)鍵要素進(jìn)行智能審核,防止陰陽合同風(fēng)險(xiǎn);貸后對(duì)貸款項(xiàng)目評(píng)估報(bào)告關(guān)鍵信息提取及結(jié)構(gòu)化,并對(duì)企業(yè)進(jìn)行實(shí)時(shí)輿情分析監(jiān)控,實(shí)現(xiàn)有效跟蹤和監(jiān)督。
目前,達(dá)觀數(shù)據(jù)已服務(wù)招商銀行、中國平安、光大銀行等數(shù)十家金融機(jī)構(gòu)。陳運(yùn)文認(rèn)為,金融行業(yè)對(duì)NLP+RPA的需求非常大,RPA具有非侵入性的特點(diǎn),以外掛/插件的形式部署在客戶現(xiàn)有系統(tǒng)上,不影響其原有的成熟IT架構(gòu),部署成本較低。考慮到銀行的個(gè)性化定制需求,達(dá)觀在產(chǎn)品設(shè)計(jì)之初就特別重視產(chǎn)品的可擴(kuò)展性。一方面,產(chǎn)品本身就支持客戶進(jìn)行自定義規(guī)則,滿足自定制需求;另一方面,達(dá)觀也會(huì)不斷總結(jié)行業(yè)知識(shí)圖譜,升級(jí)產(chǎn)品,通過連接銀行內(nèi)網(wǎng)的形式,幫助銀行升級(jí)語料庫和算法模型。
未來:文本智能處理專家
陳運(yùn)文表示,我們將堅(jiān)定的在文本智能處理這條路上走到頭,成為“文本智能處理專家”。2019年達(dá)觀數(shù)據(jù)一方面不斷積累海量的文本資料讓計(jì)算機(jī)訓(xùn)練,另一方面不斷深挖現(xiàn)有的算法模型,重視基礎(chǔ)技術(shù)的研發(fā)工作。目前,達(dá)觀數(shù)據(jù)已與北京大學(xué)、復(fù)旦大學(xué)、上海財(cái)經(jīng)大學(xué)等高校建立起了產(chǎn)學(xué)研合作關(guān)系,未來將與更多的高校合作,將學(xué)術(shù)界的先進(jìn)成果與工程界的應(yīng)用技術(shù)結(jié)合在一起,更好的突破文字語言理解工作
繼續(xù)閱讀:
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國RPA生態(tài)發(fā)展 | 流 > 達(dá)觀數(shù)據(jù)陳運(yùn)文:NLP+RPA潛力無窮,做文本智能處理專家
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會(huì)成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國