當前,數(shù)據(jù)成為推動各行業(yè)降本增效的核心生產(chǎn)要素。隱私計算通過實現(xiàn)“數(shù)據(jù)可用不可見”,為數(shù)據(jù)要素安全流通提供技術(shù)最優(yōu)解。隨著市場需求增加、政策持續(xù)牽引,隱私計算迎來爆發(fā)態(tài)勢,相關(guān)統(tǒng)計表明未來可觸達千億級的市場規(guī)模。
近年來,隱私計算技術(shù)在金融、醫(yī)療、政務(wù)等多個場景開始落地,但是大規(guī)模商業(yè)化仍然面臨諸多挑戰(zhàn)?;诖吮尘?,數(shù)字金融網(wǎng)、PCview隱私計算研究院專訪了DataTrust負責人張子良及其團隊成員,探討了隱私計算的商業(yè)價值,工程化實踐,以及未來發(fā)展方向。
1
助力數(shù)智化轉(zhuǎn)型
為企業(yè)數(shù)據(jù)安全流通提供解決方案
張子良介紹,對于企業(yè)來說,不管是業(yè)務(wù)發(fā)展,還是數(shù)字化轉(zhuǎn)型,數(shù)據(jù)都是決策與運營的基礎(chǔ)和生產(chǎn)要素。數(shù)據(jù)在流通中存在安全、隱私泄露等問題,“隱私計算作為助力數(shù)據(jù)安全流通共享的一種技術(shù)手段,只有轉(zhuǎn)化為可以感知、理解的產(chǎn)品才能更好地發(fā)揮價值。”DataTrust定位是以隱私計算為技術(shù)底座,為企業(yè)提供數(shù)據(jù)安全流通解決方案。
DataTrust的平臺功能
DataTrust的優(yōu)勢,來自阿里積累的技術(shù)實力,在算法的先進性和大數(shù)據(jù)處理能力上處于行業(yè)領(lǐng)先水平。DataTrust于2019年成立,早期服務(wù)于阿里內(nèi)部系統(tǒng),依托阿里底層技術(shù)能力和大數(shù)據(jù)應(yīng)用場景實踐,在2021年正式對外服務(wù)。DataTrust主攻方向為多方安全計算和聯(lián)邦學習,目前支持百億級別的PSI(小時級完成)、支持億級別的SQL聯(lián)合分析,處于行業(yè)領(lǐng)先水平。
其次是在業(yè)務(wù)場景上豐富的實踐。截止目前,DataTrust隱私計算解決方案已經(jīng)實現(xiàn)在數(shù)十家行業(yè)客戶中落地應(yīng)用,助力金融、營銷、政務(wù)、零售等領(lǐng)域客戶顯著地提升運營效率,為客戶在數(shù)智化轉(zhuǎn)型過程中的數(shù)據(jù)安全流通助力。
最后是來自數(shù)據(jù)和場景的閉環(huán)。張子良認為,隱私計算公司僅僅憑借技術(shù)和產(chǎn)品很難打造一個競爭閉環(huán),必須借助數(shù)據(jù)和場景加持才能獲得持續(xù)地發(fā)展。DataTrust出身于阿里,擁有數(shù)據(jù)源服務(wù)和多層次場景應(yīng)用案例,組成自己獨特的優(yōu)勢。當前隱私計算處于一個技術(shù)相對成熟,但商業(yè)化早期孵化的階段。雖然在金融領(lǐng)域出現(xiàn)了一些成熟商業(yè)模式,但在政務(wù)、醫(yī)療、零售領(lǐng)域還有待觀察。從長遠來看,當數(shù)據(jù)成為新型生產(chǎn)要素,隱私計算必然會成為一種社會基礎(chǔ)設(shè)施。如果把數(shù)據(jù)比作電,隱私計算就如同電網(wǎng)一般將數(shù)據(jù)安全輸送給應(yīng)用方,從而實現(xiàn)電能到萬家燈火的轉(zhuǎn)變。具體到商業(yè)化而言,企業(yè)更多考慮的是如何合法合規(guī)使用自己的數(shù)據(jù),或者共享外部數(shù)據(jù)推動業(yè)務(wù)增長,DataTrust解決的就是這樣的問題。
據(jù)DataTrust工程總架構(gòu)師梁愛平介紹,DataTrust產(chǎn)品定位是通用的隱私計算產(chǎn)品,因此DataTrust工程技術(shù)架構(gòu)同時支持多種隱私計算技術(shù),通過模塊插件化的設(shè)計思路,適用于多種異構(gòu)的計算、存儲、網(wǎng)絡(luò)環(huán)境,支持云上部署、獨立部署等輸出形態(tài)。
DataTrust的工程技術(shù)架構(gòu)圖
DataTrust早期服務(wù)于阿里內(nèi)部,所以整個功能系統(tǒng)是基于阿里的工具為原型,比如大數(shù)據(jù)計算系統(tǒng)采用的是MaxCompute(內(nèi)部稱ODPS),滿足大規(guī)模數(shù)據(jù)處理的性能要求。逐步對外服務(wù)以后,DataTrust也會尊重客戶的選擇,適應(yīng)客戶的需求,優(yōu)先考慮客戶的環(huán)境資源來完成計算,幫助企業(yè)降低部署成本。
DataTrust的工程化思考涵蓋五個層面,包括穩(wěn)定性、兼容性、可維護性、性能和成本、客戶交付。梁愛平總結(jié),“所有的客戶需求可以總結(jié)成一句話,用最快的速度、最便宜的價格、最少的人力付出,交付一個安全、穩(wěn)定、可運行的產(chǎn)品。”其中,安全、穩(wěn)定、可運行是普遍需求,具體落地更多地還是考慮數(shù)據(jù)傳輸、計算性能優(yōu)化、復(fù)雜環(huán)境部署等問題。
數(shù)據(jù)傳輸層面。安全多方計算過程中會有大規(guī)模的數(shù)據(jù)傳輸需求,怎么讓客戶以最低的價格完成這種傳輸成為關(guān)鍵問題。DataTrust通過搭建傳輸平臺來解決跨地域傳輸?shù)膯栴}。異地雙方先各自上傳數(shù)據(jù)到本地機房,跨區(qū)域傳輸則通過專屬寬帶,通過這樣的設(shè)計整體降低客戶寬帶費用。
大規(guī)模計算層面。使用安全計算帶來的計算復(fù)雜度會比全量在本地計算高出很多,通常會使用分布式集群計算解決問題,但是客戶已經(jīng)有了Hadoop的集群、 kerberos集群、或者ODBS集群,怎么又快又用客戶的集群去完成大規(guī)模計算成為核心問題。安全計算協(xié)議本身是一個很抽象的過程,DataTrust工程團隊通過把現(xiàn)有分布式方案完成分布式化,并且以插件形式放置在不同分布集群上,使客戶僅使用已有的集群即可完成大規(guī)模的計算。
復(fù)雜環(huán)境部署層面。在服務(wù)銀行等部分客戶的時候,客戶的網(wǎng)絡(luò)環(huán)境需求是很復(fù)雜的。銀行的數(shù)據(jù)存儲、應(yīng)用部署、外部連接區(qū)域都是獨立的,其次是外部人員不能接觸部署,第三是需要滿足審計功能。DataTrust的解決方案是提供文檔和安裝包,支持部署腳本智能化,讓客戶自己的運維人員部署運營。接下來,通過持續(xù)優(yōu)化,支持復(fù)雜網(wǎng)絡(luò)環(huán)境部署,通過任務(wù)調(diào)度和數(shù)據(jù)傳輸?shù)姆蛛x,實現(xiàn)審計的功能的需求。具體操作是在官網(wǎng)端口把流量分成兩部分,一部分流量是用來完成協(xié)調(diào)計算任務(wù)調(diào)度,一部分用來完成數(shù)據(jù)傳輸。對于另一些客戶來說,開放公網(wǎng)是很難的,很多廠家采取的是點對點模式來解決問題。DataTrust支持點對點模式,同時也支持公網(wǎng)模式,因為調(diào)度層和數(shù)據(jù)層分離,任務(wù)調(diào)度的內(nèi)容可以放到了公網(wǎng)節(jié)點,方便客戶訪問;數(shù)據(jù)層則由抽象出的一個數(shù)據(jù)中轉(zhuǎn)區(qū)域負責,專門存放數(shù)據(jù)。如此,數(shù)據(jù)的雙方不需要開放任何端口,只需要訪問公網(wǎng)就可以滿足點對點模式、公網(wǎng)模式的需求。
梁愛平表示,工程化的難點在于速度和價格,復(fù)雜環(huán)境的部署,DataTrust的工程優(yōu)勢則在于編譯和調(diào)度能力,通過原創(chuàng)的無量架構(gòu),既能完成狀態(tài)機的邏輯調(diào)度,也能滿足多方安全協(xié)議的調(diào)度。無量架構(gòu)支持現(xiàn)有的基于OT、DH的PSI,基于MPC的聯(lián)邦機器學習,甚至其他開源代碼,包括已知理論庫支持的所有安全多方協(xié)議的編排和調(diào)度。DataTrust的目標是在多方安全計算領(lǐng)域創(chuàng)造一種工業(yè)級的產(chǎn)品,因此未來也會考慮部分開源這些編譯器,希望能夠為安全多方這種分布式編譯調(diào)度的工業(yè)化需求提供一些解決思路。
3
隨著隱私計算市場從落地初期驗證階段進入到加速實施階段,大規(guī)模應(yīng)用一直面臨諸多難題。從供給方角度來看,輕量化部署,大數(shù)據(jù)處理性能有待優(yōu)化;從需求方角度來看,理解成本較高,安全、可信等問題依然存在。一個好的現(xiàn)象是,隨著國家政策牽引,以及市場培育增加,客戶的接受程度越來越高。
關(guān)于市場格局,張子良認為,當前隱私計算市場存在三類公司,包括初創(chuàng)公司,專業(yè)領(lǐng)域公司,互聯(lián)網(wǎng)公司。所有的公司處于同水平的競爭,在技術(shù)能力、產(chǎn)品能力上尚未出現(xiàn)絕對領(lǐng)先優(yōu)勢的公司,但是市場競爭確實已經(jīng)進入白熱化階段。隱私計算雖然提供了數(shù)據(jù)安全流通的最優(yōu)解,但是也會導(dǎo)致原有業(yè)務(wù)流程斷裂,企業(yè)不得不因此承擔額外成本。DataTrust強調(diào)通過工程化思維去解決問題,力求在輕量化、業(yè)務(wù)耦合,客戶體驗方面尋找突破。
此外,從隱私計算的終局來看,其認為會有三種隱私計算公司可以取得長遠發(fā)展。一是擁有數(shù)據(jù)和場景的加持,能夠打造完整生態(tài)閉環(huán)的公司;二是能夠把隱私計算能力做到普適化,輕量化的公司,比如隱私計算和云服務(wù)結(jié)合,通過組件達到開箱即用的目的;第三種是專業(yè)領(lǐng)域,比如在醫(yī)療或者國產(chǎn)化領(lǐng)域持續(xù)投入的公司。DataTrust天然擁有數(shù)據(jù)和場景的優(yōu)勢,目前在普適化和輕量化方向積極探索。
比如,DataTrust早期產(chǎn)品形態(tài)是混合云版本,通過在公有云上設(shè)置一個中心控制管控平臺,客戶可以自行部署隱私計算相關(guān)節(jié)點。實踐發(fā)現(xiàn)客戶對于云的形態(tài)有各種需求,所以就提出了light版本,雙方互相布置隱私計算節(jié)點,不再依托于云提供服務(wù)。此外DataTrust在部署層面也支持多種部署方式,盡量降低對客戶的干擾。最近也在探索把產(chǎn)品抽象出API,客戶的業(yè)務(wù)系統(tǒng)可以通過API實現(xiàn)調(diào)用;在分布式計算系統(tǒng)上可以用UDF的方式實現(xiàn)。
對于未來發(fā)展規(guī)劃,張子良表示,從內(nèi)部來講首先是加快人才梯隊建設(shè),引入更多專業(yè)領(lǐng)域的復(fù)合式人才,組成產(chǎn)學研結(jié)合的團隊,與DataTrust的業(yè)務(wù)和產(chǎn)品緊密結(jié)合;其次是持續(xù)打磨產(chǎn)品,以實戰(zhàn)為導(dǎo)向,對輕量化、安全性能、工程化加大投入。從外部來講,一是積極推動相關(guān)標準制定,二是開源部分底層技術(shù)能力,降低客戶理解難度,同時實現(xiàn)整個行業(yè)的協(xié)同發(fā)展。
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 專訪DataTrust: 解決隱私計算工程化之殤,為企業(yè)數(shù)據(jù)安全流通提供解決方案
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進,第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國