OCR(光學(xué)字符識(shí)別)將手寫或印刷的圖像轉(zhuǎn)換為信息文本的技術(shù),可以追溯到上世紀(jì)70年代初。不過(guò)隨著科技的進(jìn)步以及企業(yè)對(duì)OCR的需求越來(lái)越多樣化,亞馬遜的研究人員為了改善OCR算法和彎曲文本的識(shí)別準(zhǔn)確率,開(kāi)發(fā)了一款名為Text Tubes的智能工具。它可以快速識(shí)別自然圖像中彎曲文本的信息,并在OCR的基準(zhǔn)上達(dá)到更理想的識(shí)別效果。
通常識(shí)別場(chǎng)景文本時(shí)分為兩個(gè)連續(xù)的任務(wù):文本檢測(cè)與文本識(shí)別;第一個(gè)任務(wù)通過(guò)使用上下文關(guān)系來(lái)定位字符、單詞和行;而第二個(gè)任務(wù)主要用來(lái)轉(zhuǎn)錄其識(shí)別的內(nèi)容。這兩項(xiàng)任務(wù)說(shuō)起來(lái)非常容易,但是對(duì)于計(jì)算機(jī)來(lái)說(shuō)卻非常的困難。因?yàn)檫@涉及到變形、視點(diǎn)變化和任意字體的影響。
亞馬遜的解決方案是利用文本參考框架的“形狀”來(lái)捕獲大多數(shù)文本的可變性。同時(shí)利用目標(biāo)文本的大小,來(lái)還原識(shí)別文本的“形體”。與易于重疊和容易產(chǎn)生噪聲的矩形和四邊形來(lái)捕獲文本信息的傳統(tǒng)方法相比,亞馬遜的方法將顯得更加高效和智能。
研究人員在CTW-1500上評(píng)估了Text Tubes的性能,該數(shù)據(jù)集從自然場(chǎng)景和圖像庫(kù)中收集了1,500張圖像,超過(guò)10,000個(gè)文本實(shí)例(每個(gè)圖像至少一個(gè)彎曲實(shí)例)組成,并在Total-Text上進(jìn)行了測(cè)試。Total-Text包含大約1,255次訓(xùn)練圖像和300個(gè)測(cè)試圖像以及一個(gè)或多個(gè)彎曲文本實(shí)例。測(cè)試報(bào)告顯示,Text Tubes在CTW-1500上以83.65%的準(zhǔn)確度取得了行業(yè)領(lǐng)先的水平,而傳統(tǒng)OCR準(zhǔn)確度為75.6%。
目前Text Tubes還處于測(cè)試階段,如果該技術(shù)正式投入使用,這對(duì)于那些高度依賴OCR開(kāi)展業(yè)務(wù)的企業(yè)來(lái)說(shuō),將是一個(gè)好消息。有數(shù)據(jù)統(tǒng)計(jì),紙張業(yè)務(wù)仍占80%以上的數(shù)字業(yè)務(wù)流程,大約97%的小企業(yè)仍使用紙質(zhì)支票。
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 亞馬遜通過(guò)AI改善對(duì)彎曲文本的識(shí)別準(zhǔn)確率
熱門信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開(kāi)發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開(kāi)閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)