海康威視基于深度學習的“文字識別技術(shù)”在國際競賽中斬獲第一

中國投影網(wǎng)投影資訊　來源：中國投影網(wǎng) 　2017-3-30 11:27:58　編輯：影者　[ 大中小 ]

近日，海康威視研究院預研團隊基于深度學習技術(shù)研發(fā)的OCR（Optical Character Recognition，圖像中文字識別）技術(shù)，刷新了ICDARRobust Reading競賽數(shù)據(jù)集的全球最好成績，并在“互聯(lián)網(wǎng)圖像文字”、“對焦自然場景文字”和“隨拍自然場景文字”三項挑戰(zhàn)的文字識別（Word Recognition）任務中，大幅超越國內(nèi)外強勁參賽團隊，標志著海康威視的文字識別技術(shù)達到國際領(lǐng)先水平。
ICDAR（InternationalConference on Document Analysis and Recognition）全稱為文檔分析與識別國際會議，由國際模式識別協(xié)會(IAPR)主辦。它組織的文檔分析與識別競賽是當前OCR技術(shù)領(lǐng)域全球最具影響力的比賽，從2003年至今已舉辦5屆。其中2015競賽兩年來，已吸引了來自82個國家的2367支隊伍參加，其中包括Google、微軟、百度、三星、曠視等團隊，競賽中涌現(xiàn)的許多方法都對文字識別技術(shù)的發(fā)展起到了強大的推動作用。

圖1 RobustReading競賽的三項主要任務
這些任務中待識別的文字位于復雜圖像背景中，成像存在噪聲、模糊、透視、傾斜以及排列隨意等不利因素，甚至字體格式種類繁多。海康威視的OCR技術(shù)，克服種種困難，在三項文字識別任務中均取得了世界第一，分別在Web and Email Born-Digital Images任務中以5.6%的優(yōu)勢超越第二名，在FocusedScene Text和Incidental Scene Text任務中超越第二名3.4%和3.1%。

圖2 Born-Digital Images識別評測結(jié)果顯示HIK_OCR排名第一

圖3 Focused Scene Text識別評測結(jié)果顯示HIK_OCR排名第一

圖4 Incidental Scene Text識別評測結(jié)果顯示HIK_OCR排名第一
近年來文字識別技術(shù)的突破，很大程度上依賴于深度學習的發(fā)展。海康威視預研團隊設計了一個數(shù)十層的卷積神經(jīng)網(wǎng)絡來完成圖像的信息編碼，然后使用啟發(fā)式的注意力模型，實現(xiàn)從特征到文字的解碼。其中，專為文本識別設計的啟發(fā)式機制，能夠?qū)ψ⒁饬δＰ吞崛〉奶卣鬟M行合理性評估，使注意力模型在復雜場景中，具有強大的穩(wěn)定性。

圖5 海康威視文字識別技術(shù)原理示意
借助先進的OCR技術(shù)，海康威視的文字識別系統(tǒng)能夠應對更為復雜文字識別場景，如污損及模糊、背景干擾及形變、惡劣天氣等。目前，基于全新OCR技術(shù)的海康威視車牌識別系統(tǒng)已經(jīng)覆蓋全球六十余個國家和地區(qū)。基于車牌識別技術(shù)的卡口、電子警察、出入口控制、停車系統(tǒng)等應用也已經(jīng)全面鋪開。

                               圖6 通用車牌識別的典型應用場景
    除此之外，此次競賽成果還可以應用到機器視覺領(lǐng)域的標簽表單識別、民生領(lǐng)域的卡證執(zhí)照識別、互聯(lián)網(wǎng)領(lǐng)域的惡意圖片識別、汽車輔助駕駛領(lǐng)域的路牌識別、城市管理領(lǐng)域的橫幅標語和街景識別等產(chǎn)品中，大幅提升產(chǎn)品性能與應用效果。
    在如今人工智能的浪潮里，海康威視將充分利用自身大數(shù)據(jù)的積累及人工智能技術(shù)優(yōu)勢，快速提升OCR技術(shù)性能，并不斷推動機器的智能化和自動化水平的提高，在視頻監(jiān)控、智能感知和場景理解等方面為客戶持續(xù)創(chuàng)造價值。

文章來源：中國投影網(wǎng) ©版權(quán)所有。未經(jīng)許可，不得轉(zhuǎn)載。