本軟件是飛濤軟件工作室開發(fā)的一款免費(fèi)Ocr軟件,主要用于識(shí)別圖像文件之中,出現(xiàn)的漢字顯示字體。Ocr的中文含意是光學(xué)字符識(shí)別。
為什么叫Mini呢?因?yàn)楝F(xiàn)有的識(shí)別漢字的商業(yè)Ocr軟件,動(dòng)輒二三十兆,而本軟件解壓后,也不過三兆多,身材比較纖小,再加上本軟件主要用于識(shí)別字體比較小的漢字,所以叫Mini,中文的發(fā)音是“迷你”,中文含義是超小型。
Mini Ocr進(jìn)行漢字識(shí)別的策略:
1) 采用復(fù)合特征的分類方法。
2) 字符集選擇3755個(gè)一級(jí)漢字。
3) 字體選擇最常用的宋體。
4) 字號(hào)選擇從小五號(hào)到一號(hào)漢字,主要針對(duì)20個(gè)點(diǎn)之內(nèi)的小字體。
5) 英漢混排時(shí),漢語優(yōu)先。
6) 漢字粘連時(shí),進(jìn)行動(dòng)態(tài)優(yōu)化切分。
7) 識(shí)別前,先進(jìn)行頁面切分,把頁面分割成一個(gè)一個(gè)的文字段落,擦除圖形塊,保留文字塊。按照文字塊先后順序進(jìn)行識(shí)別,以期處理圖文混排的頁面時(shí),能達(dá)到更好的識(shí)別效果,并排除圖形的干擾,加快文字的識(shí)別速度。
網(wǎng)友評(píng)論