轉(zhuǎn)帖|其它|編輯:郝浩|2011-07-12 13:43:24.000|閱讀 820 次
概述:什么是OCR ?假設(shè)你想要數(shù)字化一本雜志的文章或印刷合同。你可能需要花時(shí)間重新輸入,然后糾正錯(cuò)字。或者,你可以使用掃描儀(或數(shù)碼相機(jī))和光學(xué)字符識(shí)別軟件只需要花費(fèi)幾分鐘轉(zhuǎn)換成數(shù)字格式,的所有材料。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
什么是OCR
假設(shè)你想要數(shù)字化一本雜志的文章或印刷合同。你可能需要花時(shí)間重新輸入,然后糾正錯(cuò)字。或者,你可以使用掃描儀(或數(shù)碼相機(jī))和光學(xué)字符識(shí)別軟件只需要花費(fèi)幾分鐘轉(zhuǎn)換成數(shù)字格式,的所有材料。
到底什么是OCR呢?
光學(xué)字符識(shí)別,簡(jiǎn)稱OCR,是一種可以使你轉(zhuǎn)換不同文檔的技術(shù),比如將掃描紙質(zhì)文檔,PDF文件或者數(shù)碼相機(jī)拍攝的圖片轉(zhuǎn)換成可以編輯的文檔。
假設(shè)你獲得了一個(gè)紙質(zhì)文件-比如,雜志、彩頁(yè)或者你合作伙伴發(fā)給你的PDF合同。很明顯,光是一臺(tái)掃描儀是不足以讓這些文檔轉(zhuǎn)變成可以編輯的文檔,也就是Microsoft Word。掃描儀可以做的只是創(chuàng)建圖片或者一張黑白或者彩色的圖像文檔。為了從掃描文檔、PDF或者數(shù)碼圖片中提取文字和數(shù)據(jù),你需要OCR軟件識(shí)別圖片上的信息,從單詞到句子,然后變成整個(gè)可以編輯的文檔。
OCR背后是什么技術(shù)?
人類識(shí)別物體的機(jī)制還需要繼續(xù)探索,但是3個(gè)基本的原則已經(jīng)被科學(xué)家所掌握,集成性(integrity), 有明確目的性(purposefulness)和適應(yīng)性(adaptability)統(tǒng)稱為 (IPA*)。這也是ABBYY FineReader 實(shí)現(xiàn)的技術(shù)核心所模仿和遵循的原則。
讓我們來(lái)看一下FineReader OCR是如何識(shí)別一個(gè)文檔的。首先,這個(gè)程序分析文檔圖片的結(jié)構(gòu)。它將文檔分成一些基本元素,比如文檔塊,表格,圖片等。這些線分割成單詞,再分割成字母。一旦這個(gè)字母已經(jīng)被識(shí)別出來(lái),這個(gè)程序?qū)⒑鸵恍┠0鍒D片進(jìn)行對(duì)比。他將進(jìn)行大量的邏輯分析這個(gè)字母是什么。基于這些邏輯,程序?qū)⒎治鰡卧~和字母。進(jìn)行完大量的可能性分析后,這個(gè)程序最后將判斷并呈現(xiàn)出識(shí)別的文檔。
另外,ABBYY FineReader 提供支持36種語(yǔ)言的字典。這將有助于在第二個(gè)層面分析文檔的元素。在字典的支持下,可以進(jìn)行更加精確分析和文檔識(shí)別,降低將來(lái)識(shí)別結(jié)果的校驗(yàn)。
FineReader OCR的基本原理
最先進(jìn)的識(shí)別系統(tǒng),比如ABBYY FineReader OCR, 是模仿人工識(shí)別。在核心,這些系統(tǒng)遵循3個(gè)基本的原則:集成性(integrity), 有明確目的性(purposefulness)和適應(yīng)性(adaptability)。實(shí)際的意思是說(shuō)觀察物體必須考慮到這個(gè)物體的內(nèi)部相關(guān)性。目的性是指數(shù)據(jù)的表達(dá)都有一定目標(biāo)性。適應(yīng)性是指程序必須具有自學(xué)習(xí)能力。
每個(gè)人不需要成為OCR專家,并了解OCR內(nèi)部的IPA。這些規(guī)則只是提供類最大的靈活性和智能性,并最大可能模板人工識(shí)別。
經(jīng)過(guò)多年的研究,ABBYY可以將IPA原則運(yùn)用到OCR產(chǎn)品中。
識(shí)別數(shù)碼相片
數(shù)碼相機(jī)拍攝的圖片和掃描文檔和PDF文檔有所不同。他們常常有所扭曲,昏暗,不利于OCR正確識(shí)別文檔。ABBYY FineReader 最新版本支持適應(yīng)性識(shí)別,特別為處理數(shù)碼圖片而設(shè)計(jì)。它提供了一系列功能特性來(lái)提高圖片質(zhì)量,使你可以充分使用您的數(shù)碼設(shè)備。
OCR將為你帶來(lái)什么好處。
使用ABBYY FineReader,識(shí)別出來(lái)的文檔就像是原始文檔一樣。先進(jìn)的、強(qiáng)大的OCR軟件將幫助你節(jié)省大量的時(shí)間和精力,使你免于創(chuàng)建、處理不同的文檔。使用ABBYY FineReader,你可以掃描文檔以備將來(lái)編輯、并與你的同事共享。你可以從書籍、雜志中抽取信息,并為你自己的研究提供資料和素材,而不需要重新打字輸入。利用數(shù)碼相機(jī)和OCR,你可以捕捉公告欄、海報(bào)和時(shí)間表上捕捉信息,滿足你使用的需要。同時(shí),你可以捕捉報(bào)紙和書籍信息,甚至在手邊沒有掃描儀的時(shí)候也可以完成捕捉。另外,你還可以使用OCR軟件創(chuàng)建可搜索式的PDF文檔。
從初始紙質(zhì)文檔、圖片和PDF文件和數(shù)據(jù)轉(zhuǎn)換的整個(gè)過(guò)程只需要一分鐘,識(shí)別完的結(jié)果幾乎和原始的幾乎一樣。
如何使用OCR軟件?
使用ABBYY FineReader OCR非常容易,過(guò)程由3個(gè)步驟組成:打開或者掃描文檔,識(shí)別,然后保存成你需要的格式(DOC, RTF, XLS, PDF, HTML, TXT 等等.) 或者直接輸出數(shù)據(jù)到office應(yīng)用,比如Microsoft Word, Excel or Adobe Acrobat。
另外,最新版本ABBYY FineReader支持自動(dòng)任務(wù)模式,這將對(duì)您日常工作大有幫助。有了這個(gè)功能,識(shí)別任務(wù)將自動(dòng)運(yùn)行,而不需要人工干預(yù)。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@ke049m.cn
文章轉(zhuǎn)載自:網(wǎng)絡(luò)轉(zhuǎn)載