2009年10月25日 星期日

Ubuntu密技 - OCR文字掃描

OCR是光學字元辨認的英文縮寫,意思是將印刷文件的文字換為電腦字元形式。在Ubuntu下轉換過程十分簡易,步驟如下:

  1. 以Synaptic套件管理程式安裝gocr套件,它是Ubuntu的掃描程式XSane的擴充元件。因此,安裝完成後,它不會被加入GNOME桌面系統的應用程式選單內。
  2. Applications (正體中文環境稱為「應用程式」) → Graphics (正體中文環境稱為「美工繪圖」)選單啟動XSane Image Scanner。在進行光學文字辨認之前,還要先設罝掃描文件的特性。由XSane的控制面板中點選圖像類別的下拉式選框按鈕,選擇Gray(灰階),再點選解析度的下拉式選框按鈕,選擇300。注意:這兩個選框沒有文字標明,僅有兩個圖示,它們約略位於控制面板的中央,應不會弄錯。
  3. XSane Image Scanner
  4. XSane的預覽視窗內,點擊Acquire Preview按鈕以取得圖像預覽,然後可視欲掃描的文字範圍來拖曳改變掃描區域的邊界。儘可能的把不需要的範圍去除(裁剪的愈小愈好),這樣可減少OCR辨認錯誤。
  5. 回到XSane的控制面板,點選Scan按鈕。
  6. 當掃描完成後,出現圖像檢視視窗,若有必要則將圖像旋轉到正確的方向,再由File選單中選擇OCR - Save As Text,於彈出的對話視窗中填入欲儲存文件的檔案名稱,再按下Save按鈕。此時即開始進行辨認工作,所費時間依文件的複雜程度而定。在辨認過程中不會出現進度提示,因此圖像檢視視窗會變灰,它不是真的僵死,完成辨認工作後就會恢復正常。

在得到辨認結果之後,與原始文件比對檢查其中的錯誤。或許需要重新掃描文件,並在控制面板中改變亮度及明亮對比度。通常愈簡單的文件的辨認度愈高,例如一整頁排列整齊的純文字;而複雜的雜誌頁面,有不同字型、不同字體、文字流向、彩色背景……等等,辨認的正確性就會比較差。因此,對於複雜的頁面,不妨將它們劃分為數個區域,分欄或分格掃描(將文字及圖片分開),以得到較好的結果。

密技以Ubuntu 8.04長期支援版本(Hardy Heron)測試,有可能不適用於新版本,或需做配合微調。

0 留言:

張貼留言