網頁

2014年1月6日 星期一

OCR



覺得要在網頁上輸入驗證碼是一件很麻煩的事。透過 OCR 的技術也許可以解決此一困擾。

這套 Read Image Text Using PHP Tesseract-OCR Reader,看起來不錯。實作也簡單,它是藉由第三方Tesseract-ocr的開放軟體來實作。利用前端的 PHP Code 傳給 Tesseract 處理,再將處理結果回傳出來。在安裝Tesseract-ocr的過程中,注意要將它安裝在指定的目錄內( c:/ocr/),若是按 Tesseract-ocr 的預設值來做安裝的動作,就必須要修改 PHP程式碼 index.php 內的 exec() 的部份,將它指向Tesseract-ocr 程式執行的位址。

不過實作後,發現它在處理英文是沒有什麼問題,但在處理其它的文字時,它的錯誤率就很高,官方手冊內也有說明它本來就是針對 english來開發的 (http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3),但後續則加入了訓練系統的功能,可以讓你拿來辨識非英文的文字。訓練的實作方式可以參考以下幾篇的做法: