限制字符tesseract正在寻找

是否可以限制tesseract正在寻找的字符集(例如只search字母az)? 这将大大改善我的结果。

在tessdata / configs目录中创build一个configuration文件(例如“letters”) – 通常是/usr/share/tesseract/tessdata/configs
要么
/usr/share/tesseract-ocr/tessdata/configs

并将此行添加到configuration文件中:

 tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz 

…或者[az]工作..不知道:-)
然后调用类似于这样的tesseract:

 tesseract input.tif output nobatch letters 

这将限制tesseract只识别想要的字符

除了configuration文件外,还有-c标志:

 tesseract stdin stdout -c tessedit_char_whitelist=abcdefghijklmnopqrstuvwxyz -psm 6 

只需在Android上使用tesseract添加此项即可。 在您设置语言的readOCR函数中,添加以下行;

 tesseract.setVariable("tessedit_char_whitelist","ABCDEFGHIJKLMNOPQRSTUVWXYZ"); 

你也可以做blackList来排除字符。