限制字符tesseract正在寻找
是否可以限制tesseract正在寻找的字符集(例如只search字母az)? 这将大大改善我的结果。
在tessdata / configs目录中创build一个configuration文件(例如“letters”) – 通常是/usr/share/tesseract/tessdata/configs
要么
/usr/share/tesseract-ocr/tessdata/configs
并将此行添加到configuration文件中:
tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz
…或者[az]工作..不知道:-)
然后调用类似于这样的tesseract:
tesseract input.tif output nobatch letters
这将限制tesseract只识别想要的字符
除了configuration文件外,还有-c
标志:
tesseract stdin stdout -c tessedit_char_whitelist=abcdefghijklmnopqrstuvwxyz -psm 6
只需在Android上使用tesseract添加此项即可。 在您设置语言的readOCR函数中,添加以下行;
tesseract.setVariable("tessedit_char_whitelist","ABCDEFGHIJKLMNOPQRSTUVWXYZ");
你也可以做blackList来排除字符。