144 // "-scale", "150%" };
初步结论, 使用imageMagick转换到tiff再提取数字, 比直接使用支持多抓奶哥格式的lept要稍微快一些。 但虚存占用略大。
error/constitute.c/ReadImage/532
出现此错误, 是ImageMagick的delegate的问题。 可以使用convert -list configure查看DELEGATE, 然后安装对应的图形lib、再重新安装ImageMagick
========================================================================
#!/bin/bash
#http://hi.baidu.com/zzticzh/blog/item/b363a8cc64ff4e0401e9289d.html
#生成box文件
tesseract myeng.tif myeng -l chi_sim batch.nochop makebox
##tesseract myeng.tif myeng -l myeng batch.nochop makebox
#vi classify/ocrfeatures.cpp tess_fscanf -> fscnaf
#得到tr txt log文件。 注意查看log文件
tesseract myeng.tif myeng nobatch box.train
#得到unicharset文件
unicharset_extractor myeng.box
#得到inttemp pffmtable myeng.unicharset Microfeat
mftraining -U unicharset -O myeng.unicharset myeng.tr
mv -f inttemp myeng.inttemp
mv -f Microfeat myeng.Microfeat
mv -f pffmtable myeng.pffmtable
#多个的结果聚集
##mftraining -U unicharset -O myeng.unicharset myeng.tr
#得到normproto
cntraining myeng.tr
mv -f normproto myeng.normproto
touch normproto.unicharambigs
combine_tessdata myeng.
==========================================================================
ocr效果参数
char *argv[32] = {"presudo", "-compress", "none", "-trim", "-gravity", "NorthWest", "-crop", "100x100+0+0", "+repage",
154 "-normalize", "-level", "25%",
155 "-sigmoidal-contrast", "10,50%", "-monochrome",
156 NULL};
不压缩、去边缘空白 切割 、颜色归一、对比度增强 再转为二值化
=============
安装图形库 png gif tiff jpeg