Beim Wechsel auf Tesseract v4, wäre es sinnvoll auch die neue LSTM OCR engine mit den dazu passenden Traineddata Dateien zu nutzen.
Die Traineddata Dateien von 4.0 enthalten sowohl die Legacy-Variante als auch die LSTM-Variante.
Da hat Stefan vollkommen recht mit der Frage, wieso sollte man die "alte" Legacy Engine nutzen.
Nun zu meinen Erfahrungen bei den Tests und die daraus resultierende Empfehlung:
Tesseract v4 mit LSTM (deu-Traineddata): (--oem 1 oder --oem 3 (Default)(Falls LSTM-Modelle in der Traineddata vorhanden sind wie bei deu v4)
-- keine brauchbaren Auswertungsergebnisse
-- sehr lange Verarbeitungszeiten ~90 Sekunden für ein Fax
-- keine Kompatiblität mit den alten Traineddata alarm oder by
Tesseract v4 mit Legacy-Engine (deu-Traineddata):
-- Auswertungsergebnisse vergleichbar mit der Genauigkeit von Tesseract 3.5
-- kurze Verarbeitungszeiten ~5 Sekunden für ein Fax
-- Kompatiblität mit den alten Traineddata alarm oder by
Empfohlene Settings:
https://digi.bib.uni-mannheim.de/tesseract/tess….0.20181030.exe
https://github.com/tesseract-ocr/…deu.traineddata
Tesseract-Setting Legacy Mode
-l deu --psm 6 --oem 0 -c page_separator=
EM-OCR Verarbeitung
Ersetze: — Durch - (Gedankenstrich durch Bindestrich)
Über alternative Erfahrungen zu anderen Settings würde ich mich freuen.