Hallo,
in unserer Wehr nutzten wir seit knapp 2 Jahren den EM. Alles läuft prima, dennoch will ich die Texterkennung des Faxes bis zur Auswertung verbessern.
Kurz zum Hintergrund:
Wir werden über die Leitstelle Ostsachen alarmiert, daher hat das Fax eine andere Schriftart, welche die Auswertung nicht verwenden kann. Daher habe mit ca 4 oder 5 PDF´s die Texterkennung anlernen wollen und das mit Tesseract und jTessBoxEditor. Nach gut 2 Jahren Test habe ich um die 30 EinsatzPDF´s gesammelt und möchte gern eine neu alarm.traineddata erstellen, welche eine besser Verarbeitung gewährleistet.
Aktuell ist es noch so, dass regelmäßig das "e" mit einem "a" oder das "Z" mit einer "2" vertauscht werden. Das kann ich mit einem extra Skript zum teil abfangen, aber es ist dennoch unschön, wenn es nicht "Baum auf Straße" sonder "Baum auf Straßa" heißt.
Nun habe ich mir auf meinem Laptop wieder Tesseract und jTessBoxEditor herutnergeladen stehe aber vor folgendem Problem - es will nciht so wie ich will^^
Mein jTessBoxEditor ist hier installiert: C:\Einsatzmonitor\jTessBoxEditor
> ich starte das programm über CMD: C:\Einsatzmonitor\jTessBoxEditor\ java -Xms128m -Xmx1024m -jar jTessBoxEditor.jar
Ich will mir nun eine Box-Datei erstellen, also unter Trainer
> Tesseract Executable: C:\Einsatzmonitor\jTessBoxEditor\tesseract-ocr\tesseract.exe
> Trainig Data: meine ganzen Einsatzfaxe zu einer TIF-Datei zusammengefügt
> languaage und bootstrap language "deu" - dazu habe ich die traineddata von @klouisbrother heruntergeladen
Ich habe mir das damals so dokumentiert, dass ich auf RUN klicke und mir die Box Datei erstellt, nur leider kommt der Fehler, dass es die traineddata nicht findet. Die liegt einmal
C:\Program Files\jTessBoxEditor\tesseract-ocr und C:\Program Files\jTessBoxEditor\tesseract-ocr\tessdata
nach meinen Recherchen sollte die Datei fehlen, nur ist sie ja da.
Kann mir da mal jemand weiterhelfen, der das schon einmal gemacht hat bzw noch weiß?
Vielen Dank
Maik