Tesseract und JTessBoxEditor - wie war das noch gleich?

  • Hallo,

    in unserer Wehr nutzten wir seit knapp 2 Jahren den EM. Alles läuft prima, dennoch will ich die Texterkennung des Faxes bis zur Auswertung verbessern.

    Kurz zum Hintergrund:

    Wir werden über die Leitstelle Ostsachen alarmiert, daher hat das Fax eine andere Schriftart, welche die Auswertung nicht verwenden kann. Daher habe mit ca 4 oder 5 PDF´s die Texterkennung anlernen wollen und das mit Tesseract und jTessBoxEditor. Nach gut 2 Jahren Test habe ich um die 30 EinsatzPDF´s gesammelt und möchte gern eine neu alarm.traineddata erstellen, welche eine besser Verarbeitung gewährleistet.

    Aktuell ist es noch so, dass regelmäßig das "e" mit einem "a" oder das "Z" mit einer "2" vertauscht werden. Das kann ich mit einem extra Skript zum teil abfangen, aber es ist dennoch unschön, wenn es nicht "Baum auf Straße" sonder "Baum auf Straßa" heißt.

    Nun habe ich mir auf meinem Laptop wieder Tesseract und jTessBoxEditor herutnergeladen stehe aber vor folgendem Problem - es will nciht so wie ich will^^

    Mein jTessBoxEditor ist hier installiert: C:\Einsatzmonitor\jTessBoxEditor

    > ich starte das programm über CMD: C:\Einsatzmonitor\jTessBoxEditor\ java -Xms128m -Xmx1024m -jar jTessBoxEditor.jar

    Ich will mir nun eine Box-Datei erstellen, also unter Trainer

    > Tesseract Executable: C:\Einsatzmonitor\jTessBoxEditor\tesseract-ocr\tesseract.exe

    > Trainig Data: meine ganzen Einsatzfaxe zu einer TIF-Datei zusammengefügt

    > languaage und bootstrap language "deu" - dazu habe ich die traineddata von @klouisbrother heruntergeladen

    Ich habe mir das damals so dokumentiert, dass ich auf RUN klicke und mir die Box Datei erstellt, nur leider kommt der Fehler, dass es die traineddata nicht findet. Die liegt einmal

    C:\Program Files\jTessBoxEditor\tesseract-ocr und C:\Program Files\jTessBoxEditor\tesseract-ocr\tessdata

    nach meinen Recherchen sollte die Datei fehlen, nur ist sie ja da.


    Kann mir da mal jemand weiterhelfen, der das schon einmal gemacht hat bzw noch weiß?

    Vielen Dank

    Maik

  • Hallo,

    eigenen Fehler selber behoben - vllt braucht es jemand mal in Zukunft:

    Fehler-Behebung:

    https://stackoverflow.com/questions/1480…t-running-error

    1) Download your language files from https://github.com/tesseract-ocr/tessdata/tree/3.04.00

    For example, for eng, I downloaded all files with eng prefix.

    2) Put them into tessdata directory inside of some folder. Add this folder into System Path variables as TESSDATA_PREFIX.

    Result will be System env var: TESSDATA_PREFIX=D:/Java/OCR And OCR folder has tessdata with languages files.


    <<also, die Umgebungsvariable in der erweiterten Systemsteuerung setzten>> und schon funktioniert es --> PC einmal neustarten


    --> bei großer Tiff-Datei mit vielen PDF´s, kann das erstellen der BOX_Datei schon eine ganze Weile dauern


    Viele Grüße

    Maik