EM-OCR EinsatzMonitor PDF-TIFF-TXT Fax Konverter mit Ordnerüberwachung

  • Hallo zusammen,


    nachdem ich eine (Software)-Lücke in der Erkennung & Verarbeitung eines neu eintreffenden Faxes und der anschließenden Auswertung über tesseract hatte, habe ich mir die Software selbst geschrieben.

    Die Software überwacht einen beliebigen Ordner auf eingehende Faxe (pdf/tif/tiff). Kommt ein neues Fax an, wird dieses von PDF in TIF mit GhostScript umgewandelt (sofern notwendig) und anschließend per Tesseract ausgewertet und im Ausgabe-Ordner als TXT gespeichert, damit sie dann von Einsatz-Monitor weiter verarbeitet werden kann. Zusätzlich wird die Original-Datei in einen Archiv-Ordner verschoben.


    INSTALLATIONSANLEITUNG

    Für den Betrieb von EM-OCR werden sowohl GhostScript als auch Tesseract benötigt. Die Software kann unter nachfolgenden Links heruntergeladen werden.


    GhostScript V9.27 (Download)

    Downloaden, installieren und den Pfad zu "gswin32c.exe" im EM-OCR unter "Ordnerpfade" angeben (z.B: "C:\Program Files (x86)\gs\gs9.25\bin\gswin32c.exe").


    Tesseract V3.05.02 (Download)

    Downloaden, installieren, bei der Installation die zusätzliche Sprachdatei "German" mit anklicken, dann wird die "deu.traineddata" gleich mit heruntergeladen.

    Anschließend den Pfad zu "tesseract.exe" im EM-OCR unter "Ordnerpfade" angeben (z.B. "C:\Program Files (x86)\Tesseract-OCR\tesseract.exe").


    Empfehlung für die "alte" Alarmfax-Schriftart:

    Download der alarm.traineddata und im Tesseract-Programmverzeichnis in das "tessdata" Unterverzeichnis kopieren. Danach sollte die Tesseract-Einstellung im EM-OCR wie folgt lauten: "-l alarm -psm 6"


    Empfehlung für die "neue" Schriftart:

    Download der optimierten deu.traineddata und im Tesseract-Programmverzeichnis in das "tessdata" Unterverzeichnis kopieren. Danach sollte die Tesseract-Einstellung im EM-OCR wie folgt lauten: "-l deu -psm 6"


    Tesseract 4.x (alternativ)

    Ich konnte leider auch nach mehrmaligen Versuchen keine zufriedenstellenden Ergebnisse mit Tesseract 4.x erzielen. Wer es trotzdem ausprobieren möchte, kann dies gerne tun. Hier der Link zur Download-Seite: https://github.com/UB-Mannheim/tesseract/wiki


    //EDIT Sven:

    Nach vielen Tests meine Empfehlung: Download von https://github.com/tesseract-o…/raw/4.00/deu.traineddata und

    im Tesseract-Programmordner (C:\Program Files (x86)\Tesseract-OCR\tessdata\) kopieren.

    Im EM-OCR unter Einstellungen => Ghostskript / Tesseract => bei Tesseract folgendes eingeben: "-l deu --psm 6 -c page_separator="


    Bitte aktualisiert falls notwendig im Anschluss die im EM-OCR angegebenen Ordner-Pfade für Tesseract bzw. GhostScript!


    Ich stelle die Software hiermit zur freien Verfügung.


    -Stefan

  • Vielen Dank dafür.....

    Das werde ich gerne mal ausprobieren.... Ist dies auch für Laien selbsterklärend oder benötigt man noch eine Anleitung?


    SoLong

    Sollte eigentlich selbsterklärend sein...


    Tesseract ist mit dabei und der Pfad dazu wird automatisch eingetragen.

    Den Eingabe-Ordner legst du selbst fest (normalerweise der Ordner, in dem das Fax ankommt)

    Den Ausgabe-Ordner legst du als den Eingangs-Ordner von EM fest (Standard: "C:\Users\COMPUTERNAME\Einsatz_Monitor\Text_Input")

    Den Archiv-Ordner kannst du x-beliebig wählen


    Wenn du den Haken bei "Autostart bei Programmstart" auswählst, wird der Service immer sofort bei Programmstart gestartet. Wenn du dann noch die Verknüpfung von EM-OCR in den Autostart-Ordner von Windows legst, wird der Service quasi sofort beim Starten des PC's gestartet. Gerade nach einem Stromausfall ist das denke ich die Beste Lösung...

  • Hallo Stefan,
    dein Tool ist super, danke.
    Es funktioniert auch gut, Ordner-Überwachung und OCR laufen, txt wird angelegt, Fax wird in backup gelegt.
    Es kommt trotzdem anschließend der Fehler, dass die Datei nicht gefunden wird.


    Weißt du, was ich hier falsch mache?

    Danke,
    Harry

  • Hallo Harry,


    danke für die Info, ich habe den Fehler gefunden. Er behebt sich zwar durch einen Neustart des Programms automatisch, ich habe den Bug aber in der V1.0.4 bereits behoben. Du kannst die neue Version oben downloaden...


    Gruß

    -Stefan

  • Benötigst du keine utf-8 Konvertierung?

    Ich hatte mit tesseract immer das Problem, dass die Umlaute nicht korrekt angezeigt wurden. Deshalb habe ich noch iconv mit eingebaut.

  • Guten Morgen,


    ist ein nettes Tool - allerdings bei unseren Alarmfax kann er nicht alles richtig lesen.

    : --> z

    l --> ! oder .

    M --> m

    @ --> Q

    I --> !


    Wenn ich dir mit irgendetwas helfen kann, gib bitte bescheid.


    Martin

  • Tesseract muss ja mit verschiedenen Optionen gestartet werden. Wie oben von Stefan geschrieben, verwendet er (ich übrigens auch) die Option alarm -psm 6.

    Alarm steht für die mal für ein ILS Fax aus Bayern optimierte Trainingsdatei. Die muss aber nicht unbedingt die beste sein. Die Standard Trainingsdatei für Deutsch ist halt die "deu" Datei.

    Das was ich meinte ist halt, funktioniert die alarm Datei nicht korrekt, sollte man als aller erstes mit der deu Datei testen. Sollte das alles nicht funktionieren, kann man auch selbst eine Trainingsdatei erstellen. Das ist aber extrem Aufwendig.


    Die Optionen -psm 6 stehen nur für die Ausgabe.


    VG André

  • Hallo Martin, lade doch mal die Datei hier hoch, mit der du das Problem hast.


    Gruß

    -Stefan

  • Ich hab das Tool jetzt mal getestet. Funktioniert super, macht das gleiche wie meine Batch-Datei in schön:thumbsup:.

    Schau mal bitte hier: https://www.feuerwehr-jesenwang.de/einsatzmonitor

    Da ist ganz gut der Einsatz von iconv beschrieben. Wenn du das noch einbauen könntest, währe es perfekt.;)

    Hallo Andre,


    iconv hab ich testweise implementiert, jedoch ist das Ergebnis identisch mit der bereits ausgegebenen Datei. (bis auf die ANSI-Codierung). Da hier keinerlei Unterschied in der Auswertung vo EM feststellbar ist, werde ich iconv nicht implementieren.


    Gruß

    -Stefan

  • Danke für die Antworten - ich habe das deu.traineddata im Internet gesucht - aber bei beiden Versionen die ich runtergeladen habe stürzt die Applikation ab.


    Ein Beispiel PDF im Anhang.


    Bitte um Info welche deu funktionieren könnte.


    Danke