EM-OCR EinsatzMonitor PDF-TIFF-TXT Fax Konverter mit Ordnerüberwachung

  • Hallo zusammen,


    nachdem ich eine (Software)-Lücke in der Erkennung & Verarbeitung eines neu eintreffenden Faxes und der anschließenden Auswertung über tesseract hatte, habe ich mir die Software selbst geschrieben.

    Die Software überwacht einen beliebigen Ordner auf eingehende Faxe (pdf/tif/tiff). Kommt ein neues Fax an, wird dieses von PDF in TIF mit GhostScript umgewandelt (sofern notwendig) und anschließend per Tesseract ausgewertet und im Ausgabe-Ordner als TXT gespeichert, damit sie dann von Einsatz-Monitor weiter verarbeitet werden kann. Zusätzlich wird die Original-Datei in einen Archiv-Ordner verschoben.


    ACHTUNG

    Ab V1.0.31 ist tesseract kein integrierter Bestandteil von EM-OCR mehr, die für EM-OCR benötigte Software muss ab sofort unter folgenden Links abgerufen und selbst installiert werden. Diese Schritte müssen nur einmalig durchgeführt werden.


    Tesseract V3.05.02

    GhostScript V9.25


    TESSERACT INSTALLATION:

    Bei der Installation von Tesseract könnt ihr euch zusätzlich das Language-File für "Germany" mit anklicken, falls Ihr mit der alarm.traineddata bisher nicht den gewünschten erfolg hattet. Ansonsten bitte die Datei ->alarm.traineddata <- herunterladen und im Tesseract-Programmordner (C:\Program Files (x86)\Tesseract-OCR\tessdata\) kopieren.


    GHOSTSCRIPT INSTALLATION:

    Hier sind keine weiteren Schritte nötig.


    Bitte aktualisiert falls notwendig im Anschluss die im EM-OCR angegebenen Ordner-Pfade für Tesseract bzw. GhostScript!

    Ich stelle die Software hiermit zur freien Verfügung.


    -Stefan

  • Vielen Dank dafür.....

    Das werde ich gerne mal ausprobieren.... Ist dies auch für Laien selbsterklärend oder benötigt man noch eine Anleitung?


    SoLong

    Sollte eigentlich selbsterklärend sein...


    Tesseract ist mit dabei und der Pfad dazu wird automatisch eingetragen.

    Den Eingabe-Ordner legst du selbst fest (normalerweise der Ordner, in dem das Fax ankommt)

    Den Ausgabe-Ordner legst du als den Eingangs-Ordner von EM fest (Standard: "C:\Users\COMPUTERNAME\Einsatz_Monitor\Text_Input")

    Den Archiv-Ordner kannst du x-beliebig wählen


    Wenn du den Haken bei "Autostart bei Programmstart" auswählst, wird der Service immer sofort bei Programmstart gestartet. Wenn du dann noch die Verknüpfung von EM-OCR in den Autostart-Ordner von Windows legst, wird der Service quasi sofort beim Starten des PC's gestartet. Gerade nach einem Stromausfall ist das denke ich die Beste Lösung...

  • Hallo Stefan,
    dein Tool ist super, danke.
    Es funktioniert auch gut, Ordner-Überwachung und OCR laufen, txt wird angelegt, Fax wird in backup gelegt.
    Es kommt trotzdem anschließend der Fehler, dass die Datei nicht gefunden wird.


    Weißt du, was ich hier falsch mache?

    Danke,
    Harry

  • Hallo Harry,


    danke für die Info, ich habe den Fehler gefunden. Er behebt sich zwar durch einen Neustart des Programms automatisch, ich habe den Bug aber in der V1.0.4 bereits behoben. Du kannst die neue Version oben downloaden...


    Gruß

    -Stefan

  • Benötigst du keine utf-8 Konvertierung?

    Ich hatte mit tesseract immer das Problem, dass die Umlaute nicht korrekt angezeigt wurden. Deshalb habe ich noch iconv mit eingebaut.

  • Tesseract muss ja mit verschiedenen Optionen gestartet werden. Wie oben von Stefan geschrieben, verwendet er (ich übrigens auch) die Option alarm -psm 6.

    Alarm steht für die mal für ein ILS Fax aus Bayern optimierte Trainingsdatei. Die muss aber nicht unbedingt die beste sein. Die Standard Trainingsdatei für Deutsch ist halt die "deu" Datei.

    Das was ich meinte ist halt, funktioniert die alarm Datei nicht korrekt, sollte man als aller erstes mit der deu Datei testen. Sollte das alles nicht funktionieren, kann man auch selbst eine Trainingsdatei erstellen. Das ist aber extrem Aufwendig.


    Die Optionen -psm 6 stehen nur für die Ausgabe.


    VG André

  • Hallo Martin, lade doch mal die Datei hier hoch, mit der du das Problem hast.


    Gruß

    -Stefan

  • Ich hab das Tool jetzt mal getestet. Funktioniert super, macht das gleiche wie meine Batch-Datei in schön:thumbsup:.

    Schau mal bitte hier: https://www.feuerwehr-jesenwang.de/einsatzmonitor

    Da ist ganz gut der Einsatz von iconv beschrieben. Wenn du das noch einbauen könntest, währe es perfekt.;)

    Hallo Andre,


    iconv hab ich testweise implementiert, jedoch ist das Ergebnis identisch mit der bereits ausgegebenen Datei. (bis auf die ANSI-Codierung). Da hier keinerlei Unterschied in der Auswertung vo EM feststellbar ist, werde ich iconv nicht implementieren.


    Gruß

    -Stefan