EM-OCR EinsatzMonitor PDF-TIFF-TXT Fax Konverter mit Ordnerüberwachung

    • Offizieller Beitrag

    Hallo zusammen,

    nachdem ich eine (Software)-Lücke in der Erkennung & Verarbeitung eines neu eintreffenden Faxes und der anschließenden Auswertung über tesseract hatte, habe ich mir die Software selbst geschrieben.

    Die Software überwacht einen beliebigen Ordner auf eingehende Faxe (pdf/tif/tiff). Kommt ein neues Fax an, wird dieses von PDF in TIF mit GhostScript umgewandelt (sofern notwendig) und anschließend per Tesseract ausgewertet und im Ausgabe-Ordner als TXT gespeichert, damit sie dann von Einsatz-Monitor weiter verarbeitet werden kann. Zusätzlich wird die Original-Datei in einen Archiv-Ordner verschoben.

    Release-Notes

    *********UPDATE********* V2.0.00

    -> Komplette Überarbeitung des Programmlayouts
    -> Gleiche Funktionalität wie V1.0.36

    *********UPDATE********* V2.0.01

    -> Dateiüberwachung überarbeitet

    -> PDF - Druck Bug unter Windows 32-bit behoben

    *********UPDATE********* V2.0.02

    -> Nicht behandelte Ausnahme bei Systemstart mit fehlendem Eingangs-Ordner behoben

    -> Fehlende Aktualisierung bei "Details anzeigen" behoben.

    *********UPDATE********* V2.0.03

    -> Suchen/Ersetzen Felder von 10 auf 15 erhöht

    *********UPDATE********* V2.0.04

    -> Suchen/Ersetzen Felder von 15 auf 20 erhöht

    *********UPDATE********* V2.0.05

    -> Bug in den Druckeinstellungen behoben

    *********UPDATE********* V2.0.06

    -> Rohdaten (vor Autoparser) werden jetzt automatisch archiviert. Zusätzlich dazu kann ein Export-Ordner angegeben werden.

    *********UPDATE********* V2.0.07

    -> Bug in der Druckerliste behoben

    -> Einstellungen werden jetzt immer beim Schließen des jeweiligen Fensters gespeichert

    *********UPDATE********* V2.0.08

    -> Durch Code-Optimierung 1 FileSystemWatcher eingespart

    -> Erweitertes Fehler-Logging

    -> Input-Datei wird nach dem Kopiervorgang ins TEMP-Verzeichnis mit der Quelldatei gegengeprüft und bei Bedarf erneut kopiert.


    *********UPDATE********* V2.01

    -> Druckausgabe komplett überarbeitet. Ab sofort ist kein AcrobatReader mehr nötig.

    -> Bug in Druckausgabe behoben.

    *********UPDATE********* V2.03

    -> Fehler in Timestamp behoben

    -> Bug in Verarbeitung (Suchen & Ersetzen) behoben

    *********UPDATE********* V2.04

    -> Suchen & Ersetzen Felder von 20 auf 25 erhöht.


    Tipps & Tricks

    ****Sonderzeichen im Autoparser****

    -> Wenn ihr per Autoparser bis zu einem Sonderzeichen lesen möchtet, müsst ihr vor das Zeichen ein Backslash "\" setzen. Wenn ihr z.B. bis zu einer Klammer lesen möchtet, tragt in das Feld "\(" ein.

    ****Datensicherung****

    Die Einstellungen werden ab V1.0.28 automatisch von der Vorgängerversion übernommen. Solltet ihr z.B. wegen PC-Tausch EM-OCR auf einem neuen Rechner installieren müssen, könnt ihr die bisherige Konfiguration in folgendem Ordner finden und sichern. Die user.config einfach in den entsprechenden Ordner auf dem neuen PC kopieren.

    -> C:\Users\BENUTZERNAME\AppData\Local\EM_OCR\

    Hier noch 2 Erklärungsvideos:

    EM-OCR und Pattern im EinsatzMonitor konfigurieren - Teil 1

    https://youtu.be/3CHkRbJbMFQ

    EM-OCR und Pattern im EinsatzMonitor konfigurieren - Teil 2

    https://youtu.be/glWhWlcbOUU

    Screenshots

    INSTALLATIONSANLEITUNG

    Für den Betrieb von EM-OCR werden sowohl GhostScript als auch Tesseract benötigt. Die Software kann unter nachfolgenden Links heruntergeladen werden.

    GhostScript V9.27 (Download)

    Downloaden, installieren und den Pfad zu "gswin32c.exe" im EM-OCR unter "Ordnerpfade" angeben (z.B: "C:\Program Files (x86)\gs\gs9.25\bin\gswin32c.exe").

    Tesseract V3.05.02 (Download)

    Downloaden, installieren, bei der Installation die zusätzliche Sprachdatei "German" mit anklicken, dann wird die "deu.traineddata" gleich mit heruntergeladen.

    Anschließend den Pfad zu "tesseract.exe" im EM-OCR unter "Ordnerpfade" angeben (z.B. "C:\Program Files (x86)\Tesseract-OCR\tesseract.exe").


    Empfehlung für die "alte" Alarmfax-Schriftart:

    Download der alarm.traineddata und im Tesseract-Programmverzeichnis in das "tessdata" Unterverzeichnis kopieren. Danach sollte die Tesseract-Einstellung im EM-OCR wie folgt lauten: "-l alarm -psm 6"

    Empfehlung für die "neue" Schriftart:

    Download der optimierten deu.traineddata und im Tesseract-Programmverzeichnis in das "tessdata" Unterverzeichnis kopieren. Danach sollte die Tesseract-Einstellung im EM-OCR wie folgt lauten: "-l deu -psm 6"

    Tesseract 4.x (alternativ)

    Ich konnte leider auch nach mehrmaligen Versuchen keine zufriedenstellenden Ergebnisse mit Tesseract 4.x erzielen. Wer es trotzdem ausprobieren möchte, kann dies gerne tun. Hier der Link zur Download-Seite: https://github.com/UB-Mannheim/tesseract/wiki

    //EDIT Sven:

    Nach vielen Tests meine Empfehlung: Download von https://github.com/tesseract-ocr/…deu.traineddata und

    im Tesseract-Programmordner (C:\Program Files (x86)\Tesseract-OCR\tessdata\) kopieren.

    Im EM-OCR unter Einstellungen => Ghostskript / Tesseract => bei Tesseract folgendes eingeben: "-l deu --psm 6 -c page_separator="

    Bitte aktualisiert falls notwendig im Anschluss die im EM-OCR angegebenen Ordner-Pfade für Tesseract bzw. GhostScript!

    Mitarbeit

    Das Programm stelle ich ich auf Azure DevOps bereit, gerne kann hier aktiv bei der weiteren Entwicklung mitgearbeitet werden.

    https://dev.azure.com/stefan-seider/EM-OCR/_git/EM-OCR

    Ich werde mich aufgrund Zeitmangels etwas aus dem Thema zurückziehen. Da ich selbst kein "gelernter" Entwickler bin, hoffe ich dass sich hier in der Community der ein oder andere freiwillige findet, der sich der weiteren Betreuung der Software annimmt. Gerne kann die Software auch in den EM integriert werden.

    Ich stelle die Software hiermit zur freien Verfügung.

    -Stefan

    • Offizieller Beitrag

    Vielen Dank dafür.....

    Das werde ich gerne mal ausprobieren.... Ist dies auch für Laien selbsterklärend oder benötigt man noch eine Anleitung?

    SoLong

    Sollte eigentlich selbsterklärend sein...

    Tesseract ist mit dabei und der Pfad dazu wird automatisch eingetragen.

    Den Eingabe-Ordner legst du selbst fest (normalerweise der Ordner, in dem das Fax ankommt)

    Den Ausgabe-Ordner legst du als den Eingangs-Ordner von EM fest (Standard: "C:\Users\COMPUTERNAME\Einsatz_Monitor\Text_Input")

    Den Archiv-Ordner kannst du x-beliebig wählen

    Wenn du den Haken bei "Autostart bei Programmstart" auswählst, wird der Service immer sofort bei Programmstart gestartet. Wenn du dann noch die Verknüpfung von EM-OCR in den Autostart-Ordner von Windows legst, wird der Service quasi sofort beim Starten des PC's gestartet. Gerade nach einem Stromausfall ist das denke ich die Beste Lösung...

  • Hallo Stefan,
    dein Tool ist super, danke.
    Es funktioniert auch gut, Ordner-Überwachung und OCR laufen, txt wird angelegt, Fax wird in backup gelegt.
    Es kommt trotzdem anschließend der Fehler, dass die Datei nicht gefunden wird.

    Weißt du, was ich hier falsch mache?

    Danke,
    Harry

    FF Mengkofen (Bayern, ILS Landshut)

    • Offizieller Beitrag

    Hallo Harry,

    danke für die Info, ich habe den Fehler gefunden. Er behebt sich zwar durch einen Neustart des Programms automatisch, ich habe den Bug aber in der V1.0.4 bereits behoben. Du kannst die neue Version oben downloaden...

    Gruß

    -Stefan

  • Benötigst du keine utf-8 Konvertierung?

    Ich hatte mit tesseract immer das Problem, dass die Umlaute nicht korrekt angezeigt wurden. Deshalb habe ich noch iconv mit eingebaut.

    • Offizieller Beitrag

    Benötigst du keine utf-8 Konvertierung?

    Ich hatte mit tesseract immer das Problem, dass die Umlaute nicht korrekt angezeigt wurden. Deshalb habe ich noch iconv mit eingebaut.

    Hallo,

    Danke für den Hinweis, ich werde mir das mal ansehen und evtl noch mit einbauen.

  • Guten Morgen,

    ist ein nettes Tool - allerdings bei unseren Alarmfax kann er nicht alles richtig lesen.

    : --> z

    l --> ! oder .

    M --> m

    @ --> Q

    I --> !

    Wenn ich dir mit irgendetwas helfen kann, gib bitte bescheid.

    Martin

  • Das wird bei dir aber eher an der Traindata liegen. Hast du es Mal mit der deu anstatt der alarm getestet?

  • Tesseract muss ja mit verschiedenen Optionen gestartet werden. Wie oben von Stefan geschrieben, verwendet er (ich übrigens auch) die Option alarm -psm 6.

    Alarm steht für die mal für ein ILS Fax aus Bayern optimierte Trainingsdatei. Die muss aber nicht unbedingt die beste sein. Die Standard Trainingsdatei für Deutsch ist halt die "deu" Datei.

    Das was ich meinte ist halt, funktioniert die alarm Datei nicht korrekt, sollte man als aller erstes mit der deu Datei testen. Sollte das alles nicht funktionieren, kann man auch selbst eine Trainingsdatei erstellen. Das ist aber extrem Aufwendig.

    Die Optionen -psm 6 stehen nur für die Ausgabe.

    VG André

    • Offizieller Beitrag

    Hallo Martin, lade doch mal die Datei hier hoch, mit der du das Problem hast.

    Gruß

    -Stefan

    • Offizieller Beitrag

    Ich hab das Tool jetzt mal getestet. Funktioniert super, macht das gleiche wie meine Batch-Datei in schön:thumbup:.

    Schau mal bitte hier: https://www.feuerwehr-jesenwang.de/einsatzmonitor

    Da ist ganz gut der Einsatz von iconv beschrieben. Wenn du das noch einbauen könntest, währe es perfekt.;)

    Hallo Andre,

    iconv hab ich testweise implementiert, jedoch ist das Ergebnis identisch mit der bereits ausgegebenen Datei. (bis auf die ANSI-Codierung). Da hier keinerlei Unterschied in der Auswertung vo EM feststellbar ist, werde ich iconv nicht implementieren.

    Gruß

    -Stefan