EM-OCR EinsatzMonitor PDF-TIFF-TXT Fax Konverter mit Ordnerüberwachung

Stefan Seider

Hallo zusammen,

nachdem ich eine (Software)-Lücke in der Erkennung & Verarbeitung eines neu eintreffenden Faxes und der anschließenden Auswertung über tesseract hatte, habe ich mir die Software selbst geschrieben.

Die Software überwacht einen beliebigen Ordner auf eingehende Faxe (pdf/tif/tiff). Kommt ein neues Fax an, wird dieses von PDF in TIF mit GhostScript umgewandelt (sofern notwendig) und anschließend per Tesseract ausgewertet und im Ausgabe-Ordner als TXT gespeichert, damit sie dann von Einsatz-Monitor weiter verarbeitet werden kann. Zusätzlich wird die Original-Datei in einen Archiv-Ordner verschoben.

Release-Notes

*********UPDATE********* V2.0.00

-> Komplette Überarbeitung des Programmlayouts
-> Gleiche Funktionalität wie V1.0.36

*********UPDATE********* V2.0.01

-> Dateiüberwachung überarbeitet

-> PDF - Druck Bug unter Windows 32-bit behoben

*********UPDATE********* V2.0.02

-> Nicht behandelte Ausnahme bei Systemstart mit fehlendem Eingangs-Ordner behoben

-> Fehlende Aktualisierung bei "Details anzeigen" behoben.

*********UPDATE********* V2.0.03

-> Suchen/Ersetzen Felder von 10 auf 15 erhöht

*********UPDATE********* V2.0.04

-> Suchen/Ersetzen Felder von 15 auf 20 erhöht

*********UPDATE********* V2.0.05

-> Bug in den Druckeinstellungen behoben

*********UPDATE********* V2.0.06

-> Rohdaten (vor Autoparser) werden jetzt automatisch archiviert. Zusätzlich dazu kann ein Export-Ordner angegeben werden.

*********UPDATE********* V2.0.07

-> Bug in der Druckerliste behoben

-> Einstellungen werden jetzt immer beim Schließen des jeweiligen Fensters gespeichert

*********UPDATE********* V2.0.08

-> Durch Code-Optimierung 1 FileSystemWatcher eingespart

-> Erweitertes Fehler-Logging

-> Input-Datei wird nach dem Kopiervorgang ins TEMP-Verzeichnis mit der Quelldatei gegengeprüft und bei Bedarf erneut kopiert.

*********UPDATE********* V2.01

-> Druckausgabe komplett überarbeitet. Ab sofort ist kein AcrobatReader mehr nötig.

-> Bug in Druckausgabe behoben.

*********UPDATE********* V2.03

-> Fehler in Timestamp behoben

-> Bug in Verarbeitung (Suchen & Ersetzen) behoben

*********UPDATE********* V2.04

-> Suchen & Ersetzen Felder von 20 auf 25 erhöht.

Tipps & Tricks

****Sonderzeichen im Autoparser****

-> Wenn ihr per Autoparser bis zu einem Sonderzeichen lesen möchtet, müsst ihr vor das Zeichen ein Backslash "\" setzen. Wenn ihr z.B. bis zu einer Klammer lesen möchtet, tragt in das Feld "\(" ein.

****Datensicherung****

Die Einstellungen werden ab V1.0.28 automatisch von der Vorgängerversion übernommen. Solltet ihr z.B. wegen PC-Tausch EM-OCR auf einem neuen Rechner installieren müssen, könnt ihr die bisherige Konfiguration in folgendem Ordner finden und sichern. Die user.config einfach in den entsprechenden Ordner auf dem neuen PC kopieren.

-> C:\Users\BENUTZERNAME\AppData\Local\EM_OCR\

Hier noch 2 Erklärungsvideos:

EM-OCR und Pattern im EinsatzMonitor konfigurieren - Teil 1

https://youtu.be/3CHkRbJbMFQ

EM-OCR und Pattern im EinsatzMonitor konfigurieren - Teil 2

https://youtu.be/glWhWlcbOUU

Screenshots

INSTALLATIONSANLEITUNG

Für den Betrieb von EM-OCR werden sowohl GhostScript als auch Tesseract benötigt. Die Software kann unter nachfolgenden Links heruntergeladen werden.

GhostScript V9.27 (Download)

Downloaden, installieren und den Pfad zu "gswin32c.exe" im EM-OCR unter "Ordnerpfade" angeben (z.B: "C:\Program Files (x86)\gs\gs9.25\bin\gswin32c.exe").

Tesseract V3.05.02 (Download)

Downloaden, installieren, bei der Installation die zusätzliche Sprachdatei "German" mit anklicken, dann wird die "deu.traineddata" gleich mit heruntergeladen.

Anschließend den Pfad zu "tesseract.exe" im EM-OCR unter "Ordnerpfade" angeben (z.B. "C:\Program Files (x86)\Tesseract-OCR\tesseract.exe").

Empfehlung für die "alte" Alarmfax-Schriftart:

Download der alarm.traineddata und im Tesseract-Programmverzeichnis in das "tessdata" Unterverzeichnis kopieren. Danach sollte die Tesseract-Einstellung im EM-OCR wie folgt lauten: "-l alarm -psm 6"

Empfehlung für die "neue" Schriftart:

Download der optimierten deu.traineddata und im Tesseract-Programmverzeichnis in das "tessdata" Unterverzeichnis kopieren. Danach sollte die Tesseract-Einstellung im EM-OCR wie folgt lauten: "-l deu -psm 6"

Tesseract 4.x (alternativ)

Ich konnte leider auch nach mehrmaligen Versuchen keine zufriedenstellenden Ergebnisse mit Tesseract 4.x erzielen. Wer es trotzdem ausprobieren möchte, kann dies gerne tun. Hier der Link zur Download-Seite: https://github.com/UB-Mannheim/tesseract/wiki

//EDIT Sven:

Nach vielen Tests meine Empfehlung: Download von https://github.com/tesseract-ocr/…deu.traineddata und

im Tesseract-Programmordner (C:\Program Files (x86)\Tesseract-OCR\tessdata\) kopieren.

Im EM-OCR unter Einstellungen => Ghostskript / Tesseract => bei Tesseract folgendes eingeben: "-l deu --psm 6 -c page_separator="

Bitte aktualisiert falls notwendig im Anschluss die im EM-OCR angegebenen Ordner-Pfade für Tesseract bzw. GhostScript!

Mitarbeit

Das Programm stelle ich ich auf Azure DevOps bereit, gerne kann hier aktiv bei der weiteren Entwicklung mitgearbeitet werden.

https://dev.azure.com/stefan-seider/EM-OCR/_git/EM-OCR

Ich werde mich aufgrund Zeitmangels etwas aus dem Thema zurückziehen. Da ich selbst kein "gelernter" Entwickler bin, hoffe ich dass sich hier in der Community der ein oder andere freiwillige findet, der sich der weiteren Betreuung der Software annimmt. Gerne kann die Software auch in den EM integriert werden.

Ich stelle die Software hiermit zur freien Verfügung.

-Stefan

ff-sgh

Vielen Dank dafür.....

Das werde ich gerne mal ausprobieren.... Ist dies auch für Laien selbsterklärend oder benötigt man noch eine Anleitung?

SoLong

smok740

Wenn du die Software noch um die Umwandlung von einer PDF erweiterst, denke ich hast du die größten Fax Umwandlungsprobleme hier im Forum gelöst

Stefan Seider

Ich schau mal ob ich es noch ergänzen kann...

Stefan Seider

Zitat von ff-sgh

Vielen Dank dafür.....

Das werde ich gerne mal ausprobieren.... Ist dies auch für Laien selbsterklärend oder benötigt man noch eine Anleitung?

SoLong

Sollte eigentlich selbsterklärend sein...

Tesseract ist mit dabei und der Pfad dazu wird automatisch eingetragen.

Den Eingabe-Ordner legst du selbst fest (normalerweise der Ordner, in dem das Fax ankommt)

Den Ausgabe-Ordner legst du als den Eingangs-Ordner von EM fest (Standard: "C:\Users\COMPUTERNAME\Einsatz_Monitor\Text_Input")

Den Archiv-Ordner kannst du x-beliebig wählen

Wenn du den Haken bei "Autostart bei Programmstart" auswählst, wird der Service immer sofort bei Programmstart gestartet. Wenn du dann noch die Verknüpfung von EM-OCR in den Autostart-Ordner von Windows legst, wird der Service quasi sofort beim Starten des PC's gestartet. Gerade nach einem Stromausfall ist das denke ich die Beste Lösung...

king_herold

Hallo Stefan,
dein Tool ist super, danke.
Es funktioniert auch gut, Ordner-Überwachung und OCR laufen, txt wird angelegt, Fax wird in backup gelegt.
Es kommt trotzdem anschließend der Fehler, dass die Datei nicht gefunden wird.

Weißt du, was ich hier falsch mache?

Danke,
Harry

Stefan Seider

Hallo zusammen,

Update mit pdf-Funktion wie oben beschrieben...

Stefan Seider

Zitat von king_herold

Hallo Stefan,
dein Tool ist super, danke.
Es funktioniert auch gut, Ordner-Überwachung und OCR laufen, txt wird angelegt, Fax wird in backup gelegt.
Es kommt trotzdem anschließend der Fehler, dass die Datei nicht gefunden wird.

Weißt du, was ich hier falsch mache?

Danke,
Harry

Alles anzeigen

Hallo Harry,

danke für die Info, ich habe den Fehler gefunden. Er behebt sich zwar durch einen Neustart des Programms automatisch, ich habe den Bug aber in der V1.0.4 bereits behoben. Du kannst die neue Version oben downloaden...

Gruß

-Stefan

Elchbier

Benötigst du keine utf-8 Konvertierung?

Ich hatte mit tesseract immer das Problem, dass die Umlaute nicht korrekt angezeigt wurden. Deshalb habe ich noch iconv mit eingebaut.

king_herold

Hi Stefan,

Super danke für die schnelle Reaktion.
hab ü und ß drin, meiner Meinung nach alles in Ordnung.
Muss jetzt die Welt der pattern erkunden.

Gruß
Harry

Stefan Seider

Zitat von Elchbier

Benötigst du keine utf-8 Konvertierung?

Ich hatte mit tesseract immer das Problem, dass die Umlaute nicht korrekt angezeigt wurden. Deshalb habe ich noch iconv mit eingebaut.

Hallo,

Danke für den Hinweis, ich werde mir das mal ansehen und evtl noch mit einbauen.

JMt85

Guten Morgen,

ist ein nettes Tool - allerdings bei unseren Alarmfax kann er nicht alles richtig lesen.

: --> z

l --> ! oder .

M --> m

@ --> Q

I --> !

Wenn ich dir mit irgendetwas helfen kann, gib bitte bescheid.

Martin

Elchbier

Das wird bei dir aber eher an der Traindata liegen. Hast du es Mal mit der deu anstatt der alarm getestet?

Pyrokevin112

bitte auf deutsch was wie probiert ?

Elchbier

Tesseract muss ja mit verschiedenen Optionen gestartet werden. Wie oben von Stefan geschrieben, verwendet er (ich übrigens auch) die Option alarm -psm 6.

Alarm steht für die mal für ein ILS Fax aus Bayern optimierte Trainingsdatei. Die muss aber nicht unbedingt die beste sein. Die Standard Trainingsdatei für Deutsch ist halt die "deu" Datei.

Das was ich meinte ist halt, funktioniert die alarm Datei nicht korrekt, sollte man als aller erstes mit der deu Datei testen. Sollte das alles nicht funktionieren, kann man auch selbst eine Trainingsdatei erstellen. Das ist aber extrem Aufwendig.

Die Optionen -psm 6 stehen nur für die Ausgabe.

VG André

Stefan Seider

Zitat von JMt85

Guten Morgen,

ist ein nettes Tool - allerdings bei unseren Alarmfax kann er nicht alles richtig lesen.

: --> z

l --> ! oder .

M --> m

@ --> Q

I --> !

Wenn ich dir mit irgendetwas helfen kann, gib bitte bescheid.

Martin

Alles anzeigen

Hallo Martin, lade doch mal die Datei hier hoch, mit der du das Problem hast.

Gruß

-Stefan

Elchbier

Ich hab das Tool jetzt mal getestet. Funktioniert super, macht das gleiche wie meine Batch-Datei in schön.

Schau mal bitte hier: https://www.feuerwehr-jesenwang.de/einsatzmonitor

Da ist ganz gut der Einsatz von iconv beschrieben. Wenn du das noch einbauen könntest, währe es perfekt.

Stefan Seider

Zitat von Elchbier

Ich hab das Tool jetzt mal getestet. Funktioniert super, macht das gleiche wie meine Batch-Datei in schön.

Schau mal bitte hier: https://www.feuerwehr-jesenwang.de/einsatzmonitor

Da ist ganz gut der Einsatz von iconv beschrieben. Wenn du das noch einbauen könntest, währe es perfekt.

Hallo Andre,

iconv hab ich testweise implementiert, jedoch ist das Ergebnis identisch mit der bereits ausgegebenen Datei. (bis auf die ANSI-Codierung). Da hier keinerlei Unterschied in der Auswertung vo EM feststellbar ist, werde ich iconv nicht implementieren.

Gruß

-Stefan

JMt85

Danke für die Antworten - ich habe das deu.traineddata im Internet gesucht - aber bei beiden Versionen die ich runtergeladen habe stürzt die Applikation ab.

Ein Beispiel PDF im Anhang.

Bitte um Info welche deu funktionieren könnte.

Danke

Stefan Seider

Du benötigst die Datei für V3.02

Hier -> deu.zip

Hat bei mir allerdings schlechter als die "alarm" funktioniert...

INSTALLATIONSANLEITUNG

GhostScript V9.27 (Download)

Tesseract V3.05.02 (Download)

Tesseract 4.x (alternativ)

Mitarbeit

Tags