- Offizieller Beitrag
Hallo zusammen,
nachdem ich eine (Software)-Lücke in der Erkennung & Verarbeitung eines neu eintreffenden Faxes und der anschließenden Auswertung über tesseract hatte, habe ich mir die Software selbst geschrieben.
Die Software überwacht einen beliebigen Ordner auf eingehende Faxe (pdf/tif/tiff). Kommt ein neues Fax an, wird dieses von PDF in TIF mit GhostScript umgewandelt (sofern notwendig) und anschließend per Tesseract ausgewertet und im Ausgabe-Ordner als TXT gespeichert, damit sie dann von Einsatz-Monitor weiter verarbeitet werden kann. Zusätzlich wird die Original-Datei in einen Archiv-Ordner verschoben.
Release-Notes
*********UPDATE********* V2.0.00
-> Komplette Überarbeitung des Programmlayouts
-> Gleiche Funktionalität wie V1.0.36
*********UPDATE********* V2.0.01
-> Dateiüberwachung überarbeitet
-> PDF - Druck Bug unter Windows 32-bit behoben
*********UPDATE********* V2.0.02
-> Nicht behandelte Ausnahme bei Systemstart mit fehlendem Eingangs-Ordner behoben
-> Fehlende Aktualisierung bei "Details anzeigen" behoben.
*********UPDATE********* V2.0.03
-> Suchen/Ersetzen Felder von 10 auf 15 erhöht
*********UPDATE********* V2.0.04
-> Suchen/Ersetzen Felder von 15 auf 20 erhöht
*********UPDATE********* V2.0.05
-> Bug in den Druckeinstellungen behoben
*********UPDATE********* V2.0.06
-> Rohdaten (vor Autoparser) werden jetzt automatisch archiviert. Zusätzlich dazu kann ein Export-Ordner angegeben werden.
*********UPDATE********* V2.0.07
-> Bug in der Druckerliste behoben
-> Einstellungen werden jetzt immer beim Schließen des jeweiligen Fensters gespeichert
*********UPDATE********* V2.0.08
-> Durch Code-Optimierung 1 FileSystemWatcher eingespart
-> Erweitertes Fehler-Logging
-> Input-Datei wird nach dem Kopiervorgang ins TEMP-Verzeichnis mit der Quelldatei gegengeprüft und bei Bedarf erneut kopiert.
*********UPDATE********* V2.01
-> Druckausgabe komplett überarbeitet. Ab sofort ist kein AcrobatReader mehr nötig.
-> Bug in Druckausgabe behoben.
*********UPDATE********* V2.03
-> Fehler in Timestamp behoben
-> Bug in Verarbeitung (Suchen & Ersetzen) behoben
*********UPDATE********* V2.04
-> Suchen & Ersetzen Felder von 20 auf 25 erhöht.
Tipps & Tricks
****Sonderzeichen im Autoparser****
-> Wenn ihr per Autoparser bis zu einem Sonderzeichen lesen möchtet, müsst ihr vor das Zeichen ein Backslash "\" setzen. Wenn ihr z.B. bis zu einer Klammer lesen möchtet, tragt in das Feld "\(" ein.
****Datensicherung****
Die Einstellungen werden ab V1.0.28 automatisch von der Vorgängerversion übernommen. Solltet ihr z.B. wegen PC-Tausch EM-OCR auf einem neuen Rechner installieren müssen, könnt ihr die bisherige Konfiguration in folgendem Ordner finden und sichern. Die user.config einfach in den entsprechenden Ordner auf dem neuen PC kopieren.
-> C:\Users\BENUTZERNAME\AppData\Local\EM_OCR\
Hier noch 2 Erklärungsvideos:
EM-OCR und Pattern im EinsatzMonitor konfigurieren - Teil 1
EM-OCR und Pattern im EinsatzMonitor konfigurieren - Teil 2
INSTALLATIONSANLEITUNG
Für den Betrieb von EM-OCR werden sowohl GhostScript als auch Tesseract benötigt. Die Software kann unter nachfolgenden Links heruntergeladen werden.
GhostScript V9.27 (Download)
Downloaden, installieren und den Pfad zu "gswin32c.exe" im EM-OCR unter "Ordnerpfade" angeben (z.B: "C:\Program Files (x86)\gs\gs9.25\bin\gswin32c.exe").
Tesseract V3.05.02 (Download)
Downloaden, installieren, bei der Installation die zusätzliche Sprachdatei "German" mit anklicken, dann wird die "deu.traineddata" gleich mit heruntergeladen.
Anschließend den Pfad zu "tesseract.exe" im EM-OCR unter "Ordnerpfade" angeben (z.B. "C:\Program Files (x86)\Tesseract-OCR\tesseract.exe").
Empfehlung für die "alte" Alarmfax-Schriftart:
Download der alarm.traineddata und im Tesseract-Programmverzeichnis in das "tessdata" Unterverzeichnis kopieren. Danach sollte die Tesseract-Einstellung im EM-OCR wie folgt lauten: "-l alarm -psm 6"
Empfehlung für die "neue" Schriftart:
Download der optimierten deu.traineddata und im Tesseract-Programmverzeichnis in das "tessdata" Unterverzeichnis kopieren. Danach sollte die Tesseract-Einstellung im EM-OCR wie folgt lauten: "-l deu -psm 6"
Tesseract 4.x (alternativ)
Ich konnte leider auch nach mehrmaligen Versuchen keine zufriedenstellenden Ergebnisse mit Tesseract 4.x erzielen. Wer es trotzdem ausprobieren möchte, kann dies gerne tun. Hier der Link zur Download-Seite: https://github.com/UB-Mannheim/tesseract/wiki
//EDIT Sven:
Nach vielen Tests meine Empfehlung: Download von https://github.com/tesseract-ocr/…deu.traineddata und
im Tesseract-Programmordner (C:\Program Files (x86)\Tesseract-OCR\tessdata\) kopieren.
Im EM-OCR unter Einstellungen => Ghostskript / Tesseract => bei Tesseract folgendes eingeben: "-l deu --psm 6 -c page_separator="
Bitte aktualisiert falls notwendig im Anschluss die im EM-OCR angegebenen Ordner-Pfade für Tesseract bzw. GhostScript!
Mitarbeit
Das Programm stelle ich ich auf Azure DevOps bereit, gerne kann hier aktiv bei der weiteren Entwicklung mitgearbeitet werden.
https://dev.azure.com/stefan-seider/EM-OCR/_git/EM-OCR
Ich werde mich aufgrund Zeitmangels etwas aus dem Thema zurückziehen. Da ich selbst kein "gelernter" Entwickler bin, hoffe ich dass sich hier in der Community der ein oder andere freiwillige findet, der sich der weiteren Betreuung der Software annimmt. Gerne kann die Software auch in den EM integriert werden.
Ich stelle die Software hiermit zur freien Verfügung.
-Stefan