EM-OCR EinsatzMonitor PDF-TIFF-TXT Fax Konverter mit Ordnerüberwachung

holger

Zitat von Koebi

Oder gibt es eine andere Lösung mit nur einer Rufnummer Telefon und Fax zu bedienen - also z. B. ohne die FRITZ!Box?

vielleicht hilft der der Link weiter

https://www.ip-phone-forum.de/threads/automa…logtele.232107/

Stefan Seider

FFMeitingen

Nimm die Standard Schriftart „deu“, damit funktionierts mit der ILS Augsburg. Habe letzte Woche auch umgestellt, damit wird 99% richtig erkannt.

Ändere dazu einfach in den Tesseract Einstellungen „alarm“ in „deu“ ab und teste es mal.

FFMeitingen

Stefan Seider
werde ich morgen mal testen, habe aber auch schon unsere vier Faxe mehrmals mit Sunnypage erkennen lassen und weiter trainiert. Jetzt funktioniert die Erkennung auch schon fast perfekt

Stefan Seider

Ok, könntest du mir evtl. Die traineddata dann zukommen lassen zum testen bzw. hier veröffentlichen für andere ILS Augsburg ler? Wäre super!

ffgeisling

kurz ne Frage, ich hatte nun schon mehrmals das Problem, dass EMOCR bei der Auswertung zB Stichwort nicht erkennt, wenn stichwort im Fax bzw in der TXT Datei steht. Wie kann man als Suchbegriff Groß und Kleinschreibung beachten?

Koebi

Zitat von holger

vielleicht hilft der der Link weiter
https://www.ip-phone-forum.de/threads/automa…logtele.232107/

Er hat im konkreten Fall nicht geholfen, aber wir haben nun eine Lösung. Danke trotzdem!

FFMeitingen

Stefan Seider

vielleicht kannst dur da noch mal drüberschauen, ich verzweifel hier gerade. Ich hab unsere Faxe zig mal mit Sunnypage erkennen lassen, funktioniert da eigentlich ganz passabel. Kopiere ich die trainierte Datei dann ins tesserract Verzeichnis und lasse mit EM-OCR die PDF auswerten, komme ich nicht auf das gleiche Ergebnis.

Ich hab mal die train-Datei und unsere Test Faxe als zip angehängt.

Am Montag bekomme ich noch zwei Faxe mit modifizierten Pangrammen zugeschickt zur besseren Trainiererei
[ Vom:1:2: (Ödipuskomplex:)3#4#5 maßlos, gequält,: übt Wilfried 6.7.8.9.0 zyklisches Jodeln:!
und noch
„Üb: jodeln, #Gör!:“, (quäkt Schwyz’) :Vamp fix.:1.2.3.4:5:6:7:8#9#0# ]

Vielleicht hilft das noch bei der Auswertung

LG Dominic
//FF Meitingen

celevra

Hi,

erstmal 1000 Dank für deine Arbeit!

Ich erhalte leider mit der aktuellsten Version einen Fehler im Parsing

werden noch weitere Infos fürs Debugging benötigt?

Grüße

Celevra

Markus82

Setze vor die Klammer bei Koordinaten und Prio noch ein \

Zitat

****Sonderzeichen im Autoparser****

-> Wenn ihr per Autoparser bis zu einem Sonderzeichen lesen möchtet, müsst ihr vor das Zeichen ein Backslash "\" setzen. Wenn ihr z.B. bis zu einer Klammer lesen möchtet, tragt in das Feld "\(" ein.

celevra

wer lesen kann ist klar im Vorteil! Danke für die Hilfe!

celevra

bei n/a Texten von Pattern die die normalerweise einen Linebreak enthalten sollte das n/A nicht auf der gleichen Zeile stehen da sonst der Pattern in Einsatzmonitor nicht mehr greift, oder muss das anders angegangen werden?

Markus82

Die ILS Landshut hat nun leider auch die Schriftart auf dem Alarmfax geändert, wenn ich die verschiedenen Threads richtig verfolgt habe, liefert das Beste Ergebnis derzeit die Standard "deu" Traingingsdatei von Tesseract.

Welche zusätzlichen Textersetzungen habt ihr im EM-OCR im Zuge der neuen Schriftart hinterlegt?

Bisher haben wir nur ein AlarmFax zum Testen.

Silver

Unsere ILS hat auch umgestellt.

leider liefert die deu bei uns keinerlei relevanten Ergebnisse.

Das Einzige was ich geliefert bekomme ist die X-Koordinate.

Aber auch die alarm liefert kein gewünschtes Ergebnis

Bane

Habt ihr auch schon mal die „by“ aus dem Thread „Neue Faxsoftware bei den ILS in Bayern“ probiert?

Läuft bei mir perfekt seit der Umstellung in der ILS Passau.

Silver

bringt bei mir leider auch nichts.

bekomme das gleiche schlechte Ergebnis als bei deu

also im Grunde gar keines

FF Wiesentheid

Also bei uns ILS Würzburg war anfang April Umstellung vorher hatten wir die by Datei zum auswerten. Seit derm Umstellung benutzen wir die deu Datei bei der ist eine 100%Auswertung vorhanden. Keine Fehler mehr.

Maestro

Zitat von Markus82

Klingt gut, bin an der Lösung interessiert

ich bin euch ja noch was Schuldig....

im Anhang ist meine PowerShell die eben Checkt ob a) ein Netzlaufwerk verbunden ist und b) ob diverse Prozesse laufen (sollte sich mal ein Prozess / Software aufhängen, wird diese zuvor gekillt und dann "neu gestartet")

Ich habe im Skript beim Programmstart "EM-OCR" eine Funktion eingebaut die eben Checkt ob ein Netzlaufwerk vorhanden ist bevor die Software gestartet wird. Sollte ein Netzlaufwerk fehlen, wird das auf dem Bildschirm angezeigt. (ich arbeite dran das ich dann ggf. eine Meldung per Telegram bekomme.... aber das ist noch Zukunftsmusik... )

Ich habe die Batch-"Start"-Datei in Windows eigenen Aufgabenplaner rein gepackt und lasse diesen alle 10 min ausführen (unendliche Wiederholung)

Falls ihr das mit dem Aufgabenplaner löst, empfehle ich euch als Trigger "bei Anmeldung" mit anschließender Verzögerung von 1 Minute.

Somit hat euer PC Zeit sauber hoch zu fahren und dann werden die Programme ausgeführt. (somit braucht ihr die Programme auch nicht mehr im Autostart-Ordner )

Gruß Peter

EDIT: Falls sich jemand besser aus kennt mit PowerShell so bin ich gerne für Verbesserungen offen! Ich habe das auch alles nur "zusammen kopiert" und zusammen gereimt...

Markus82

Update:

Die ILS Landshut hat nun leider auch die Schriftart auf dem Alarmfax geändert, wenn ich die verschiedenen Threads richtig verfolgt habe, liefert das Beste Ergebnis derzeit die Standard "deu" Traingingsdatei von Tesseract.

Wir mussten folgende Änderungen vornehmen (wir verwenden Tesseract 4.0):

Tesseract Trainingsdatei: https://github.com/tesseract-ocr/…deu.traineddata

EM-OCR:

Tesseract-Einstellung:

-l deu --psm 6 --oem 0 -c page_separator=

Verarbeitung:

Ersetze: — Durch - (Gedankenstrich durch Bindestrich)

Nach diesen Änderungen dieselbe Erkennungsqualität wie vorher.

ffgeisling

Zitat von ffgeisling

kurz ne Frage, ich hatte nun schon mehrmals das Problem, dass EMOCR bei der Auswertung zB Stichwort nicht erkennt, wenn stichwort im Fax bzw in der TXT Datei steht. Wie kann man als Suchbegriff Groß und Kleinschreibung beachten?

Hat dazu jemand ne Idee?

FFMeitingen

Zitat von Markus82

Update:
Die ILS Landshut hat nun leider auch die Schriftart auf dem Alarmfax geändert, wenn ich die verschiedenen Threads richtig verfolgt habe, liefert das Beste Ergebnis derzeit die Standard "deu" Traingingsdatei von Tesseract.
Wir mussten folgende Änderungen vornehmen (wir verwenden Tesseract 4.0):
Tesseract Trainingsdatei: https://github.com/tesseract-ocr/…deu.traineddata
EM-OCR:
Tesseract-Einstellung:
-l deu --psm 6 --oem 0 -c page_separator=
Verarbeitung:
Ersetze: — Durch - (Gedankenstrich durch Bindestrich)
Nach diesen Änderungen dieselbe Erkennungsqualität wie vorher.

Alles anzeigen

Danke für den Tipp mit Tesseract v4 und der Trainigsdatei! Ich hab das ganze auch mal mit deinen Einstellungen probiert, allerdings habe ich mir die "deu" Datei von hier gezogen: https://github.com/tesseract-ocr/…deu.traineddata

Damit hab ich jetzt einen nahezu 100%ige Auswertung

EM-OCR EinsatzMonitor PDF-TIFF-TXT Fax Konverter mit Ordnerüberwachung

Tags

Benutzer online in diesem Thema