EM-OCR EinsatzMonitor PDF-TIFF-TXT Fax Konverter mit Ordnerüberwachung

    • Offizieller Beitrag

    FFMeitingen

    Nimm die Standard Schriftart „deu“, damit funktionierts mit der ILS Augsburg. Habe letzte Woche auch umgestellt, damit wird 99% richtig erkannt.

    Ändere dazu einfach in den Tesseract Einstellungen „alarm“ in „deu“ ab und teste es mal.

  • kurz ne Frage, ich hatte nun schon mehrmals das Problem, dass EMOCR bei der Auswertung zB Stichwort nicht erkennt, wenn stichwort im Fax bzw in der TXT Datei steht. Wie kann man als Suchbegriff Groß und Kleinschreibung beachten?

  • Stefan Seider

    vielleicht kannst dur da noch mal drüberschauen, ich verzweifel hier gerade. Ich hab unsere Faxe zig mal mit Sunnypage erkennen lassen, funktioniert da eigentlich ganz passabel. Kopiere ich die trainierte Datei dann ins tesserract Verzeichnis und lasse mit EM-OCR die PDF auswerten, komme ich nicht auf das gleiche Ergebnis.

    Ich hab mal die train-Datei und unsere Test Faxe als zip angehängt.

    Am Montag bekomme ich noch zwei Faxe mit modifizierten Pangrammen zugeschickt zur besseren Trainiererei :D
    [ Vom:1:2: (Ödipuskomplex:)3#4#5 maßlos, gequält,: übt Wilfried 6.7.8.9.0 zyklisches Jodeln:!
    und noch
    „Üb: jodeln, #Gör!:“, (quäkt Schwyz’) :Vamp fix.:1.2.3.4:5:6:7:8#9#0# ]

    Vielleicht hilft das noch bei der Auswertung

    LG Dominic
    //FF Meitingen

  • Hi,

    erstmal 1000 Dank für deine Arbeit!

    Ich erhalte leider mit der aktuellsten Version einen Fehler im Parsing

    werden noch weitere Infos fürs Debugging benötigt?

    Grüße

    Celevra

  • Setze vor die Klammer bei Koordinaten und Prio noch ein \

    Zitat

    ****Sonderzeichen im Autoparser****

    -> Wenn ihr per Autoparser bis zu einem Sonderzeichen lesen möchtet, müsst ihr vor das Zeichen ein Backslash "\" setzen. Wenn ihr z.B. bis zu einer Klammer lesen möchtet, tragt in das Feld "\(" ein.

  • bei n/a Texten von Pattern die die normalerweise einen Linebreak enthalten sollte das n/A nicht auf der gleichen Zeile stehen da sonst der Pattern in Einsatzmonitor nicht mehr greift, oder muss das anders angegangen werden?

  • Die ILS Landshut hat nun leider auch die Schriftart auf dem Alarmfax geändert, wenn ich die verschiedenen Threads richtig verfolgt habe, liefert das Beste Ergebnis derzeit die Standard "deu" Traingingsdatei von Tesseract.

    Welche zusätzlichen Textersetzungen habt ihr im EM-OCR im Zuge der neuen Schriftart hinterlegt?

    Bisher haben wir nur ein AlarmFax zum Testen.

  • Unsere ILS hat auch umgestellt.

    leider liefert die deu bei uns keinerlei relevanten Ergebnisse.

    Das Einzige was ich geliefert bekomme ist die X-Koordinate.

    Aber auch die alarm liefert kein gewünschtes Ergebnis

    ;(;(;(

  • Also bei uns ILS Würzburg war anfang April Umstellung vorher hatten wir die by Datei zum auswerten. Seit derm Umstellung benutzen wir die deu Datei bei der ist eine 100%Auswertung vorhanden. Keine Fehler mehr.

  • Klingt gut, bin an der Lösung interessiert :)

    ich bin euch ja noch was Schuldig....

    im Anhang ist meine PowerShell die eben Checkt ob a) ein Netzlaufwerk verbunden ist und b) ob diverse Prozesse laufen (sollte sich mal ein Prozess / Software aufhängen, wird diese zuvor gekillt und dann "neu gestartet")

    Ich habe im Skript beim Programmstart "EM-OCR" eine Funktion eingebaut die eben Checkt ob ein Netzlaufwerk vorhanden ist bevor die Software gestartet wird. Sollte ein Netzlaufwerk fehlen, wird das auf dem Bildschirm angezeigt. (ich arbeite dran das ich dann ggf. eine Meldung per Telegram bekomme.... aber das ist noch Zukunftsmusik... :) )

    Ich habe die Batch-"Start"-Datei in Windows eigenen Aufgabenplaner rein gepackt und lasse diesen alle 10 min ausführen (unendliche Wiederholung)

    Falls ihr das mit dem Aufgabenplaner löst, empfehle ich euch als Trigger "bei Anmeldung" mit anschließender Verzögerung von 1 Minute.

    Somit hat euer PC Zeit sauber hoch zu fahren und dann werden die Programme ausgeführt. (somit braucht ihr die Programme auch nicht mehr im Autostart-Ordner ;) )

    Gruß Peter


    EDIT: Falls sich jemand besser aus kennt mit PowerShell so bin ich gerne für Verbesserungen offen! Ich habe das auch alles nur "zusammen kopiert" und zusammen gereimt...

  • Update:

    Die ILS Landshut hat nun leider auch die Schriftart auf dem Alarmfax geändert, wenn ich die verschiedenen Threads richtig verfolgt habe, liefert das Beste Ergebnis derzeit die Standard "deu" Traingingsdatei von Tesseract.

    Wir mussten folgende Änderungen vornehmen (wir verwenden Tesseract 4.0):

    Tesseract Trainingsdatei: https://github.com/tesseract-ocr/…deu.traineddata

    EM-OCR:

    Tesseract-Einstellung:

    -l deu --psm 6 --oem 0 -c page_separator=

    Verarbeitung:

    Ersetze: — Durch - (Gedankenstrich durch Bindestrich)

    Nach diesen Änderungen dieselbe Erkennungsqualität wie vorher.

  • Danke für den Tipp mit Tesseract v4 und der Trainigsdatei! Ich hab das ganze auch mal mit deinen Einstellungen probiert, allerdings habe ich mir die "deu" Datei von hier gezogen: https://github.com/tesseract-ocr/…deu.traineddata

    Damit hab ich jetzt einen nahezu 100%ige Auswertung :)