EM-OCR EinsatzMonitor PDF-TIFF-TXT Fax Konverter mit Ordnerüberwachung

Markus82

Beim Wechsel auf Tesseract v4, wäre es sinnvoll auch die neue LSTM OCR engine mit den dazu passenden Traineddata Dateien zu nutzen.

Die Traineddata Dateien von 4.0 enthalten sowohl die Legacy-Variante als auch die LSTM-Variante.

Da hat Stefan vollkommen recht mit der Frage, wieso sollte man die "alte" Legacy Engine nutzen.

Nun zu meinen Erfahrungen bei den Tests und die daraus resultierende Empfehlung:

Tesseract v4 mit LSTM (deu-Traineddata): (--oem 1 oder --oem 3 (Default)(Falls LSTM-Modelle in der Traineddata vorhanden sind wie bei deu v4)

-- keine brauchbaren Auswertungsergebnisse

-- sehr lange Verarbeitungszeiten ~90 Sekunden für ein Fax

-- keine Kompatiblität mit den alten Traineddata alarm oder by

Tesseract v4 mit Legacy-Engine (deu-Traineddata):

-- Auswertungsergebnisse vergleichbar mit der Genauigkeit von Tesseract 3.5

-- kurze Verarbeitungszeiten ~5 Sekunden für ein Fax

-- Kompatiblität mit den alten Traineddata alarm oder by

Empfohlene Settings:

https://digi.bib.uni-mannheim.de/tesseract/tess….0.20181030.exe

https://github.com/tesseract-ocr/…deu.traineddata

Tesseract-Setting Legacy Mode

-l deu --psm 6 --oem 0 -c page_separator=

EM-OCR Verarbeitung

Ersetze: — Durch - (Gedankenstrich durch Bindestrich)

Über alternative Erfahrungen zu anderen Settings würde ich mich freuen.

Martin_112

Gibt es eine Einstellung für den EM-OCR um nur die erste Seite eines pdfs auszuwerten? Unsere Alarm Mail enthält viele Seiten die ich nicht brauche, aber viel Zeit beim wandeln brauchen.

Markus82

Martin_112

Probiere bei den Ghostscriptparametern zusätzlich folgende Werte:

Code

-sPageList=1

alternativ:

Code

-dFirstPage=1 -dLastPage=1

Martin_112

@Markus82

Danke für die prompte Hilfe.

Variante 1 hat sofort funktioniert.

Gruß Martin

ChristianK.

Hallo zusammen,

ich habe bei mir das Problem, dass ich 2 Drucker zum Ausdruck am Start habe,

der 2. Ausdruck aber auf Drucker Nummer 1 raus kommt (also doppelt), und der 2. Drucker leer bleibt...

Auszug aus dem LOG:

05.06.2019 18:57:10 - AutoParser beendet ********************************************************

05.06.2019 18:57:10 - TIF Datei archivieren

05.06.2019 18:57:10 - PDF Datei archivieren

05.06.2019 18:57:10 - Drucker 1: Negativer Identifier nicht vorhanden

05.06.2019 18:57:11 - Drucker 1 - HP LaserJet P2055dn: Originaldatei (PDF) gedruckt - 1 von 1

05.06.2019 18:57:13 - Drucker 2 - SHARP AR-M207 PCL6_T3: Originaldatei (PDF) gedruckt - 1 von 1

05.06.2019 18:57:15 - Vorgang 20195705065704 beendet in: 10,2 s

Hat hierzu vielleicht jemand eine Idee?

Gruß Christian

Stefan Seider

Welche Version?

ChristianK.

2.0.07 und 2.0.08 - habe nach dem Testen und feststellen Update auf .08 gemacht - passiert das gleiche...

Stefan Seider

Hmm... kannst du die Drucker im Menü nochmal neu auswählen?

ChristianK.

Drucker erneut ausgewählt - gleiches ergebnis, wenn nur jeweils 1 Drucker aktiviert ist,

funktioniert auch der entsprechende Drucker

Grüße Christian

Stefan Seider

Ist ein Problem mit Adobe Reader... solange das Adobe Fenster geöffnet ist, wird beim Druck immer der zuerst eingestellte Drucker verwendet. Das Problem ist leider nicht leicht zu lösen.

ChristianK.

Ich habe das mal eben getestet er öffnet den Adobe Reader 2x

öffnet - druckt - schliesst - öffnet - druckt - schliesst

Stefan Seider

*********UPDATE********* V2.1.00

-> Druckausgabe komplett überarbeitet. Ab sofort ist kein AcrobatReader mehr nötig.

-> Bug in Druckausgabe behoben.

ChristianK.

ChristianK.

Hi Stefan,

Danke für die zügige Rückmeldung -> funktioniert nun!

Grüße

Christian

Maestro

Hi zusammen,

kann mir jemand sagen was ich falsch mach?

Ich steh aufn Schlauch.... ich möchte gerne per %archivname% eben die Daten übertragen aber irgendwie kommt das in der Batch Datei nicht an... :-/

Gruß Peter

Stefan Seider

Da fehlt ein „e“ bei archivename...

Moulder

Wenn ich das richtig sehe heißt die Variable %archivename%

Maestro

ohh man.... vielen Dank!

Vor lauter Wald die Bäume nicht mehr gesehen....!

Besten Dank!

EDIT:

Jetzt habe ich aber ein neues Problem und zwar sperrt anscheinend der EM-OCR die *.tif Datei... meine "Nachbehandlung" kann solange der EM-OCR "offen ist" nicht drauf zu greifen....

zwar sagt der EM-OCR in seinem Log das er fertig sei aber er sperrt irgendwie noch die Datei... was kann ich den dagegen tun?

Stefan Seider

Maestro

Hallo zusammen,

ich habe raus gefunden das wenn im EM-OCR der Drucker aktiv ist, sprich der EM-OCR soll das Dokument drucken so wird die Datei für meine "Nachbehandlung" leider gesperrt.

Schalte ich die Druckfunktion im EM-OCR aus, geht's ganz normal.

Wir bekommen das Fax der ISDN Karte (als tif Datei) rein. (falls die Info wichtig ist)

Was kann ich ich probieren damit das klappt?

Gruß Peter

Fax-Log

03.07.2019 10:02:02 - Datei C:\EM\Eingang\Inbox\UnAssigned$401d5310224137c.tif wurde erstellt
03.07.2019 10:02:03 - Vorgang 20190203100203 gestartet
03.07.2019 10:02:03 - TIF-Datei wird in TEMP-Verzeichnis kopiert
03.07.2019 10:02:04 - Vergleiche Quell- und Zieldatei...
03.07.2019 10:02:04 - Dateiprüfung abgeschlossen, alles OK!
03.07.2019 10:02:04 - Tesseract starten...
03.07.2019 10:02:06 - Tesseract Meldungen:
Tesseract Open Source OCR Engine v3.05.02 with Leptonica
Page 1

03.07.2019 10:02:06 - Tesseract beendet
03.07.2019 10:02:07 - TIF Datei archivieren
03.07.2019 10:02:07 - Externes Programm gestartet
03.07.2019 10:02:07 - Es wird gedruckt auf Drucker 1 - ALARMFAX_DRUCKER - Kopien: 1
03.07.2019 10:02:08 - Drucke Seite: 1 von: 1
03.07.2019 10:02:10 - Vorgang 20190203100203 beendet in: 7,20 s

Stefan Seider

Muss ich mir im Code nochmal ansehen... eigentlich sollte er die Datei nach dem Druck wieder freigeben...

Firefox

Servus Kameraden,

Ich bräuchte mal eure hilfe und zwar hab ich seit gestern (2 Alarmierungen) das Problem das er bei der Gauß Krüger koordinate im OCR und auch in der tesseract Umwandlung immer beim Hochwert anstatt einen Punkt ein komma erkennt.

Beim Rechtswert erkennt er den Punkt richtig auch bei allen anderen positionen im Fax erkennt er Punkt und Komma richtig.

nur an dieser einen Stelle hab ich das problem somit ist auch keine faxauswertung möglich.

Selbst wenn ich im OCR , durch . ersetzen lasse erkennt er immer ein Komma.

kann mir da irgendwer weiterhelfen warum das so ist?

am Fax schauen alle punkte gleich aus.

Auch alle anderen Umwandlungen werden im OCR perfekt erkannt.

Liebe grüße

Tags