Tesseract zur Faxerkennung

PlAsMa_99

Hallo in die Runde,

Nutz bereits jemand Tesseract als OCR Toll zur Faxerkennung? Die Genauigkeit mit der 3.05 Version ist, bei der teilweise miserablen Qualität im fettgedruckten Bereich der Alarmfaxe aus COBRA, leider nicht zuverlässig genug.

Das Problem liegt darin, dass die Buchstaben teilweise so eng zusammen stehe, dass die Standard Lerndatei sie als einen Buchstaben deutet.

Hat hier jemand eventuell schon eine angepasste Lerndatei?

Claas Fan

Schau dir mal die Lerndatei von hier an:https://github.com/OpenFireSource…Build/tesseract
Ich verwende das Programm bei mir für die Faxerkennung und nen zwischenschritt bevor es zum Alarmmonitor geht und Funktioniert sehr zuverlässig.

Mfg

PlAsMa_99

Hi,

meinst du die englische Datei? Eine andere finde ich in dem Ordner nicht.

Gegenüber dieser Version bekomme ich bei der von mir aktuell Eingesetzten Version leider schon deutlich bessere Ergebnisse.

Das ganze liegt vermute ich aber auch wirklich an der miserablen Qualität der Faxe. Die fettgedruckten Wörter haben teilweise keinen Abstand mehr zwischen den einzelnen Buchstaben, so dass Tesseract ganze Wörter als einen Buchstaben deutet.

Die von mir aktuell eingesetzte Version ist übrigens diese: https://github.com/UB-Mannheim/tesseract/wiki
Die könnte die Genauigkeit bei dir eventuell noch verbessern.

Claas Fan

Die englische Lerndatei meinte ich, richtig. Bei mir funktioniert diese größtenteils ohne Fehler, einzig Y und V wird manchmal verwechselt bei den Koordinaten, was aber kein Problem ist. Allerdings haben unsere Faxe auch eine sehr gute Qualität.

Moulder

Wie habt ihr es mit Sonderzeichen hinbekommen? Bei mir werden die Sonderzeichen in der txt Datei richtig angezeigt im Einsatz Monitor dann jedoch nicht mehr.

Scheint daran zu liegen dass das txt File im UTF8 Format ist.

Kann jedoch nichts finden wie ich mit tesseract den Zeichensatz des Ausgabe Files ändern könnte.

PlAsMa_99

welche Sprachfamilie verwendest du in Tesseract?

Bei mir wurden die Sonderzeichen problemlos dargedtellt. Nutze die oben verlinkte Version 3.05.

Moulder

Ich nutze die 3.02.02, da die 3.05 bei mir nicht funktioniert hat.

Da habe ich immer eine Fehlermeldung bei der Ausführung von tesseract bekommen

Edit:
Tesseract Open Source OCR Engine v3.05.00dev with Leptonica
Page 1
Warning in pixReadMemTiff: tiff page 1 not found

PlAsMa_99

Hi,
ja den Fehler habe ich auch, die Erkennung läuft aber trotzdem durch.

Moulder

Ja, stimmt wirklich.

Habe ich gar nicht gemerkt dass die Datei trotzdem erstellt wird.

Das txt File ist bei mir trotzdem in UTF-8 und ß,ä,ü, usw. werrden mir im Einsatz Monitor nicht korrekt angezeigt.
Im txt File ist alles korrekt.

freeze

Habt ihr nen script dafür geschrieben wie das fax verarbeitet wird??

ich hab 2 Batch Dateien auf dem pc die das machen, mach ich das aber in der schleife dann hängt sich der Rechner schnell auf bzw. der EM. Was ich mir vorstelle aber noch keine Idee zur Realisierung habe ist das ein Event die Batch startet.

Das fax kommt bei uns als .Tiff an via Windows Fax und wird dann über Tesseract verarbeitet. Dafür muss die Bat aber derzeit manuell gestartet werden.

**Sven**

Hast du bei deiner Schleife auch ein sleep / wait eingebaut? Ohne das geht deine CPU durch die Decke