Tesseract zur Faxerkennung

  • Hallo in die Runde,

    Nutz bereits jemand Tesseract als OCR Toll zur Faxerkennung? Die Genauigkeit mit der 3.05 Version ist, bei der teilweise miserablen Qualität im fettgedruckten Bereich der Alarmfaxe aus COBRA, leider nicht zuverlässig genug.

    Das Problem liegt darin, dass die Buchstaben teilweise so eng zusammen stehe, dass die Standard Lerndatei sie als einen Buchstaben deutet.

    Hat hier jemand eventuell schon eine angepasste Lerndatei?

  • Hi,

    meinst du die englische Datei? Eine andere finde ich in dem Ordner nicht.

    Gegenüber dieser Version bekomme ich bei der von mir aktuell Eingesetzten Version leider schon deutlich bessere Ergebnisse.

    Das ganze liegt vermute ich aber auch wirklich an der miserablen Qualität der Faxe. Die fettgedruckten Wörter haben teilweise keinen Abstand mehr zwischen den einzelnen Buchstaben, so dass Tesseract ganze Wörter als einen Buchstaben deutet.

    Die von mir aktuell eingesetzte Version ist übrigens diese: https://github.com/UB-Mannheim/tesseract/wiki
    Die könnte die Genauigkeit bei dir eventuell noch verbessern.

  • Die englische Lerndatei meinte ich, richtig. Bei mir funktioniert diese größtenteils ohne Fehler, einzig Y und V wird manchmal verwechselt bei den Koordinaten, was aber kein Problem ist. Allerdings haben unsere Faxe auch eine sehr gute Qualität.

  • Wie habt ihr es mit Sonderzeichen hinbekommen? Bei mir werden die Sonderzeichen in der txt Datei richtig angezeigt im Einsatz Monitor dann jedoch nicht mehr.

    Scheint daran zu liegen dass das txt File im UTF8 Format ist.

    Kann jedoch nichts finden wie ich mit tesseract den Zeichensatz des Ausgabe Files ändern könnte.

  • Ich nutze die 3.02.02, da die 3.05 bei mir nicht funktioniert hat.

    Da habe ich immer eine Fehlermeldung bei der Ausführung von tesseract bekommen


    Edit:
    Tesseract Open Source OCR Engine v3.05.00dev with Leptonica
    Page 1
    Warning in pixReadMemTiff: tiff page 1 not found

    Einmal editiert, zuletzt von Moulder (22. Januar 2016 um 13:20)

  • Ja, stimmt wirklich.

    Habe ich gar nicht gemerkt dass die Datei trotzdem erstellt wird.

    Das txt File ist bei mir trotzdem in UTF-8 und ß,ä,ü, usw. werrden mir im Einsatz Monitor nicht korrekt angezeigt.
    Im txt File ist alles korrekt.

  • Habt ihr nen script dafür geschrieben wie das fax verarbeitet wird??

    ich hab 2 Batch Dateien auf dem pc die das machen, mach ich das aber in der schleife dann hängt sich der Rechner schnell auf bzw. der EM. Was ich mir vorstelle aber noch keine Idee zur Realisierung habe ist das ein Event die Batch startet.

    Das fax kommt bei uns als .Tiff an via Windows Fax und wird dann über Tesseract verarbeitet. Dafür muss die Bat aber derzeit manuell gestartet werden.

    • Offizieller Beitrag

    Hast du bei deiner Schleife auch ein sleep / wait eingebaut? Ohne das geht deine CPU durch die Decke

    Hilfreiches: Dokumentation| Bugtracker

    Mail: info@feuersoftware.com | Tel: +49 6196 5255697

    Social Media: YouTube | Facebook

    Offizielle Supportanfragen bitte via Email oder Telefon.

    Die Community ist für euch ein Medium zum gegenseitigen austauschen. Ein guter Feedback Kanal für uns, sowie ein Platz für kleinere Fragen oder Problemen. Der Bugtracker dient uns zum Tracken von Problemen und Funktionswünschen aus der Community.