PDF in TIF umwandeln und dann OCR Software

  • Zitat

    deu.traineddata

    Probiere mal diese Traineddatei, wird mit Tesseract "tesseract-ocr-w32-setup-v4.0.0-beta.4.20180912" ausgeliefert.

    Also im EM-OCR wie folgt einstellen:

    Verknüpfung mit: "xxx\EM-OCR\EM-OCR\tesseract\tesseract.exe"

    Tesseract Argumente: "-l deu"

    Mit diesen Einstellungen erhalte ich mit deinem TIF folgendes:

    Das "xxENTFERNTxx" und die "x" wurden korrekt ausgewertet.

  • Hallo Saarpfalz,

    mit dem deu sieht es bedeutend besser aus. Habe kein OCR-Verzeichnis unter dem EM - ist das notwendig? Bei mir schreibt der OCR alles in eine Zeile. Wie bekommst du die Zeilenumbrüche hin?

    Viele Grüße

  • OK super das kannte ich noch nicht. Ist super der EM-OCR. Jetzt brauch ich noch ein Tool, welches mir die PDF von der Email automatisch herunterläd?

    Welches nutzt ihr?

    Halte dich an diese Diskussion, im allersten Beitrag ist immer die aktuelle Version von EM-OCR verlinkt:

    EinsatzMonitor PDF-TIFF-TXT Fax Konverter mit Ordnerüberwachung

    Also diese Software installieren und dann das oben von mir beschriebene mal testen.

  • Das Prozedere ist dann wie folgt:

    a) Alarmfax der ILS --> Fax --> Weiterleitung an ein Emailpostfach

    b) EM kontrolliert einmal alle Minute dieses Postfach ob eine neue Email eingegangen ist. Bei Eingang lädt er den PDF-Anhang der Email in einen Ordner auf dem Rechner

    c) EM-OCR überwacht diesen Ordner, bei Ablage einer PDF wird diese umgewandelt und ausgelesen. Anhand von zwei Schlüsselwörtern erkennt er ob es ein Alarm- oder Abschlussfax ist. Ist es ein Alarmfax, legt er die geparste Textdatei in den Text-Eingangsordner vom EM ab.

    d) Ein Pattern entnimmt dann die benötigten Informationen und stellt diese auf dem EM bereit.