Einsatzmonitor zeigt Umlaute / ß nicht an

  • Hallo zusammen,

    ich habe an unserem Einsatzmonitor das Problem, dass dieser die Umlaute bei der Auswertung nicht anzeigt.

    Das Alarmfax kommt über eine Fritzbox auf unseren PC. Von dort wird es mittels

    - EM-OCR 2.0.06

    - Ghostscript 9.26 (2018-11-20)

    - Tesseract OCR 4.0.0.20181030

    vom PDF in ein TXT File umgewandelt.

    In dem TXT File ist auch noch alles OK, Umlaute werden korrekt dargestellt.

    Im Einsatzmonitor allerdings zeigt er mir diese dann nicht korrekt an.

    Zum Beispiel das ß wird als AY (oberhalb vom A ist ein ~ und oberhalb vom Y zwei Punkte)

    Oder aber ein ö wird mit A (oberhalb vom A ist ein ~) gefolgt von einer Absatzmarke (bekannt aus z.B. Word) dargestellt.

    Kann ich dam im Einsatzmonitor noch was anpassen?

    Danke für Eure Unterstützung.


    Gruss,
    Matthias

    Einmal editiert, zuletzt von moreman (21. August 2019 um 08:20)

  • Klingt nach Zeichensatzproblem in der Datei. Zeichen als UTF-8 codiert aber als ANSI gespeichert.

    schau mal ob du irgendwo in der Kette ANSI statt UTF-8 gesetzt hast.

    evtl. den UTF-8 BOM (EF BB BF) manuell am Anfang der Datei schreiben.

  • Hallo J.raber,

    bis jetzt habe ich das Problem noch nicht gelöst.

    Mittlerweile ist das System aber mit neuer Hardware komplett neu aufgesetzt.

    Durch die neueren Versionen ist es etwas besser, aber ab und zu werden die Umlaute noch falsch erkannt.

    Aktuelle Konfiguration:

    - EM-OCR 2.0.3

    - Ghostscript 9.50

    - Tesseract OCR 4.0.0.20181030

    Gruss,

    Matthias