Hallo,
wir haben nun jahrelang ein Fax-PDF ausgewertet was auch einwandfrei funktioniert.
Nun sendet uns die Leistelle eine E-Mail mit einem PDF im Anhang. Anders als bei dem in PDF konvertierte Fax, ist das PDF in der Mail in Text-Form - sprich ich kann den Tex innerhalb des PDFs markieren.
Ich möchte nun erreichen dass ich das Fax nicht erst durch die OCR-Erkennung schleußen muss, sondern direkt auswerten kann. Kann mir jemand sagen, welche Parameter ich hier im tesseract bzw. ghostscript setzen muss dass das funktioniert?? Wenn ich es richtig interpretiere macht das Ghostscript ja erst ein Tiff aus dem PDF...