PDF-TXT-Konverter ohne Umweg über TIFF / OCR

  • Hallo zusammen,

    in unserer Alarmierungs-E-Mail sind die Infos in einer angehängten PDF enthalten, die (markierbaren) Text enthält.

    Die Auswerte-Methode PDF-TIFF-TXT mittels OCR, wie sie z.B. hier (EM-OCR EinsatzMonitor PDF-TIFF-TXT Fax Konverter mit Ordnerüberwachung) beschrieben wird, wollte ich vermeiden. Die Texterkennung hat einfach nicht zu 100% funktioniert und warum sollte ich den Text erst als Bild "verschlüsseln" um ihn anschließend wieder per OCR zu "entschlüsseln"?

    Eine Alternative für solche direkt am PC erstellte PDF bietet der hier (PDF Auswertung in E-Mail) beschriebene E-Mail Parser. Dieser ist allerdings kostenpflichtig.

    Ein wenig Recherche und Ausprobieren hat mich zu folgender Lösung gebracht:

    Vorraussetzungen:

    Im Einsatz Monitor unter Auswertung > E-Mail-Einstellungen ist "Download Anhang" aktiviert und "Anhang Speicherort" auf "C:\Users\***Benutzername***\Einsatz_Monitor\Text_Input\" gesetzt. Außerdem ist unter Auswertung > File Überwachung die File Überwachung aktiviert.

    Erforderlich:

    - Kostenloses Befehlszeilen-Programm "pdftotext" (Download: https://xpdfreader-dl.s3.amazonaws.com/xpdf-tools-win-4.02.zip)

    - .bat-Datei, Inhalt siehe unten. Einfach als .txt mittels Editor zu erstellen. Anschließend Dateiendung in .bat ändern.

    Beides abzulegen im Ordner "Einsatz_Monitor".

    - Die .bat-Datei muss dauerhaft ausgeführt werden.

    Die .bat-Datei prüft, ob im "Text_Input"-Order vom Einsatz Monitor eine PDF abgelegt wurde.

    Ist dies der Fall, wird diese per "pdftotext" in eine .txt-Datei konvertiert. Anschließend wird die PDF in den Ordner "Text_Archiv" verschoben.

    Solange keine PDF gefunden wird, zeigt das Programm im Kommandozeilen-Fenster an, dass es läuft.

    Für die Umwandlung stehen verschiedene Optionen im Befehlszeilen-Programm "pdftotext" zur verfügung. Diese sind beschrieben unter http://www.xpdfreader.com/pdftotext-man.html.

    Inhalt der .bat-Datei:

    ######################################

    @echo off

    mode con lines=4 cols=50

    :Endloschleife

    IF EXIST C:\Users\***Benutzername in Anführungszeichen***\Einsatz_Monitor\Text_Input\*.pdf (

    for /F "tokens=*" %%f in ('dir /S /b C:\Users\***Benutzername in Anführungszeichen***\Einsatz_Monitor\Text_Input\*.pdf') do pdftotext -layout "%%f"

    move C:\Users\***Benutzername in Anführungszeichen***\Einsatz_Monitor\Text_Input\*.pdf C:\Users\***Benutzername in Anführungszeichen***\Einsatz_Monitor\Text_Archiv\

    ) ELSE (

    cls

    echo Fenster nicht schliessen!

    echo Einsatz Monitor PDF-TXT-Konverter aktiv

    powershell -command "Start-Sleep -s 0.5"

    cls

    echo Fenster nicht schliessen!

    echo Einsatz Monitor PDF-TXT-Konverter aktiv.

    powershell -command "Start-Sleep -s 0.5"

    cls

    echo Fenster nicht schliessen!

    echo Einsatz Monitor PDF-TXT-Konverter aktiv .

    powershell -command "Start-Sleep -s 0.5"

    cls

    echo Fenster nicht schliessen!

    echo Einsatz Monitor PDF-TXT-Konverter aktiv .

    powershell -command "Start-Sleep -s 0.5")

    goto Endloschleife

    ######################################

    Vielleicht hilft das ja dem ein oder anderen...