Mit incron oder inotify: Linux digitalisiert Text von Papiervorlagen automatisch

Wir zeigen zwei Skripte für einen kostenlosen Digitalpakt mit Linux, bei dem er die Buchstaben von eingescannten Seiten automatisch erkennt und zu Text wandelt.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 11 Kommentare lesen
KI, Collage c't

(Bild: KI, Collage c't)

Lesezeit: 19 Min.
Von
  • Sebastian Piecha
Inhaltsverzeichnis

Gedruckte Texte lassen sich mit der bewährten Optical Character Recognition (OCR) längst mit hinreichender Genauigkeit digitalisieren. So können Sie etwa Rechnungen von Handwerkern oder Dienstleistern digital archivieren. Das entlastet den Aktenschrank und die digitalisierten Daten können Sie maschinell durchsuchen, wenn Sie mal Angaben für die Einkommensteuererklärung brauchen – dagegen sieht der deutsche Amtsschimmel alt aus.

Doch je mehr Papier ins Haus schneit, desto lästiger wird das Verfahren, wenn die Scannersoftware die OCR-Wandlung nicht selbst erledigt. Dann muss man nicht nur jede einzelne Seite in den Scanner einlegen, den Scan-Vorgang am PC starten und das Abbild als JPG- oder PNG-Datei speichern, sondern auch die OCR-App öffnen, diese zum Ordner führen, der die eingelesene Datei enthält, die Texterkennung starten und schließlich den digitalisierten Text zum Beispiel als PDF-Datei speichern.

c't kompakt
  • Linux hilft, wichtige Papierunterlagen zu digitalisieren, sodass man sie maschinell durchsuchen kann.
  • Zwei Beispielskripte zeigen, wie das ohne jegliche Handarbeit klappt, sobald der Scanner ein PDF anliefert.
  • Die Grundlage bildet die Überwachungsfunktion inotify des Linux-Kernels.
Mehr zu Linux

Diese Unbequemlichkeit kann man auf mehrere Arten beseitigen: Ein Beispiel mit der umfassenden Dokumentenverwaltung paperless-ngx haben wir bereits ausführlich vorgestellt; die Einrichtung ist jedoch nicht ganz trivial. Ein sehr einfacher Weg besteht darin, ein Scanprogramm mit eingebauten OCR-Funktionen zu kaufen. Beispielsweise kostet das vielseitige VueScan für Linux, macOS und Windows mitsamt OCR-Funktionen rund 40 Euro. Solche Programme sind auch bei "allgemeinen Kommandozeilenunverträglichkeiten" angeraten.

Das war die Leseprobe unseres heise-Plus-Artikels "Mit incron oder inotify: Linux digitalisiert Text von Papiervorlagen automatisch". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.

heise+ ab 2,99 € pro Woche entdecken

Hier bestellen

Über 90.000 Leser vertrauen bereits darauf – wählen Sie jetzt Ihr passendes Paket!


Mit heise+ lesen Sie alle Inhalte auf heise online. Zusätzlich zu unseren Magazin-Inhalten erhalten Sie damit weitere exklusive Tests, Ratgeber und Hintergründe.

Hier bestellen