Ich sitze auf dem Amt und möchte irgendwas beantragen. Nach mehreren gefühlten Ewigkeiten wird meine Nummer aufgerufen, ich gehe an den angezeigten Platz. Einige Minuten später fällt mir auf, dass ich ein Dokument vergessen habe. Also wieder nach Hause fahren, das Dokument holen, zurückfahren und eine neue Nummer ziehen. Das Problem ließe sich vermeiden, indem man entweder nichts mehr vergisst, oder seine Dokumente digitalisiert. Für mich war das ein ausschlaggebender Grund für das papierlose Büro.
Komplett auf Papier im Büro zu verzichten ist gar nicht mal so einfach. Ich habe den Weg in mehreren Schritten gemacht und bin bis jetzt wirklich wunschlos glücklich.
Update vom 19.04.2020: Ich habe meinen Workflow zum papierlosen Büro komplett überarbeitet, da IFTTT nun keine vernünftige Integration von Gmail mehr anbietet. Anstatt IFFT benutzte ich nun den Service von Make.com. Was man damit alles anstellen kann, erfährst du in diesem Beitrag: Automatisierung ist kinderleicht.
E-Mail Anhänge automatisch verarbeiten
Ich bin seit mehreren Jahren selbstständig und bekomme dementsprechend viele Rechnungen und Dokumente per E-Mail. Mittlerweile sind auch Unternehmen wie die Telekom, Vodafone und Banken dazu übergegangen, Rechnungen und Kontoauszüge nur noch digital zur Verfügung zu stellen. Fast jeden Tag landen mehrere E-Mails mit Anhängen in meinem Posteingang. Ich habe fünf verschiedene E-Mail Adressen, mit denen ich unterschiedliche Kontakte pflege.
Mein Ziel war es, alle E-Mails mit PDF Anhängen automatisch zu öffnen, die PDF zu speichern, für den Finder bzw. Alfred durchsuchbar zu machen und in einer definierten Verzeichnisstruktur abzulegen. Dieser Prozess sollte, so gut es eben geht, automatisiert ablaufen.
Nach einigen Recherchen stieß ich auf die Mac App Hazel. Mit Hazel lassen sich so ziemlich alle erdenklichen Prozesse automatisieren. Nach dem Wenn-Dann-Prinzip lassen sich einfache bis super komplexe Funktionen erstellen. Hazel läuft nach der Installation im Hintergrund und überwacht definierte Verzeichnisse. Ich habe mir in meiner Dropbox ein Inbox Verzeichnis angelegt. In diesem Verzeichnis sollen in diesem Schritt alle Dokumente landen, die mir per E-Mail zugeschickt werden.
Nun stellt sich direkt die nächste Frage: Wie bekomme ich die PDF Anhänge meiner Mails aus fünf verschiedenen Postfächern automatisiert in ein Verzeichnis meiner Dropbox? An meinem MacBook nutze ich Airmail 3* um meine E-Mails zu verwalten. Mit Airmail lassen sich mit den Filterregeln und einem Apple Script alle Anhänge automatisch abspeichern. Dafür muss man sich nur die gewünschten Regeln, die unter Fenster > Regeln zu finden sind, zusammenklicken. Erfüllt die eingegangene E-Mail diese Regeln kann man ein Apple Script ausführen lassen.
Dieses Apple Script geht alle Anhänge einer E-Mail durch und speichert sie unter dem angegebenen Pfad ab:
property DOWNLOADS : "/Users/username/Desktop/Inbox"
on processMessage(theMessage) try tell application "Airmail 2" repeat with anAttach in mail attachments of theMessage set aFilename to filename of anAttach set aFile to quoted form of aFilename set fldr to quoted form of DOWNLOADS do shell script "cp " & aFile & space & fldr end repeat end tell end try end processMessage
Durchsuchbare PDF per Terminal
Wenn du keine Lust auf eine weitere App auf deinem Mac hast, kannst du das OCR auch einfach im Hintergrund von deinem Terminal erledigen lassen. OCRmyPDF ist ein Kommandozeilenprogramm, welches in eingescannten PDF-Dateien eine durchsuchbare Textebene erstellt. Das Resultat wird im PDF/A2-b-Format gespeichert. Für die Texterkennung kommt dabei Tesseract zum Einsatz.
Des Weiteren werden verschiedene PDF-Programme (Ghostscript, QPDF) und Grafik-Anwendungen (ImageMagick, unpaper, pngquant) verwendet, außerdem Python und einige Python-PDF-Module. Das Programm überprüft bei Erstaufruf, ob die benötigten Programme installiert sind, und gibt bei fehlenden Teilen entsprechende Hinweise aus. Die Passung der Textlage ist sehr gut, die Verarbeitung sehr zuverlässig und die Dateigrößen akzeptabel.
Um OCRmyPDF und die Spracherkennung für andere Sprachen als Englisch zu installieren, führt man folgende Befehle im Terminal aus.
brew install ocrmypdf brew install tesseract-lang
Nach der Installation muss man Hazel nur noch mitteilen, was passieren soll. Ich habe das mit dieser einfachen Zeile erledigt. Die Zeile sagt, dass die PDF Datei nach deutschem und englischen Inhalten durchsucht werden soll, selbst dann, wenn bereits eine Textebene existiert. Der Parameter –rotate-pages sorgt dafür, dass eventuell gedrehte Seiten wieder korrekt ausgerichtet werden.
ocrmypdf -l eng+deu --force-ocr --rotate-pages $1 $1
Automatisierung mit IFTTT
Nachdem ich diese Automatisierung ausprobiert und für gut befunden hatte, fiel mir auf, dass sie nur funktioniert, wenn mein MacBook eingeschaltet und Airmail gestartet ist. Das war dann doch nicht das, was ich mir vorgestellt hatte. Die Aktionen sollten auch dann laufen, wenn ich irgendwo unterwegs bin. Ein anderer Weg musste her.
Ich erinnerte mich an den Service IFTTT. Dieser Dienst macht im Grunde nichts anderes als Hazel. Nur, dass es sich bei IFTTT um einen reinen Onlinedienst handelt. IFTTT steht für If this then that und beschreibt damit schon sehr gut seine Funktionsweise. Man kann verschiedenste Services verknüpfen und so Aufgaben erledigen lassen, wenn bestimmte Bedingungen erfüllt wurden. So kann man einen frisch veröffentlichten WordPress Artikel direkt an Twitter und Facebook übergeben, das aktuelle Wetter in ein Spreadsheet schreiben lassen, oder aber die Anhänge seiner E-Mails von Gmail in die Dropbox speichern lassen.
Ich habe eine E-Mail Adresse bei Google. Meine beruflichen Mails habe ich unter eigenen Domains laufen und da sollen sie auch bleiben. Um die Anhänge trotzdem von IFTTT in meine Dropbox speichern zu lassen, habe ich Weiterleitungen erstellt. Jedes der fünf Postfächer leitet nun E-Mails mit Anhängen an eine neu erstellte Googlemail Adresse weiter. Dafür lassen sich einfache Posteingangsfilter nutzen, die eigentlich jeder Anbieter mitbringt. Nun habe ich also alle relevanten E-Mails samt Anhängen in einem Posteingang. Nun kann IFTTT in regelmäßigen Abständen nach neuen E-Mails schauen und die Anhänge dann ggf. in meine Dropbox legen. Das alles funktioniert auch dann, wenn ich selbst nicht am MacBook sitze. Den Posteingang dieser Adresse lasse ich jede Woche einmal automatisch löschen, damit das Postfach nicht irgendwann überläuft.
Da ich das Inbox Verzeichnis in meiner Dropbox angelegt habe, kann IFTTT nun neue PDF Dateien direkt in diesem Ordner ablegen. Diese Methode mag bei einigen Leuten nicht in Frage kommen, weil sie ihre Daten nicht an Dritte weitergeben möchten. Man kann diesen Weg auch über seinen eigenen Server beschreiten, dann aber mit erheblichem Mehraufwand.
Das Inbox Verzeichnis wird von Hazel überwacht und beinhaltet momentan drei Regeln.
Diese Regel besagt, dass alle PDF Dokumente mit dem Tag Inbox versehen werden. Damit sich diese Regel nicht selbst ständig wieder aktiviert, beschränkt sie sich auf Dokumente, die nie geöffnet wurden und eben diesen Tag noch nicht besitzen.
Diese Regel sorgt dafür, dass alle Dateien, die keine PDF Dateien sind, umgehend in den Papierkorb landen. In der Inbox sollen erstmal nur PDF Dateien bearbeitet werden und andere Formate könnten im weiteren Ablauf eventuell für Probleme sorgen. Damit mir diese Regel nicht auch noch meine beiden Verzeichnisse löscht, habe ich diese von der Regel ausgeschlossen.
Die Perform OCR Regel schnappt sich alle Dokumente aus der Inbox, die mit Inbox getaggt wurden und wendet zuerst das folgende Apple Script darauf an. Dieses Script sagt PDFpen 10*, dass das jeweilige Dokument geöffnet und der Text darin erkannt werden soll. Das sorgt später dann dafür, dass man mit der Spotlight Suche auch Inhalte aus diesen Dateien finden kann. Nach der automatischen Texterkennung wird PDFpen wieder geschlossen.
tell application "PDFpen 10" open theFile as alias tell document 1 ocr repeat while performing ocr delay 1 end repeat delay 1 close with saving end tell quit end tell
Der Tag inbox wird dann noch gegen running getauscht und das Dokument wandert in das entsprechende running Unterverzeichnis. Von dort aus geht die Verteilung der Dokumente weiter. Die neue PDF Datei wurde nun lesbar gemacht und mit den notwendigen Labeln versehen. Nun möchte ich noch, dass die neu eingetroffenen Dateien noch automatisch sortiert werden.
Hier habe ich als Beispiel einmal eine Beispielregel erstellt. Sie durchsucht die PDF nach den Worten Pixelgranaten.de und Rechnung. Werden diese beiden Worte zusammen in einem Dokument gefunden, werden automatisch Schlagworte hinzugefügt und die Datei umbenannt. Sie bekommt das aktuelle Datum, eine Bezeichnung und die entsprechende Endung. In diesem Fall wird sie immer .pdf lauten. Den Tag running können wir an dieser Stelle dann wieder entfernen, da das Dokument fertig bearbeitet ist. Nun wird es noch in den Ordner Rechnungen geschoben.
Natürlich muss ich nun noch schauen, welche Anhänge regelmäßig in meinem Postfach eintrudeln. Für diese Anhänge muss man dann jeweils eine eigene Regel erstellen und einen Zielordner definieren. Da man die Hazel Regeln mit einem Mausklick duplizieren kann und danach nur noch den Zielordner und die Beschreibung anpassen muss, hält sich der Aufwand für jede weitere Regel in Grenzen.
Fujitsu ScanSnap iX500 mit automatischer Dokumentenverarbeitung
Nachdem ich nun alle E-Mail Anhänge automatisch verarbeiten lasse, bleiben noch die Dokumente, die direkt in meinem Briefkasten landen. Ich habe eine Drucker-Scanner Kombination in meinem Büro stehen und habe angefangen, Seite für Seite mit dem Flachbettscanner einzuscannen. Dieser Prozess ist unbequem und dauert einfach viel zu lange. Ich habe mich nach Dokumentenscanner umgeschaut und bin auf den ScanSnap iX500 gestoßen. Dieser Scanner wird mit seiner Schnelligkeit und dem direkten Scannen in die Cloud beworben. Danach hatte ich gesucht. Ich möchte meine Dokumente scannen können, ohne mit dem Laptop daneben sitzen zu müssen.
Fakten des Fujitsu ScanSnap iX500
Technische Daten
- Scannertyp ADF (automatischer Dokumenteneinzug). Duplex-Farbscanner
- Scan-Methode Farbe/Graustufen/Schwarzweiß/automatische Erkennung
- Bildsensor Farb-CCD x 2
- Lichtquelle 3 Farb-LED
- Optische Auflösung 600 dpi x 1200 dpi
- Mehrfacheinzugserkennung Ultraschallsensor oder Längenerkennung (wählbar)
- Papiergewicht (Stärke) 40 bis 209 g/m²
- ADF-Kapazität Maximal 50 Blatt (A4 mit 80 g/m²)
- Schnittstelle USB 3.0 (USB 2.0- / USB 1.1-kompatibel)
- Stromversorgung Netzanschluss 100–240 V, 50/60 Hz
- Leistungsaufnahme Betrieb: 20 W oder weniger Standby Mode: 1,6 W oder weniger (2,5 W oder weniger bei bestehender Verbindung über WLAN)
- Abmessungen (B x T x H) 292 mm x 159 mm x 168 mm
- Gewicht 3 kg
- Treiber ScanSnap-spezifischer Treiber (keine Unterstützung von TWAIN/ISIS™), mit ScanSnap Manager V6.0 zu betreiben
- Lieferumfang USB-Kabel, Netzteil, Netzkabel, Kurzanleitung und Set-up auf DVD-ROM, Adobe® Acrobat® X Standard auf DVD-ROM
Scangeschwindigkeiten
- Automatikbetrieb
Simplex oder Duplex: 25 Seiten/Min. - Normal-Modus
Farbe / Graustufen 150 dpi, Schwarzweiß 300 dpi, Simplex / Duplex, 25 Seiten/Min. - Besserer Modus
Farbe / Graustufen 200 dpi, Schwarzweiß 400 dpi, Simplex / Duplex, 25 Seiten/Min. - Best-Modus
Farbe / Graustufen 300 dpi, Schwarzweiß 600 dpi, Simplex / Duplex, 25 Seiten/Min. - Exzellent-Modus
Farbe / Graustufen 600 dpi, Schwarzweiß 1200 dpi, Simplex / Duplex, 7 Seiten/Min.
ScanSnap Cloud
- Gescannte Bilder werden automatisch nach vier Dokumenttypen sortiert.
- Gescannte Bilder werden automatisch entweder als Dokument, Visitenkarte, Quittung oder Foto sortiert und unter einem entsprechenden Cloud-Speicherdienst gespeichert.
- Der Titel eines Dokuments kann extrahiert werden und eine Datei kann mit dem Titel benannt werden.
- Dateien gescannter Bilder, die als Dokument sortiert werden, werden automatisch mit dem Titelnamen benannt, der aus den gescannten Bildern extrahiert wurde.
- Die gescannten Originalbilder können vorübergehend gespeichert werden.
- Sie verbleiben zwei Wochen lang im Verlauf.
- Gescannte Bilder können optimiert werden.
- Gescannte Bilder werden optimiert, indem sie entzerrt und leere Seiten entfernt werden.
Der Fujitsu ScanSnap iX500 ist mit Hilfe der Software in weniger als 10 Minuten einsatzbereit. Man klappt ihn auf, legt die Dokumente ein und drückt auf die Scannen-Taste. Alles weitere haben wir vorher konfiguriert. Die Dateien landen in meinem Inbox Verzeichnis in meiner Dropbox. Von dort aus geht der Prozess genau so weiter, wie bereits für die E-Mails beschrieben.
Ich habe den kompletten Workflow in einem Video festgehalten. Dafür habe ich zwei Beispielregeln erstellt und zwei verschiedene fünfseitige Dokumente ausgedruckt. Ich scanne die beiden Dokumente nacheinander ein und sie landen danach direkt in den dafür vorgesehenen Verzeichnissen. Viel einfacher geht es nicht.
Zusammenfassung
Folgende Soft- und Hardware benutze ich um meine Dokumente zu digitalisieren und archivieren:
- Automatisierung ist kinderleicht
- PDFpen 10*
- IFTTT
- Make*
- Hazel
- Dropbox*
- Airmail 3*
- ScanSnap iX500 Scanner
Bist du auch schon papierlos? Wenn ja, kannst du gerne berichten, welches Gerät du einsetzt und mit welchen Programmen du arbeitest. Wenn du Verbesserungsvorschläge zu meinem Workflow hast, kannst du auch die gerne hier lassen. Ich freue mich über Kommentare.
*Affiliate Link
Das Beitragsbild ist von Ayla Verschueren auf Unsplash.
6 Kommentare
Mark Müller-Chytry
11. September 2020 um 11:52Hallo zusammen, einfach toll der Beitrag. Ich habe nun eine Frage ich nutze am MAC das Mailprogramm Spark, wie muss ich die Skripte umschreiben das es hiermit auch funktioniert?
Daniel
11. September 2020 um 11:54Hallo Mark – Ich danke dir! Ich bin mittlerweile auch auf Spark umgestiegen. Welches Skript möchtest du denn dafür umschreiben? Spark hat bei mir gar nichts mit dem kompletten Workflow zu tun.
Mark Müller-Chytry
11. September 2020 um 11:59Hallo Daniel, wow das geht ja flott hier;-) Danke für deine Zeit. Du greifst ja irgendwie alle PDF Dokumente in den Emails ab das würde ich gerne auch mit Spark realisieren und in meiner eigenen Nextcloud ablegen und dann mit PDF Penn Pro verschlagworten und umbenennen lassen.
Daniel
11. September 2020 um 12:02Gerne doch. Ich greife die Mails mit PDF Anhängen bereits vorher ab. Ich möchte, dass die Automatisierung auch dann funktioniert, wenn ich gerade nicht am Rechner bin. Wie genau ich das alles hinbekommen habe, habe ich auch noch mal in einem anderen Blogbeitrag aufgeschrieben: https://pixelgranaten.de/themen/productivity-hacks/automatisierung-ist-kinderleicht. Guck dir das doch einmal an und wenn du noch Fragen hast, helfe ich dir gerne weiter.
Mark Müller-Chytry
11. September 2020 um 12:09Ja den Beitrag habe ich auch schon gelesen. Wollte aber erstmal mit einer “lokalen” Lösung am Mac anfangen, bevor ich meine betrieblichen Emails, von externen Unternehmen abgreifen lasse. Daher die Frage wie das Skript sich an Spark anbinden lässt und wie man die Regeln “als PDF kennzeichnen” erstellt.
Daniel
11. September 2020 um 13:35Ich verstehe. Leider habe ich dafür keine Lösung parat. Du könntest schauen, ob du dir mit Automator ein kleines Skript zusammenbauen kannst. Ich glaube, da gab es Funktionen wie “Angegebene Mail Objekte abfragen” und “Mail Anhänge sichern”. Das Skript könntest du dann mit Hazel laufen lassen.