OCR bedeutet Optical Character Recognition (Optische Zeichenerkennung).
Dieser Prozess wird häufig auch als Texterkennung bezeichnet. Diese Technologie erlaubt die Erkennung einzelner Schriftzeichen, wodurch Ihre digitalen Briefe durchsuchbar werden.
Grob funktioniert der Prozess so:
- Das Programm analysiert die Struktur des Dokuments. Dabei unterteilt es die Seite in die verschiedenen Elemente (z.B. Absender, Hauptteil, Betreffzeile)
- Danach werden die einzelnen Textzeilen in Wörter und weiter in die einzelnen Buchstaben getrennt
- Sobald das Programm die einzelnen Buchstaben erkannt hat, werden diese mit einer Reihe von Mustern verglichen, sodass der bestimmte Buchstabe definiert werden kann.
- Die Erkenntnisse werden wieder zusammengesetzt und der Text ist für die smarte Volltextsuche durchsuchbar.