Texterkennung oder auch Optische Zeichenerkennung (Abkürzung OCR von englisch Optical Character Recognition, selten auch: OZE) ist ein Begriff aus dem IT-Bereich und beschreibt die automatische Texterkennung von einer gedruckten Vorlage.
Ursprünglich wurden zur automatischen Texterkennung eigens entworfene Schriftarten entwickelt, die zum Beispiel für das Bedrucken von Scheckformularen verwendet wurden. Diese Schriftarten waren so gestaltet, dass die einzelnen Zeichen von einem OCR-Lesegerät schnell und ohne großen Rechenaufwand unterschieden werden konnten. So zeichnet sich die Schriftart OCR-A durch einander besonders unähnliche Zeichen, besonders bei den Ziffern, aus. OCR-B ähnelt mehr einer serifenlosen, nicht-proportionalen Schriftart, während OCR-H handgeschriebenen Ziffern und Großbuchstaben nachempfunden wurde.
Die gestiegene Leistungsfähigkeit moderner Computer und verbesserte Algorithmen erlauben inzwischen auch die Erkennung von "normalen" Druckerschriftarten bis hin zu Handschriften (z. B. bei der Briefverteilung), wenn jedoch Lesbarkeit durch Menschen nicht vorrangig ist, werden technologisch einfacher handhabbare Strichcodes genutzt.
Moderne Texterkennung umfasst auch die Erkennung verschiedener Schriftarten und -größen und des Seitenlayouts zur möglichst originalgetreuen Wiedergabe einer Vorlage.
Ausgangspunkt ist eine Bilddatei (Rastergrafik), die von der Vorlage per Scanner, Digitalfotografie oder Videokamera erzeugt wird. Die Texterkennung selbst erfolgt dreistufig:
Die Qualität der Texterkennung bestimmen mehrere Faktoren, u. a.:
Künstliche Intelligenz | Software
OCR | Optical character recognition | Optika signorekono | Reconocimiento óptico de caracteres | تشخیص نوری نویسهها | OCR | Reconnaissance optique de caractères | Optical Character Recognition | זיהוי תווים אופטי | Optičko prepoznavanje znakova | Optikai karakterfelismerés | Ljóslestur | Optical Character Recognition | 光学文字認識 | Optical Character Recognition | OCR | OCR | Optical character recognition | โอซีอาร์ | OCR | 光学字符识别
This article is licensed under the GNU Free Documentation License.
It uses material from the
"Texterkennung".
Home Page • arts • business • computers • games • health • hospitals • home • kids & teens • news • physicians • recreation• reference • regional • science • shopping • society • sports • world