article

Texterkennung oder auch Optische Zeichenerkennung (Abkürzung OCR von englisch Optical Character Recognition, selten auch: OZE) ist ein Begriff aus dem IT-Bereich und beschreibt die automatische Texterkennung von einer gedruckten Vorlage.

Ursprünglich wurden zur automatischen Texterkennung eigens entworfene Schriftarten entwickelt, die zum Beispiel für das Bedrucken von Scheckformularen verwendet wurden. Diese Schriftarten waren so gestaltet, dass die einzelnen Zeichen von einem OCR-Lesegerät schnell und ohne großen Rechenaufwand unterschieden werden konnten. So zeichnet sich die Schriftart OCR-A durch einander besonders unähnliche Zeichen, besonders bei den Ziffern, aus. OCR-B ähnelt mehr einer serifenlosen, nicht-proportionalen Schriftart, während OCR-H handgeschriebenen Ziffern und Großbuchstaben nachempfunden wurde.

Die gestiegene Leistungsfähigkeit moderner Computer und verbesserte Algorithmen erlauben inzwischen auch die Erkennung von "normalen" Druckerschriftarten bis hin zu Handschriften (z. B. bei der Briefverteilung), wenn jedoch Lesbarkeit durch Menschen nicht vorrangig ist, werden technologisch einfacher handhabbare Strichcodes genutzt.

Moderne Texterkennung umfasst auch die Erkennung verschiedener Schriftarten und -größen und des Seitenlayouts zur möglichst originalgetreuen Wiedergabe einer Vorlage.

Verfahren


Ausgangspunkt ist eine Bilddatei (Rastergrafik), die von der Vorlage per Scanner, Digitalfotografie oder Videokamera erzeugt wird. Die Texterkennung selbst erfolgt dreistufig:

  1. Seiten- und Layouterkennung: Die Bilddatei wird in relevante Bereiche (Texte, Bildunterschriften) und irrelevante Bereiche (Abbildungen, Weißflächen, Linien) aufgeteilt.
  2. Mustererkennung: Die Pixelmuster der Textbereiche werden mit Mustern in einer Datenbank verglichen und Rohdigitalisate erzeugt.
  3. Fehlerkorrektur: Die Rohdigitalisate werden mit Wörterbüchern verglichen sowie nach linguistischen und statistischen Verfahren hinsichtlich ihrer wahrscheinlichen Fehlerfreiheit bewertet. In Abhängigkeit von dieser Bewertung wird der Text ausgegeben oder gegebenenfalls einer erneuten Layout- oder Mustererkennung mit veränderten Parametern zugeführt. Viele Programme bieten darüber hinaus einen besonderen Modus zur manuellen Fehlerkorrektur durch den Anwender.
Abschließend erfolgt eine Codierung in das Ausgabeformat (z. B. ASCII) als Textdatei, gegebenenfalls auch mit Layout (z. B. als HTML oder PDF).

Die Qualität der Texterkennung bestimmen mehrere Faktoren, u. a.:

  • Qualität der Layouterkennung
  • Umfang und Qualität der Muster-Datenbank
  • Umfang und Qualität der Wörterbücher
  • Qualität der Algorithmen zur Fehlerkorrektur
  • Farbigkeit, Kontrast, Layout und Schriftart des Originaldokumentes
  • Auflösung und Qualität der Bilddatei
Während eine reine Mustererkennung eine Fehlerfreiheit in der Größenordnung von 80% erreicht (jedes fünfte Zeichen wird falsch erkannt), erzielen gute Programme dank leistungsfähiger Algorithmen eine Fehlerfreiheit von bis zu 99%. Solche Algorithmen operieren auf Graustufenbildern und erkennen Buchstaben so als dreidimensionale Kurven mit charakteristischen Merkmalen.

Anwendungen


  • Wiedergewinnen von Textinformation aus Bilddateien, um diese mit Hilfe einer Textverarbeitung weiter zu bearbeiten und/oder elektronisch durchsuchbar zu machen
  • Erkennung von relevanten Merkmalen (z. B. Postleitzahl, Vertragsnummer, Rechungsnummer) zur mechanischen (Poststraße) oder elektronischen (Workflow-Management-System) Einsortierung eines Schriftstücks
  • Erkennung von Merkmalen zur Registrierung und ggf. Verfolgung von Gegenständen (z. B. Kfz-Kennzeichen)

Programme


Siehe auch


Literatur


Künstliche Intelligenz | Software

OCR | Optical character recognition | Optika signorekono | Reconocimiento óptico de caracteres | تشخیص نوری نویسه‌ها | OCR | Reconnaissance optique de caractères | Optical Character Recognition | זיהוי תווים אופטי | Optičko prepoznavanje znakova | Optikai karakterfelismerés | Ljóslestur | Optical Character Recognition | 光学文字認識 | Optical Character Recognition | OCR | OCR | Optical character recognition | โอซีอาร์ | OCR | 光学字符识别

 

This article is licensed under the GNU Free Documentation License. It uses material from the "Texterkennung".

Home Pageartsbusinesscomputersgameshealthhospitalshomekids & teensnewsphysiciansrecreationreferenceregionalscienceshoppingsocietysportsworld