Als Indexierung oder auch Verschlagwortung bezeichnet man beim Information-Retrieval die Zuordnung von Deskriptoren zu einem Dokument zur Erschließung der darin enthaltenen Sachverhalte. Es lassen sich die kontrollierte Indexierung mit einem Thesaurus oder Schlagwortkatalog bzw. Notationen einer Klassifikation und freie Indexierung bzw. freie Verschlagwortung mit nicht vorgegebenen Deskriptoren unterscheiden. Beim Gemeinschaftlichen Indexieren (auch social oder collaborative tagging) mit Hilfe von Sozialer Software spricht man auch von Tagging anstelle von Indexierung und von Tags anstatt von Deskriptoren.
Mit statistischen Indexierungsverfahren wird durch die Ermittlung von Worthäufigkeiten eine Auswahl getroffen und somit nur Wörter in den Index aufgenommen, die mit einer gewissen Frequenz im Text auftreten. Ein einfaches Verfahren der Termgewichtung ist die inverse Dokumenthäufigkeit. Bei diesem Verfahren wird die Häufigkeit eines Begriffs in einem Dokument ermittelt. Dieser Wert wird mit der Häufigkeit der Dokumente, in denen der Begriff vorkommt, ins Verhältnis gesetzt. So lässt leicht der Wert oder die Gewichtung des Begriffs als Deskriptor ablesen. Die Gewichtung eines Begriffs ist am höchsten wenn es wenige Dokumente, in denen der Begriff enthalten ist, im Archiv gibt, und der Begriff im zu indexierenden Dokument am häufigsten vorkommt. An der Häufigkeit des Begriffs kann man die Signifikanz ablesen. In diesem Dokument wird zum Beispiel häufig „Begriff“ verwendet, denn dieses Wort ist wichtig für das Thema. Nur: „Begriff“ ist ein zu weiter Begriff in spe. Daran kann man sehen, dass allein an der Häufigkeit nicht erkannt werden kann, ob es ein guter oder schlechter Deskriptor ist. Nur im Zusammenspiel mit dem o. g. Gewichtungsverfahren lassen sich signifikante Deskriptoren erstellen.
Mit Hilfe der Computerlinguistik sind auch intelligentere automatische Verfahren möglich, die zwar nicht an die manuelle Indexierung heranreichen, aber wesentlich stabiler hinsichtlich der Indexierungskonsistenz sind.
This article is licensed under the GNU Free Documentation License.
It uses material from the
"Indexierung".
Home Page • arts • business • computers • games • health • hospitals • home • kids & teens • news • physicians • recreation• reference • regional • science • shopping • society • sports • world