Sonderzeichen sind in der EDV alle Schriftzeichen, welche eine in dem jeweiligen Kontext „gesonderte“ Bedeutung haben.
Je nach Kontext können verschiedene Zeichen zu der Gruppe der Sonderzeichen gehören. In den meisten Textauszeichnungssprachen haben die lateinischen Groß- und Kleinbuchstaben (ohne Diakritika), die Ziffern keine Sonderbedeutung sondern stehen „für sich selbst“.
Zu den Sonderzeichen gehören beispielsweise Satzzeichen, Klammern, mathematische Symbole und Buchstaben, die Diakritika tragen, darunter auch die deutschen Umlaute.
In den frühen Zeiten der Informationstechnik war die Beschränkung von Zeichensätzen auf 7 oder 8 Bit technisch bedingt. Aufgrund vieler damit verbundener Probleme – so musste zur Einführung des Euro-Zeichens ein anderes Zeichen aus der 8-Bit-Erweiterung von ASCII aus ISO 8859-15 herausgenommen werden – geht man heute zunehmend über auf eine höhere Bitzahl je Zeichen.
Siehe auch: Schriftzeichen
Kodierungen
Auf modernen Systemen lassen sich auch recht entlegene
Sonderzeichen ohne große Umstände benutzen. Dabei haben sich (aus der Not heraus) verschiedene Methoden entwickelt.
Unicode
Unicode gilt als die modernste und generischste Form der Umsetzung. Jedes Zeichen auf dieser Welt, ob es nun ein
Recycling-Symbol oder ein
chinesisches Schriftzeichen ist, es bekommt einen Platz in den Unicode-Tabellen und wird auf einem Rechner als 1 oder mehr Bytes umfassende Speicherstelle abgebildet. Jedes Unicode-Zeichen hat eine eigene Nummer. In den Zeichentabellen findet sich etwa U+0935 für das Zeichen व. Möchte man dieses Zeichen in Wikipedia eingeben, ersetzt man U+ durch
&#x und fügt ein Semikolon ein, also
व.
HTML
In
HTML-Dokumenten werden Sonderzeichen durch sogenannte Zeichen-Entity-Referenzen (engl.:
character entity references, auch Entities genannt) dargestellt.
Sie beginnen mit einem Und-Zeichen (&) und enden mit einem Semikolon (;), die Zeichenfolge dazwischen bestimmt das Zeichen (amp für das Und-Zeichen selbst, nbsp für ein geschütztes Leerzeichen, gt für das Größer-als-Zeichen).
Zu beachten ist, dass für die korrekte Anzeige von HTML-Dokumenten im Browser die im Dokument angegebene (optional, falls nur
ASCII-Zeichen und Entities verwendet werden), die vom Webserver angegebene und die im Browser eingestellte Kodierung übereinstimmen müssen.
Nutzt man dafür
Unicode, so entfällt die Notwendigkeit der Zeichen-Entity-Referenzen, außer bei HTML-eigenen Zeichen (&, ", ', <, >).
LaTeX
Populär zur Erstellung wissenschaftlicher Dokumente ist
LaTeX, in denen die
Sonderzeichen durch spezielle
ASCII-Zeichenketten repräsentiert werden. Bei Umlauten schreibt man beispielsweise einfach vor den Basisvokal das doppelte Hochkomma (").
Auch für
TeX und
LaTeX gibt es mittlerweile
UTF-8-Pakete.
Punycode
Um Umlaute und andere
Sonderzeichen in Domainnamen darstellen zu können, hat man das Verfahren
Punycode entwickelt, welches zusammen mit Nameprep den Standard für internationalisierte Domain-Namen (
IDN) ergibt. Dabei werden Nicht-
ASCII-Zeichen durch Bindestriche ersetzt und deren Repräsentation an das Ende des Wortes angehängt.
Siehe auch
Weblinks
Sonderzeichen | Schriftzeichen | Zeichenkodierung