article

Die Datenmenge ist ein Maß für die Menge von Daten. Die Grundeinheit der Datenmenge ist das Bit. Daten dienen dem Speichern und Übertragen von Information, wobei zu beachten ist, dass der Informationsgehalt einer Nachricht nicht gleich der Datenmenge ist, auch wenn in diesem Zusammenhang häufig das Wort Information verwendet wird, wenn Daten gemeint sind. Der Informationsgehalt kann im Gegensatz zur Datenmenge nicht unmittelbar abgelesen werden, und es gibt verschiedene Ansätze, ihn zu bestimmen.

Die Datenmenge, die benötigt wird, um eine gegebene Information zu speichern, hängt einerseits von der Komplexität der Information und andererseits vom Kodierungsverfahren ab. Für umfangreiche Datenmengen gibt es Kompressionsverfahren, die die Menge der Daten reduzieren, aber die gleiche Information speichern. Dabei wird ein geeignetes Kodierungsverfahren verwendet, um den Informationsgehalt der einzelnen Zeichen zu erhöhen bzw. Entropie der Nachricht zu verringern (siehe auch Entropiekodierung).

Daten müssen nicht unbedingt explizit als Bits kodiert oder in einem Computer gespeichert sein. Daten sind überall in der Natur und unserer Alltagswelt. Die größten Datenmengen stecken in unserem Gehirn, in unseren Bibliotheken, Büchern, Filmen, Bildern und Computern, im Erbgut und den Molekülstrukturen der belebten Natur, in den Gesetzen der unbelebten und belebten Natur, in der Struktur des gesamten Weltraums und die maximal denkbare Information in der Geschichte des gesamten Weltraums.

Definition


Die kleinste Dateneinheit ist das Bit. Bit ist die Kurzform für Binary digit, bedeutet also Binärziffer also eine Ziffer die zwei Werte, etwa 0 oder 1, haben kann. Ein Datenspeicher mit 1 Bit Speicherkapazität hat also nur einen Speicherplatz mit 2 Möglichkeiten: zum Beispiel „besetzt oder leer“, „an oder aus“, „Kerbe oder keine Kerbe“. Die Datenmenge, die in einer einzelnen Ja/Nein-Entscheidung steckt, ist demnach ein Bit. Für vier mögliche Werte (zum Beispiel rot, gelb, grün, blau) werden zwei Bits benötigt, die sich auf vier verschiedene Weisen kombinieren lassen (00, 01, 10, 11).

Formal bedeutet das, dass die benötigte Datenmenge D (Anzahl von Bits) der Logarithmus zur Basis 2 der Zahl Z der möglichen Werte ist:

D = ld(Z)

beziehungsweise umgekehrt: die Anzahl der möglichen Werte ist 2 hoch die Anzahl der Bits:

Z = 2^D

Also zum Beispiel

  • 0 Bit => Z = 1, wenn D = 0, da 20 = 1
  • 1 Bit => Z = 2, wenn D = 1, da 21 = 2
  • 2 Bit => Z = 4, wenn D = 2, da 22 = 4
...

  • 7 Bit => Z = 128, wenn D = 7, da 27 = 128
Die Summation der Bits von 0 bis 7 (entsprechend 1 Byte) 28-1, können also einen dezimalen Wertebereich von 0 bis 255 abdecken.
  • 8 Bit => Z = 256, wenn D = 8, da 28 = 256
...
  • 63 Bit => Z = 9223372036854775808, wenn D = 63, da 263 = 9223372036854775808

Für D = 1 KiB ist die Zahl Z der möglichen Ereignisse bereits sehr groß: 21024 = 1,797693134862315907729305190789 · 10308.

Einheiten


Neben dem Bit ist die gängigste Einheit für die Datenmenge das Byte (oder Oktett), das aus 8 Bits besteht. Das hat historische Gründe: viele Geräte waren so ausgelegt, dass sie 8 Bit gleichzeitig bearbeiten konnten (heute sind das meist 32 oder 64 bit - siehe dazu Wort), 8 Bit wurden also von der Verarbeitungseinheit als eine Zahl angesehen. Des Weiteren werden Buchstaben von den meisten Zeichensätzen, insbesondere von ISO-8859, als ein Byte dargestellt.

(Geschichte: es gab auch Systeme, die nur 5 Bit zu 1 Byte zusammenfassten, und es gab auch Systeme, die 13 Bit zu 1 Byte zusammenfassten.)

Für größere Datenmengen werden Bit und Byte dann mit den gängigen Vorsilben für Maßeinheiten versehen, also kilo (kBit/kByte), mega (MBit/MByte), giga (GBit/GByte), tera (TBit/TByte) und so weiter.

Auf Grund der binären Adressierung von Speicherbausteinen wird in einigen Bereichen die Speichergröße als Zweierpotenz angegeben, beispielsweise 1KByte = 1 · 210 Byte = 1024 Byte, wobei das große „K“ darauf hinweist, dass hier also Faktor 1024 und nicht 1000 verwendet wird. Da das aber häufig übersehen wird, wurde in der Norm IEC 60027-2 definiert, dass derartige Präfixe den Zusatz binary erhalten. Somit spricht man bei 1024 Byte von einem Kilo-binary Byte oder kurz Kibibyte, abgekürzt KiB. Diese Schreibweise hat sich jedoch noch nicht durchgesetzt.

Je größer die Potenzen werden, desto größer ist auch der prozentuale Unterschied zwischen den beiden Zählweisen. So enthält ein Gibibyte rund 7,4 Prozent mehr Daten als ein Gigabyte. Aus diesem Grund wird beim Verkauf von Festplatten gern der Wert in Gigabyte angegeben, da dieser einen größeren Zahlenwert zeigt (die beim RAM beliebte Erklärung mit den Datenleitungen und der Adressierung trifft hier zwar nicht zu, jedoch sind auch viele Datenstrukturen sowie die Sektorgrößen an den Zweierpotenzen ausgerichtet). Manchmal werden beide Zählweisen sogar vermengt: die gebräuchliche 1,44 MB Diskette hat zum Beispiel tatsächlich eine Kapazität von 1440 Kibibyte (2880 Sektoren mit je 512 Byte), also 1440 · 1024 Byte. Korrekt müsste das als 1,47 Megabyte oder 1,40 Mebibyte angegeben werden. Weitere gängige Einheiten zur Angabe von Datenmengen befinden sich auch unter Speicherkapazität.

Auch in der Informatik selbst ist der Sprachgebrauch nicht eindeutig: Bei Speichermengen werden Byte mit den Präfixen Kilo, Mega usw. im Sinne der Zweierpotenzen verwendet, bei der Datenübertragung jedoch wird in Bit mit Präfixen im Sinne der Zehnerpotenzen gearbeitet.

Das ist schon deshalb sinnvoll, weil nur dann die Umrechnung in andere Maßvorsätze problemlos klappt:

1 MByte/s = 1 kByte/ms = 1 Byte/μs

Weblinks


Theoretische_Informatik

Self-information | Autoinformazione | Zelfinformatie

 

This article is licensed under the GNU Free Documentation License. It uses material from the "Datenmenge".

Home Pageartsbusinesscomputersgameshealthhospitalshomekids & teensnewsphysiciansrecreationreferenceregionalscienceshoppingsocietysportsworld