Was ist Datenkompression? (2023)

Datenkompression ist ein Verfahren zur Reduzierung der Anzahl von Bits, die zur Darstellung von Daten benötigt werden. Durch die Komprimierung von Daten kann Speicherkapazität eingespart, die Dateiübertragung beschleunigt und die Kosten für Speicherhardware und Netzwerkbandbreite verringert werden.

Die Kompression wird von einem Programm durchgeführt, das eine Formel oder einen Algorithmus verwendet, um die Größe der Daten zu verkleinern. Ein Algorithmus kann beispielsweise eine Zeichenfolge von Bits - also 0en und 1en - mit einer kleineren Zeichenfolge von 0en und 1en darstellen, indem er ein Wörterbuch für die Umwandlung zwischen ihnen verwendet. Die Formel kann auch einen Verweis oder Zeiger auf eine Zeichenfolge von 0en und 1en einfügen, die das Programm bereits gesehen hat. Die Textkompression kann so einfach sein wie das Entfernen aller unnötigen Zeichen, das Einfügen eines einzelnen Wiederholungszeichens zur Kennzeichnung einer Zeichenfolge von wiederholten Zeichen und das Ersetzen einer kleineren Bitfolge durch eine häufig vorkommende Bitfolge. Datenkompression kann eine Textdatei auf 50% oder einen deutlich höheren Prozentsatz ihrer ursprünglichen Größe reduzieren. Bei der Datenübertragung kann die Kompression auf den Dateninhalt oder auf die gesamte Übertragungseinheit, einschließlich der Kopfdaten, angewendet werden. Wenn Informationen über das Internet gesendet oder empfangen werden, können größere Dateien - entweder einzeln oder zusammen mit anderen als Teil einer Archivdatei - in einem ZIP-, GZIP- oder einem anderen komprimierten Format übertragen werden.

Warum ist Datenkompression wichtig?

Datenkompression kann die Menge an Speicherplatz, die eine Datei benötigt, erheblich verringern. Zum Beispiel nimmt eine 20 Megabyte (MB) große Datei mit einem Kompressionsverhältnis von 2:1 nur 10 MB Speicherplatz ein. Durch die Kompression sparen Administratoren weniger Geld und weniger Zeit für die Speicherung. Die Kompression optimiert die Leistung der Backup-Speicherung und hat in letzter Zeit auch in der primären Speicherdatenreduktion an Bedeutung gewonnen. Die Kompression wird eine wichtige Methode zur Datenreduktion sein, da die Datenmenge exponentiell weiter wächst. Praktisch jede Art von Datei kann komprimiert werden, aber es ist wichtig, bewährte Verfahren zu befolgen, wenn Sie auswählen, welche Dateien komprimiert werden sollen. Einige Dateien sind möglicherweise bereits komprimiert, sodass die Komprimierung dieser Dateien keine signifikante Auswirkung hätte.

Methoden der Datenkompression: verlustfreie und verlustbehaftete Kompression

Die Komprimierung von Daten kann ein verlustfreier oder verlustbehafteter Prozess sein. Die verlustfreie Kompression ermöglicht die Wiederherstellung einer Datei in ihren ursprünglichen Zustand, ohne dass ein einziges Bit an Daten verloren geht, wenn die Datei entkomprimiert wird. Die verlustfreie Kompression ist der typische Ansatz bei ausführbaren Dateien sowie bei Text- und Tabellenkalkulationsdateien, bei denen der Verlust von Wörtern oder Zahlen die Informationen verändern würde. Die verlustbehaftete Kompression eliminiert dauerhaft Datenbits, die redundant, unwichtig oder kaum wahrnehmbar sind. Die verlustbehaftete Kompression ist bei Grafiken, Audio, Video und Bildern nützlich, bei denen das Entfernen einiger Datenbits kaum oder keine erkennbare Auswirkung auf die Darstellung des Inhalts hat. Die Kompression von Grafikbildern kann verlustfrei oder verlustbehaftet sein. Grafikbildformate sind in der Regel darauf ausgelegt, Informationen zu komprimieren, da die Dateien tendenziell groß sind. JPEG ist ein Bilddateiformat, das die verlustbehaftete Bildkompression unterstützt. Formate wie GIF und PNG verwenden die verlustfreie Kompression.

Kompression vs. Daten-Deduplizierung

Die Kompression wird häufig mit der Daten-Deduplizierung verglichen, aber die beiden Techniken funktionieren unterschiedlich. Deduplizierung ist eine Art von Kompression, die nach redundanten Datenblöcken in einem Speicher- oder Dateisystem sucht und jeden duplizierten Block durch einen Verweis auf das Original ersetzt. Datenkompressionsalgorithmen reduzieren die Größe der Bitfolgen in einem Datenstrom, der viel kleiner ist und in der Regel nicht mehr als das letzte Megabyte oder weniger an Daten speichert. Die deduplizierung auf Dateiebene eliminiert redundante Dateien und ersetzt sie durch Stubs, die auf die Originaldatei verweisen. Die deduplizierung auf Blockebene erkennt doppelte Daten auf der Unterdateiebene. Das System speichert eindeutige Instanzen jedes Blocks, verwendet einen Hash-Algorithmus, um sie zu verarbeiten, und generiert eine eindeutige Kennung, um sie in einem Index zu speichern. Deduplizierung sucht in der Regel nach größeren Datenblöcken als die Kompression, und Systeme können mit einer festen oder variablen Blockgröße deduplizieren. Deduplizierung ist in Umgebungen am effektivsten, in denen eine hohe Menge an redundanten Daten vorhanden ist, wie z.B. bei Virtual Desktop Infrastructure oder Storage-Backup-Systemen. Datenkompression tendiert dazu, effektiver zu sein als Deduplizierung bei der Reduzierung der Größe eindeutiger Informationen wie Bilder, Audio, Videos, Datenbanken und ausführbare Dateien. Viele Speichersysteme unterstützen sowohl Kompression als auch Deduplizierung.

Datenkompression und Backup

Die Kompression wird häufig für Daten verwendet, auf die nicht häufig zugegriffen wird, da der Prozess intensiv sein kann und Systeme verlangsamen kann. Administratoren können die Kompression jedoch nahtlos in ihre Backup-Systeme integrieren. Backup ist eine redundante Art von Arbeitslast, da der Prozess häufig dieselben Dateien erfasst. Eine Organisation, die vollständige Backups durchführt, hat oft nahezu dieselben Daten von Backup zu Backup. Es gibt erhebliche Vorteile bei der Komprimierung von Daten vor dem Backup: Daten nehmen weniger Platz ein, da ein Kompressionsverhältnis von 100:1 erreicht werden kann, wobei zwischen 2:1 und 5:1 üblich sind. Wenn die Kompression in einem Server vor der Übertragung durchgeführt wird, wird die für die Datenübertragung benötigte Zeit und die gesamte Netzwerkbandbreite drastisch reduziert. Auf Band kann das komprimierte, kleinere Dateisystemimage schneller durchsucht werden, um eine bestimmte Datei zu erreichen, wodurch die Wiederherstellungsverzögerung verringert wird. Die Kompression wird von Backup-Software und Bandbibliotheken unterstützt, sodass eine Auswahl an Datenkompressionstechniken zur Verfügung steht.

Vor- und Nachteile der Kompression

Die Hauptvorteile der Kompression sind eine Verringerung der Speicherhardware, der Datenübertragungszeit und der Kommunikationsbandbreite - und die daraus resultierenden Kosteneinsparungen. Eine komprimierte Datei benötigt weniger Speicherkapazität als eine unkomprimierte Datei, und die Verwendung von Kompression kann zu einer erheblichen Verringerung der Kosten für Festplatten und/oder Solid-State-Laufwerke führen. Eine komprimierte Datei benötigt auch weniger Zeit für die Übertragung und verbraucht weniger Netzwerkbandbreite als eine unkomprimierte Datei. Der Hauptnachteil ist der Leistungseinfluss durch die Verwendung von CPU- und Speicherressourcen zur Komprimierung der Daten. Viele Hersteller haben ihre Systeme so konzipiert, dass sie versuchen, den Einfluss der prozessorintensiven Berechnungen, die mit der Kompression verbunden sind, zu minimieren. Wenn die Kompression inline, also vor dem Schreiben der Daten auf die Festplatte, ausgeführt wird, kann das System die Kompression auslagern, um die Systemressourcen zu schonen. IBM verwendet beispielsweise eine separate Hardwarebeschleunigungskarte, um die Kompression bei einigen seiner Unternehmensspeichersysteme zu verarbeiten. Wenn Daten nach dem Schreiben auf die Festplatte oder Flash-Laufwerke komprimiert werden, oder als Post-Process, kann die Kompression im Hintergrund ausgeführt werden, um den Leistungseinfluss zu reduzieren.

References

Top Articles
Latest Posts
Article information

Author: Lidia Grady

Last Updated: 20/11/2023

Views: 5760

Rating: 4.4 / 5 (65 voted)

Reviews: 80% of readers found this page helpful

Author information

Name: Lidia Grady

Birthday: 1992-01-22

Address: Suite 493 356 Dale Fall, New Wanda, RI 52485

Phone: +29914464387516

Job: Customer Engineer

Hobby: Cryptography, Writing, Dowsing, Stand-up comedy, Calligraphy, Web surfing, Ghost hunting

Introduction: My name is Lidia Grady, I am a thankful, fine, glamorous, lucky, lively, pleasant, shiny person who loves writing and wants to share my knowledge and understanding with you.