15.06.2016

Sie haben ja keine Daten-Deduplizierung!

Es mag stimmen, dass viele Unternehmen bis zu fünfzig Prozent ihrer elektronisch gespeicherten Information nie wieder benötigen. Schließlich wird über wichtige Files hinaus täglich eine Unmenge bedeutungsloser Daten gespeichert. Auch ist zweifellos richtig, dass sich darunter viele Inhalte finden, die doppelt oder mehrfach gesichert sind. Darum klingt es zunächst überzeugend, wenn vorgeschlagen wird, das Online-Backup gleich mit einer effektiven Deduplizierung der vorhandenen Daten zu verbinden. Dabei werden mehrfach existierende Informationen identifiziert, um sie dann nur ein einziges Mal zu speichern. Eliminiert man so das Überflüssige, lautet das Argument, könnte man neben Speicherplatz auch Geld sparen.

Gefahrenquelle Klartext
So sinnvoll die Idee des Kombinierens von Backup und Deduplizierung im ersten Augenblick scheinen mag, als so gefährlich erweist sie sich bei näherer Betrachtung. Wirklich sicheres Online-Backup erlaubt nämlich keine Deduplizierung. Möchte man Daten deduplizieren lassen, öffnet der Backupserver ausnahmslos alle Dateien, um sie zu untersuchen. Beim diesem Vorgang zerlegt ein als "Fingerprinting" bezeichneter Prozess sämtliche Dateien in "Chunks" genannte Blöcke. Dies dient einer Analyse der einzelnen Segmente auf der Byte-Ebene, um Einheiten mit hohen Wiederholraten aufzufinden. Auf Basis der Ergebnisse ermöglicht dann eine Referenzierung auf das ursprüngliche Element ein Reduzieren der Daten.

Diese Analyse erfordert jedoch, dass die Daten ohne jede Verschlüsselung und Komprimierung im Klartext untersucht werden, weil ansonsten die Eigenschaften der einzelnen Dateien nicht miteinander zu vergleichen sind. Das Öffnen und Lesen jeder Datei bringt im Rahmen des Backups nicht nur einen erheblich höheren technischen Aufwand, der mit steigenden Kosten einhergeht. Gravierender ist dabei noch der Faktor Sicherheit: Das Deduplizieren im Prozess des Online-Bachups ist höchst bedenklich, weil auch inhaltlich höchst sensible Dateien außerhalb des eigenen Hauses als Klartext in Umlauf gelangen.

Schutz und Sicherheit der Daten
Sind die an den Backupserver übertragenen Daten unverschlüsselt, geht damit also ein offensichtliches Risiko einher. Sogar wenn nach dem Entfernen von Redundanzen alle Dateien in verschlüsselter Form gesichert werden, könnten sie doch zuvor von jedem, der Zugriff auf das System hat, eingesehen werden. Mag es auch in der Praxis äußerst selten vorkommen, dass Unbefugte sich abzulegende Informationen im Zug der Übertragung verschaffen, kann alleine die Möglichkeit dazu - unter dem Aspekt des Datenschutzes - zu juristischen Problemen führen. Schließlich macht man auf diese Weise vertrauliche Kundendaten, die man unter bestimmten zugesicherten Bedingungen erhoben hat, potentiell auch unbeteiligten Dritten zugänglich.

Gerade bei geschäftskritischen Daten sowie bei Belegen und Dokumenten, die aus rechtlichen Gründen oder zu Dokumentationszwecken über lange Fristen bereitgehalten werden müssen, ist die optimale Datensicherheit von Bedeutung. So sinnvoll es ist, besondere Daten aus Sicherheitsgründen in Entfernung vom Quellsystem am besten außerhalb des eigenen Hauses zu lagern, so wichtig ist es, dass diese Daten weder bei der Übertragung noch im Archiv jemals im Klartext vorliegen. Statt die Daten zu Zwecken der Deduplizierung zu entschlüsseln, sollen sie im Gegenteil mit den jeweils modernsten Verfahren der Kryptographie verschlüsselt und vor jedem denkbaren Zugriff durch andere geschützt werden.

Weil Datensicherheit beim Backup und Deduplizieren einander ausschließen, halten die auf den Schutz ihrer Dateien bedachten Unternehmen beide Aspekte aus gutem Grund voneinander getrennt.

Praktische Probleme der Deduplizierung

Neben der Frage der Sicherheit, wirft die Deduplizierung der Daten im Rahmen eines Online-Backups auch ganz praktische Probleme auf. Eines davon betrifft unerwünschtes Entfernen oder Überschreiben von Inhalten. Recht häufig existieren in einem Unternehmen mehrere Dateien mit identischen Namen, die jedoch von unterschiedlichen Mitarbeitern betreut werden und auch in ihren Inhalten voneinander abweichen. Werden diese Dateien nun im Rahmen eines Sicherungslaufs an den Backupserver übertragen, prüft und entscheidet dieser, ob einer dieser gleichnamigen Dateien Vorrang vor den anderen zukommt. Bei dieser Kontrolle gibt es in der Regel keinen absoluten Schutz davor, dass noch benötigte Dateien entfernt, durch eine inhaltlich andere Datei mit gleichem Namen überschrieben werden oder ungesichert bleiben. Nicht selten kommt es in diesen Fällen auch zu Fehlermeldungen, die dann von Mitarbeitern überprüft werden müssen. Manuelle Interaktionen, die in solchen Situationen unumgänglich sind, würden die klaren Vorteile eines automatischen Backups natürlich verringern.

Sollte man die Entscheidung, welche Inhalte für die Zukunft einen relevanten Charakter fürs Geschäft besitzen und welche tatsächlich auf Dauer obsolet sind, wirklich einem System überlassen? Wie immer man diese Frage entscheidet, eines ist selbstverständlich: Bevor sich das Problem des Reduzierens von Daten stellt, ist ihre effektive Sicherung erforderlich. Endgültig Verlorenes kann man nicht mehr nach Redundantem durchforsten.

Sparen Sie nicht
an Ihrer
Datensicherheit
"Seit wir GlobalDataProtect einsetzen, können wir gelöschte Dateien jederzeit selbst wiederherstellen"