Fehlermeldung

  • Warning: Missing argument 1 for language_initialize(), called in /kunden/438911_85764/webseiten/xinfo/drupal/acquia-drupal/sites/all/modules/click_heatmap/click_heatmap.module on line 150 and defined in language_initialize() (Zeile 484 von /kunden/438911_85764/webseiten/xinfo/drupal/acquia-drupal/includes/language.inc).
  • Notice: Undefined variable: type in language_initialize() (Zeile 487 von /kunden/438911_85764/webseiten/xinfo/drupal/acquia-drupal/includes/language.inc).
  • Notice: Undefined offset: 3 in _menu_translate() (Zeile 787 von /kunden/438911_85764/webseiten/xinfo/drupal/acquia-drupal/includes/menu.inc).

Big Data


Big Data
Große Datenhaufen, Maschinendaten und Korrelation
Der große Datenhaufen

Es gibt im Internet, irgendwo da draußen, Unmengen von Daten, von denen man nur weiß, dass sie zusammenhängen und dass noch niemand sie ausgewertet hat. Man nennt diesen Haufen Big Data, weil er so riesig und komplex ist, und weil die Menge der Daten kaum geordnet ist.

Big Data ist so groß, das Menschen überfordert damit sind, daraus etwas Sinnvolles zu extrahieren. Bis vor einigen Jahren gab es auch keine wirklich guten Werkzeuge dafür. Traditionelle Datenbankabfragen waren ungeeignet, weil sie den kaum strukturierten Haufen nicht durchdringen konnten; davon abgesehen waren die Computer oft nicht schnell genug.

Heute gibt es bessere Werkzeuge, schnellere Computer und immer mehr Maschinen, die Daten sammeln. Deshalb konnte Big Data zu einem Geschäftsmodell werden. Die Leute haben gemerkt: Da gibt es irgendwo eine große Menge an Daten, die bis jetzt unbearbeitet sind, aus denen wir aber etwas herausholen und damit Geld verdienen können.

Das macht zum Beispiel Facebook zur Zeit schon mit den Daten, die die Benutzer selbst eingeben. Oder Google, oder viele andere, kleinere Unternehmen. Daten aus solchen Quellen werden heute erfolgreich genutzt, wie die benutzerspezifische Werbung in sozialen Netzwerken zeigt. Diese Art der Datensammlung ist nichts wirklich Neues.

Die maschinell erfassten Daten

Das eigentliche, was Big Data ausmacht, sind nicht die Informationen, die die Menschen selber eingeben, sondern die maschinell erfassten Daten. Diese zweite Quelle ist schon jetzt viel größer als die erste. Es geht hier beispielsweise um Sensoren in der Fabrikation oder in Fahrzeugen, Überwachungskameras, Bewegungsprofile über Handys, Verbindungsprotokolle der Telefongesellschaften usw. Diese Daten werden automatisch gesammelt, ohne ihre Inhalte zu kennen, und können wegen ihrer Menge und Komplexität nur noch maschinell ausgewertet werden, nämlich durch passende Algorithmen.

Die Anzahl der Maschinen oder Sensoren, die automatisiert Daten sammeln und ablegen, wird in Zukunft noch viel größer, wenn das Internet der Dinge sich durchsetzt. Damit ist gemeint, dass immer mehr Objekte (Dinge) netzwerkfähig werden und mit dem Internet verbunden sind. Unsere gesamte künstliche Umwelt wird vernetzt werden. Kühlschränke beispielsweise werden auf diese Weise zu Datensammlern. Sie haben Ohren, sie wissen, was sie sammeln, und die Algorithmen werten das aus. Der Prozess der Vernetzung wird sich einige Zeit hinziehen, aber irgendwann werden die Maschinen alle verbunden sein.

Dadurch werden dann erst recht riesige Datenbestände angesammelt, die oft völlig unerforscht bleiben. Die Menge der Daten ist prinzipiell unbegrenzt, denn die Sammelmaschinen werden tendenziell immer schneller und beziehen immer weitere Bereiche unseres Lebens ein – nicht nur in der Produktion, sondern auch im Alltagsleben.

Es ist also ein Missverständnis, Big Data mit Daten aus der ersten Quelle gleich zu setzen, wie es in der Öffentlichkeit oft gemacht wird. Sicher liegt hier die meiste Angst, und das Thema ist in den Medien sehr präsent. Es sind aber die Daten aus der zweiten Quelle, und hier vor allem die Metadaten, wo sich die Suche nach verwertbaren Informationen am meisten lohnt.


Korrelationen

Was aber sind nun die Informationen, die Big Data Auswertungen so interessant machen? Es sind die Wechselbeziehungen zwischen zwei oder mehreren Parametern, oder die Korrelationen. Dabei ist allein durch das Bestehen einer Beziehung noch keine Aussage darüber möglich, ob die Veränderungen eines Parameters die Ursache für die Veränderungen eines anderen Parameters ist. Durch eine Korrelation weiß man nur, dass es eine Beziehung gibt, aber man weiß nicht, warum.

Korrelationen können sehr wertvoll sein. So ist zum Beispiel in einer amerikanischen Auswertung herausgefunden worden, dass Gebrauchtwagen umso länger halten, je exotischer die Wagenfarbe ist. Warum das so ist, weiß niemand, weil man keine Ursache ausfindig machen kann. Niemand würde behaupten, dass die Wagenfarbe die Ursache für längere Haltbarkeit ist. Man weiß aber, dass eine Korrelation existiert, und diese Information ist für Händler und Kunden von großem Wert.

Firmen, die den großen Haufen nach Korrelationen durchforsten wollen, gibt es mittlerweile viele. Sie müssen die Daten maschinell auswerten, wozu sie einen geeigneten Algorithmus brauchen, ganz abgesehen von möglichst schnellen Computern.

Das Geschäft besteht aus zwei Teilen. Zum einen werden Korrelationen gesucht, die schon definiert sind, zum Beispiel dann, wenn man Annahmen über die Wirklichkeit bestätigen will. Zum Beispiel könnte man fragen, ob eine Beziehung zwischen facebook-likes und Parteipräferenz existiert (was sich übrigens inzwischen bestätigt hat). Zum anderen sollen Korrelationen gesucht werden, an die vorher noch niemand gedacht hat. Man weiß dann noch nicht einmal, was man sucht, d.h. welche Frage man beantworten will. Die Algorithmen sollen auch solche Muster finden.

Wenn man EDV-interessierte Menschen nach der Software zur Durchsuchung der großen Datenbestände fragt, wird meistens Hadoop genannt. Es ist ein Framework für Programme, die skalierbar sind und verteilt auf Clustern arbeiten. Vor allem durch den MapReduce-Algorithmus, der von Google entwickelt wurde, kann Hadoop unterschiedlichste Arten von Abfragen und Analysen schnell und parallel durchführen. Zudem ist es eine freie Software. Deshalb wird es immer mehr zu einer preiswerten Standardplattform für die Suche nach verwertbaren Daten in Big Data. Es gibt sicherlich noch eine Menge anderer Anbieter, aber Hadoop hat in seinem Bereich doch schon einen guten Marktanteil erreicht.

Big Data als Geschäftsmodell

Größere Anbieter auch dem Markt für Big Data Analysen sind Firmen wie IBM, Microsoft, SAP oder Oracle und Service Provider wie Accenture, Deloitte oder TCS. Weiterhin gibt es die vielen Open-Source Projekte, die Hersteller von reinen Business-Intelligence- und Analyse-Tools sowie die mittelgroßen und kleinen Infrastruktur-Anbieter.

Im Moment ist es fraglich, ob das oben beschriebene Geschäftsmodell für alle langfristig zum Überleben reicht. Man muss auch sagen, dass die Entwicklung der Software zum Verarbeiten der vielen Daten noch am Anfang steht. Aber hier sind definitiv Fortschritte in den nächsten Jahren zu erwarten, nicht nur auf dem Gebiet der Algorithmen, sondern auch durch Weiterentwicklung der Datenbanktechniken.

Das Thema Big Data selbst wird uns nicht mehr verlassen, denn die Datensammlungen existieren und werden weiter ausgebaut. Auch werden die Sammelmaschinen immer zahlreicher, und es ist nicht abzusehen, dass dieser Trend sich umkehrt.

Weitere Informationen
Gerne beraten wir Sie zu Big Data. Nehmen Sie einfach Kontakt mit uns auf:

Unverbindliche Beacon 
Beratung

Bewerten Sie diese Seite

Average: 5 (215 votes)
4.96/5, Bewertungen: 215