Was ist Big Data? Und wie wird es eingesetzt?

Was ist Big Data? Und wie wird es eingesetzt?


Bei unseren Kollegen von Afterbuy haben wir einen schönen Artikel über das Buzzword „Big Data“ gefunden. Er dient als gute Einführung in das Themenfeld „Big Data“.

Bereits seit einigen Jahren wird das Thema Big Data von den Medien hoch gehandelt. Immer wieder werden Fälle vorgestellt, in denen es Unternehmen geschafft haben, mit Hilfe von sehr großen Datenmengen einen Wettbewerbsvorteil zu erlangen. Gleichzeitig wird dabei der Untergang all jener prophezeit, die es nicht schaffen, Big Data nutzbar zu machen. Es ist also nicht verwunderlich, dass Big Data von vielen als heiliger Gral angesehen wird: Er bringt die Erlösung, aber keiner weiß, wo er ist und ob es ihn überhaupt gibt. Mit diesem Artikel möchte ich einen großen Überblick geben, was sich hinter dem Begriff Big Data eigentlich verbirgt und wie Big Data zur Anwendung kommt.

Was ist Big Data?

Wenn ich in einer Gruppe von Onlinehändlern das Wort Big Data fallen lasse, gibt es genau zwei Reaktionen:

  • Ich werde mit großen Augen wie ein Messias angesehen
  • Mir wird Bullshit-Bingo vorgeworfen

Dabei kann ich beide Reaktionen verstehen. Verfolgt man seit ein paar Jahren einschlägige IT-, Wirtschafts- oder Internetwirtschafts-Medien, stößt man unweigerlich in jedem zweiten Artikel auf das Wort Big Data. Gleichzeitig erhält man aber so gut wie keine Hinweise, wie Big Data wirklich in Unternehmen eingesetzt werden kann. Stattdessen wird ein Horrorszenario für diejenigen entworfen, die bisher nicht Big Data nutzen.

Dabei ist Big Data in erster Linie nur ein Oberbegriff unter dem sich seit ein paar Jahren Bestrebungen vereinen, Geschäftsentscheidungen auf einer breiten Datenbasis zu treffen. Wer Bullshit-Bingo beitreiben möchte, nennt diese Vorgehensweise „data-driven“.

Big Data – Eine Definition

Um dem ambivalenten Begriff Big Data eine grundlegende Bedeutung zu geben, bemühe ich mich einer Definition von Gartner aus dem Jahre 2011, die sich selbst auf eine Analyse von Doug Laney aus dem Jahre 2001 stützt. Laney hat die Herausforderung von Big Data in einem dreidimensionalen Modell abgebildet mit den Dimensionen Volume (Volumen), Velocity (Geschwindigkeit) und Variety (Vielfalt).

Volumen beschreibt die Menge der Daten, die gespeichert werden. In der Studie „EMC Digital Universe“ von 2014 stellte das Beraterunternehmen EMC2 in Zusammenarbeit mit dem Forschungsunternehmen IDC fest, dass sich das weltweite Datenvolumen bis zum Jahre 2020 verzehnfacht haben wird, von 4,4 Billionen Gigabyte im Jahre 2014 auf 44 Billionen Gigabyte im Jahre 2020. Des Weiteren wurde herausgefunden, dass die Datenmengen schneller wachsen als die Verfügbarkeit von Speichermedien.

Eine größere Herausforderung, als die Masse an Daten, ist die Geschwindigkeit, mit der sie erzeugt werden. Wie bereits erwähnt, hält die Herstellung von Speichermedien nicht mit der Erschaffung neuer Daten Schritt. Treiber dieser Geschwindigkeit sind neben den unzähligen Interaktionen von Internetnutzern, auch Sensoren in verschiedensten Gegenständen. Bisher machen die Daten dieser Sensoren nur 2% der weltweiten Datenmenge aus, doch bereits im Jahr 2020 werden etwa 14% aller weltweiten Daten von solchen Sensoren sein.

Die dritte Dimension, die Laney angeführt hat, ist die wichtigste für die Definition von Big Data: Die Vielfältigkeit der Daten. Daten werden nicht nur als Zahlen abgespeichert, die normiert in Tabellen zusammengefasst und ausgewertet werden. Diese Daten gibt es auch heute noch und sie werden meist als strukturierte Daten bezeichnet. Hinzu kommen weitere halbstrukturierte und unstrukturierte Datenströme hinzu, wie etwa Textdaten aus sozialen Netzwerken oder E-Mails. Diese Vielfalt stellt die technische Umsetzung vor ein sehr großes Problem. Bisher gängige Datenbank-Systeme waren auf eine Speicherung und Auswertung von strukturierten Daten ausgelegt.

Seit dem Jahr 2001, in dem Leary diese Definition postuliert hat, hat sich eine vierte Dimension herauskristallisiert: Veracity. Veracity beschreibt die Vertrauenswürdigkeit der Daten und der darauf basierenden Entscheidungen. Während klassische Data Warehouses und Business Intelligence Systeme auf präzisen und genauen Datenbasen gründen, ist diese bei den enormen Datenmengen, wie sie bei Big Data verarbeitet werden, nicht mehr möglich. Per Definition können die weiter oben genannten unstrukturierten Daten nicht präzise sein. Somit können Unternehmen heute keine Ressourcen mehr darauf verwenden, alle für Entscheidungen genutzten Daten zu bereinigen und zu präzisieren. Der Aufwand ist schlicht und ergreifend zu groß.

Die 4 Dimensionen von Big Data: Volume, Velocity, Variety, Veracity

Big Data lässt sich in 4 Dimensionen beschreiben. Das Volumen, die Geschwindigkeit mit der die Daten erzeugt werden, die Unterschiedlichkeit der Daten, wie die Vertrauenswürdigkeit die durch Ungenauigkeit beeinträchtigt wird.

Und was ist nun der Sinn der Datensammlung?

Die Definition von Big Data alleine gibt jedoch keine Antwort darauf, was der Sinn hinter der Datensammlung ist. Diesen erhält man erst, wenn man noch zwei weitere Begriffe ins Spiel bringt: Artificial Intelligence und Machine Learning. Künstliche Intelligenz, die auf den Algorithmen des Machine Learnings basieren, benötigt Daten, um Schlüsse ziehen zu können und selbstständig Entscheidungen zu treffen. Klingt irgendwie gruselig, wenn ich schreibe, dass Maschinen Entscheidungen treffen, nicht wahr?! Doch das geschieht bereits seit Jahren. Wenn Sie die Amazon Website aufrufen, erhalten Sie Produktempfehlungen, die auf Basis Ihrer Verkaufshistorie, Ihrer Interessen, bzw. angesehenen Artikel und eventuelle auch auf Ihrem Verhalten außerhalb von Amazon beruhen. Eine Big-Data Architektur aggregiert alle Daten und ermöglicht der künstlichen Intelligenz einer sogenannten „Recommendation-Engine“, diese zielgerichtet auszuwerten. Die daraus gewonnenen Informationen werden genutzt, um Ihnen sowie auch allen anderen Amazon Besuchern persönliche Empfehlungen auszuliefern. Je mehr Sie sich auf der Seite von Amazon bewegen, desto mehr Daten hat der Algorithmus bereits über Sie gesammelt, um Ihre persönlichen Empfehlungen noch besser anzupassen. Amazon ist übrigens eines der Unternehmen, die bereits seit langem Big Data nutzen, um ihre Kunden besser zu verstehen und für diese einen besseren Service zu bieten.

Was ist das Ziel von Big Data?

Amazon ist ein gutes Beispiel dafür, welchen Nutzen Big Data richtig angewandt bringen kann. Kaum ein Unternehmen versteht seine Kunden so gut wie Amazon. Der Leitsatz „Start with the customer and work backwards“ impliziert, dass man den Kunden genau kennt. Nur wer weiß, wer seine Kunden sind, welche Interessen sie haben, welche Wünsche sie haben, kann seine Leistung entsprechend planen und anbieten. Im Grunde genommen ist dies nichts Neues. Die Wünsche und Interessen der Kunden zu verstehen, ist seit jeher der Ansatz des Marketings. Die Besonderheit liegt heute darin, dass nicht „die Kunden“ verstanden werden, sondern jeder einzelne Kunde als Individuum. Jeder Kunde wird wirklich individuell angesprochen. Bei Amazon sieht vermutlich bei keinen zwei Kunden die Empfehlungen gleich aus.

Facebook ist ein weiteres Beispiel dafür, wie Big Data kundenorientiert genutzt wird. Der Activity Stream bzw. die Timeline einer jeden Person ist individuell auf seine Interessen ausgerichtet. Datenpunkte sind Freunde, Likes, Kommentare, Klicks und vieles mehr. Facebooks Anspruch ist es, seinen Usern immer genau den Inhalt zu zeigen, der die größte Relevanz für den einzelnen User hat. Dafür muss Facebook seine User extrem gut kennen. Wie gut Facebook darin ist, zeigen Analysen der hauseigenen Soziologen, die mit sehr hoher Wahrscheinlichkeit Geschlecht, ethnische Herkunft oder die Rauchgewohnheit jedes Users vorhersagen können.

Erfolgreiche Anwendungen von Big Data am Beispiel Target

Schwangerschaftsvorhersage von Target

Mit Hilfe von Big Data war Target in der Lage, am Kaufverhalten seiner Kundinnen zu erkenne, ob eine Frau schwanger war und in welcher Schwangerschaftswoche sie sich vermutlich befand.

Auch andere Unternehmen haben bereits mithilfe der Verarbeitung von sehr großen Datensammlungen erfolgreiche Kampagnen erstellen können. Zu einer der bekannteren Aktionen in den USA zählt die Schwangerschaftsvorhersage von Target. Target ist einer der größten Retailer in Amerika. Jeder Kunde hat eine Kundenkarte mit einer einzigartigen ID, ist dementsprechend identifizierbar. Eine der Aktionen, aus denen Target mehr Daten gewinnen wollte, war die Kampagne für werdende und junge Mütter. Kunden konnten sich auf einer sogenannten „Baby-Shower Seite“ registrieren. Baby-Shower sind Willkommensparties für die kleinen Neugeborenen. Auf dieser Seite konnten Frauen auch freiwillig ihren errechneten Geburtstermin angeben, was viele Besucherinnen auch getan haben. Target wusste nun also, welche seiner Kundinnen schwanger ist und wann vermutlich die Niederkunft sein würde. Ein Team schaute sich daraufhin das Kaufverhalten der identifizierten Kundinnen an. So fand beispielsweise ein Analyst heraus, dass Frauen Ende des zweiten Trimesters größere Mengen an unparfümierten Lotionen kauften. Ein anderer Analyst sah ein Muster darin, dass schwangere Frauen um die 20. Schwangerschaftswoche herum vermehrt Nahrungsergänzungsmittel wie Kalzium, Magnesium oder Zink kauften. Die Analysen liefen auf einen sogenannten Schwangerschafts-Score hinaus, der auch den wahrscheinlichen Geburtstermin hervor sagen konnte. Dieser Score konnte nun auf die gesamte Kundschaft angewandt werden und so zugeschnittene Angebote für werdende Mütter per Post oder per Mail zugeschickt werden.

Target erreichte mit dieser Kampagne jedoch nur einen zweifelhaften Ruhm, denn eines Tages stürmte ein Vater in den nächstgelegenen Target-Store und beschwerte sich darüber, dass seine 16-jährige Tochter ständig Werbung für Schwangerschaftsartikel bekäme. Er fragte empört, ob Target denn seine Tochter zur Schwangerschaft drängen wolle. Der Shop-Manager konnte sich das nicht erklären und versprach Aufklärung. In einem späteren Telefonat des Shop-Managers mit dem Vater, in dem sich der Shop-Manager nochmals entschuldigen wollte, kam dann heraus, dass die Tochter ihrem Vater die Schwangerschaft verheimlicht hatte.

Erfolgreiche Anwendungen von Big Data am Beispiel Netflix

Ich hatte in diesem Beitrag bereits kurz die Recommendation-Engine von Amazon angesprochen. Auch andere Unternehmen nutzen einen ähnlichen Algorithmus, um ihren Kunden weitere Produkte des eigenen Produktportfolios anzubieten. So auch Netflix.

Weniger bekannt ist allerdings, dass Netflix auch für seine Eigenproduktionen Big Data nutzt. Wieder steht der Kunde im Fokus. Netflix versucht seine Kunden bestmöglich zu verstehen, um das eigene Programm auf die Wünsche der Zuschauer bestmöglich zuzuschneiden. Insbesondere bei den finanziell riskanten Eigenproduktionen versucht Netflix durch Analysen der eigenen Kunden Fehlinvestitionen zu vermeiden. Das wohl bekannteste Beispiel ist die Serie „House of Cards“. Der Produktion sind Suchverhaltens-Analysen der Netflix-Kunden vorausgegangen, die deutliche Präferenzen für Polit-Serien, sowie den Schauspieler Kevin Spacey und den Regisseur David Fincher ergaben. Dass die Serie also ein großer Erfolg wurde, war nicht alleine dem geschickten Händchen des Produzenten zu verdanken, sondern war das Auswertungsergebnis vieler Millionen Suchanfragen in den Netflix-Apps.

Die Nachteile von Big Data am Beispiel des Google Flu Trends

Google Flu Trends als Beispiel einer Big Data Anwendung

Auch wenn der Dienst heute abgeschaltet ist, war der Flu Trends Service von Google einer der ersten bekannten Anwendungsfälle von Big Data.

Google Flu Trends war einer der ersten Big Data Anwendungen, die es in den Fokus der Öffentlichkeit schafften. Das besondere an Google Flu Trends war die Tatsache, dass Google den Ausbruch einer Grippe oder grippeähnlichen Krankheiten bis zu 10 Tage früher vorhersagen konnte, als das Center for Disease Control and Prevention (CDC) in den USA. Google nutzte dazu die Eingabe von Suchbegriffen in die Google Suchmaschine. Vermehrten sich regional grippeverwandte Suchbegriffe, vermutete der Algorithmus von Google Flu Trends den Ausbruch einer Grippewelle. Die anfänglich sehr akkuraten Ergebnisse wurden von der Presse aufgenommen und das Projekt wurde weltweit bekannt.

Weniger bekannt ist aber, dass der Algorithmus in den Jahren 2011 bis 2013 kontinuierlich den Ausbruch von Grippewellen in den USA überbewertete. Die Gründe für das Versagen des Algorithmus waren aber nicht falsche Berechnungen, sondern die gestiegene Angst der Bevölkerung vor gefährlichen Grippeerregern wie der Vogelgrippe. Durch die gestiegene Aufmerksamkeit für grippeähnliche Symptome und die damit verbundene Angst vor einer gefährlichen Krankheit wurden viel häufiger die ausgewerteten Suchbegriffe in die Suchmaschine eingegeben, als es zu Beginn der Flu Trends der Fall war.

Auch wenn der Service inzwischen von Google eingestellt wurde, kann er dennoch als Erfolg gewertet werden. So hat das Institute of Cognitive Science in Osnabrück die Idee des Algorithmus aufgenommen und weiterentwickelt. Um die Genauigkeit des Algorithmus zu verbessern, werden nun auch Daten aus den sozialen Medien mit denen des CDC abgeglichen.

Was bedeutet Big Data für Sie als Onlinehändler?

Nachdem Sie nun eine kleine Einführung in das große Thema Big Data erhalten haben, fragen Sie sich zu Recht, was das nun für Sie als Onlinehändler bedeutet. In erster Linie bedeutet das ein Paradigmenwechsel. Entscheidungen sollten nicht mehr einzig und alleine aus dem Bauch heraus getroffen werden. Dinge sollten nicht gemacht werden, weil man das schon immer so gemacht hat. Vielmehr gilt es jetzt seine Entscheidungsfindung auf Daten zu gründen. Dabei haben Sie als Onlinehändler den Vorteil, dass fast jede Interaktion mit Ihren Kunden Daten generiert, die Sie auswerten können. Wie Sie dies tun können, lesen Sie im „Smart-Data Artikel“ in diesem Blog.

Kategorien