logo
Agentur mit Schwerpunkt Namensentwicklung, Online Marketing & Markenberatung

BÜRO HAMBURG
Grosse Bleichen 21
20354 Hamburg
BÜRO HANNOVER
Podbielskistrasse 333
30659 Hannover
KONTAKT
+49  (0)40  83 50 90 71
kontakt [at] brandkontor.de
Kontaktformular →
FACEBOOK

Was ist Big Data?

Vom Buzzword zum Fachwort
Begriff und Hintergrund im Wandel der Zeit

Heilsbringer, Volksmanipulierer, technokratische Dystopie oder doch Wegweiser im Datenchaos?
Big Data scheidet die Geister. Dabei hat es als Oberbegriff für Orwell’sche Phantasien längst ausgedient.

von Martin J. Schwiezer

 

Wenn ich in der allgemeinen Tagespresse über Big Data, bzw. dessen Einsatz in Wirtschaft oder Politik lese, bin ich immer etwas skeptisch. Weiß der jeweilige Redakteur wirklich, was er da von sich gibt? Oft sind Begriffserklärungen eindimensional, nicht klar von angrenzenden Themenbereichen differenziert oder schlichtweg falsch. Im Bezug auf die technischen Belange sind sauber recherchierte Artikel eher die Ausnahme.

Erschwerend kommt hinzu, dass Hollywood den Begriff Big Data sich nicht schöner hätte ausdenken können. Er klingt spektakulär und die vermeintliche Nähe zu Big Brother weckt Science-Fiction-Fantasien. Zufall? Orwell, Dick und Gibson treiben die Ausführungen geneigter Journalisten oft genug in die Ecke technokratischer Dystopien, was der sachlichen Berichterstattung über Möglichkeiten und Grenzen des Themas entgegenwirkt.

Tatsächlich unterliegt die Bedeutung des Begriffs Big Data einem derart rasanten Wandel, dass sich sogar die englische und die deutsche Wikipedia in wesentlichen Punkten der Definition voneinander unterscheiden (Stand 03/2017). Die deutsche Wikipedia orakelt gar:

Die zunehmende Aufweichung des Begriffs führt dazu, dass er immer mehr ein aussageloser Marketingbegriff wird und vielen Prognosen zufolge innerhalb der nächsten Jahre eine starke Abwertung erfahren wird.

Auch in diesem Fall bin ich mir nicht sicher, ob der Autor weiß, was er von sich gibt, denn eins ist klar: Big Data ist gekommen, um zu bleiben. Viel mehr gilt es, die Evolution des Begriffes zu verfolgen und zu verstehen: Wurde er in den späten 90ern und frühen 2000ern gern als strahlkräftiger Oberbegriff für massive und komplexe Datenbestände, deren Auswertung, bzw. Analyse sowie den ersten Gehversuchen des darauf basierendem, prädiktiven Marketings verwendet, geht die aktuelle Entwicklung dahin, lediglich die reinen Datenbestände und -aggregationen, die eine bestimmte Struktur, Größe und Erhebung aufweisen, als Big Data zu bezeichnen und die Form der Verarbeitung oder Analyse dem Hauptbegriff anzuhängen (Big Data Processing, Big Data Analytics, Big Data Marketing etc.) oder durch einen präziseren Begriff zu ersetzen (Microtargeting, Behavioural Analytics etc.). Auch wenn Big Data trivial weiterhin gern als Oberbegriff gesehen und korrekt für Datenaggregationen mit bestimmten Spezifikationen verwendet wird, hat (und hatte) der Begriff ohne ergänzende, bzw. präzisierende Ausführung keine reale Bedeutung in der Prozessbeschreibung.

Dies vorausgeschickt, will ich der Eingangsfrage ‚Was ist Big Data?‘ natürlich keine Antwort schuldig bleiben:

Datenproduzent Mensch

 

Unabhängig davon, ob sie tatsächlich erfasst werden, produziert jeder Mensch schier endlose Mengen an Informationen. Permanent. Selbst wenn Sie sich faul auf dem Sofa räkeln, ist Ihre reine Präsenz eine Flut an potentiell verwertbaren Daten: Position, Fokus, Körpertemperatur, Atemfrequenz, gewähltes Fernsehprogramm, Pulsfrequenz, Blutdruck, Mageninhalt, …die Auswirkungen des Fernsehprogramms auf Blutdruck, Pulsfrequenz und Mageninhalt.

Man ahnt, allein die Menge sämtlicher, theoretisch erfassbarer, physischer und medizinischer Daten ist geeignet, das monatliche Datenvolumen Ihres Handyvertrags in Sekunden in den Traffic-Limiter zu katapultieren.

Ins quasi Unvorstellbare rückt die Menge der theoretisch erfassbaren Informationen, wenn Sie mit Personen oder Inhalten interagieren: Wie, wann und wo interagieren Sie? Mit wem reden Sie, warum und worüber? Wofür interessieren Sie sich? Mit wem stehen Sie und Ihr Gegenüber noch in Verbindung? Wie ist Ihre Meinung zu X und zu Y? Mit wem teilen Sie diese Meinung? etc. Es ist diese immense Menge an Daten, die das erste big in Big Data ausmacht.

Die generierten Daten werden dabei in zwei Basiskategorien unterteilt: Frei geschriebene Texte (Mails, Kommentare etc.), Bilder, Videos und Voice-Messages (bzw. generell Ton) werden als unstrukturierte Daten bezeichnet, während konkret abfragbare Informationen strukturierte Daten darstellen. Das zweite big in Big Data ist die Tatsache, dass im Gegensatz zu den meisten herkömmlichen Datenaufkommen, Big Data nicht auf spezifische Inhalte, Strukturen oder Formate begrenzt ist.

Ging zu schnell? Okay, merken Sie sich einfach, dass man von strukturierten Daten spricht, wenn diese tabellarisch darstell-, bzw. abfragbar sind (z.B. Alter, Geschlecht, Größe, Telefonnummer, GPS-, bzw. Bewegungsdaten etc.). Kann der Informationsgehalt von Daten jedoch nicht tabellarisch abgefragt werden (Bilder, freie Texte, Videos, Ton), handelt es sich um unstrukturierte Daten. Diese Trennung ist wichtig, weil beide Kategorien unterschiedlich komplex und fehleranfällig in der Analyse, bzw. Verarbeitung sind.

Ferner ist festzuhalten, dass die vorgenannten Daten dynamisch sind. Das hört sich nicht nur flott & trendy an, sondern ergibt sich aus der Tatsache, dass die Menge der Daten A) stetig wächst und sich B) Informationen je nach Zeitpunkt ihrer Erhebung widersprechen können. Will heißen, wenn sie heute ein großer Helene Fischer-Fan sind, bedeutet das nicht, dass sie sich das in zwei Jahren immer noch antun. Und die beeindruckende Geschwindigkeit, mit der sich diese Daten kumulieren und variieren können, macht das dritte big in Big Data aus.

Die drei Bigs die Big Data wahrhaftig groß machen, sind also die Menge, die flexible Struktur und die Geschwindigkeit der Daten. Freunde des Anglizismus sprechen auch von 3V: Volume, Variety & Velocity. In den finalen Jahren der Buzz-Phase des Begriffs wurden noch zwei weitere Vs hinzugefügt (Veracity und Value), die aber für die Basisdefinition keinen echten Mehrwert darstellen.

Das wäre es im Großen und Ganzen. Ein paar Dinge sollte man noch erwähnen, bevor wir uns zu einer validen Definition durchringen: Der offensichtliche Fall ist die Verwendung von Big Data für die Betrachtung, Analyse und Prädiktion menschlichen Verhaltens. Dies ist jedoch keine Voraussetzung, denn Big Data wird z.B. auch in der IT für Prozessoptimierungen genutzt, in der Meteorologie für Wetter-, bzw. Klimaforschung usw. Die Definition sollte also flexibel auf diverse Systeme anwendbar sein:

Big Data ist eine erhebliche Menge an dynamischen, strukturierten und unstrukturierten Daten über eine hohe Anzahl individueller Entitäten.

Nicht mehr, aber vor allem auch nicht weniger ist die Definition von Big Data. Lassen Sie sich nicht irritieren, wenn man Ihnen weitere Bedeutungen aufschwatzen will, wie z.B. Angaben über den Erhalt der Zuordnungsfähigkeit der Daten, ethische Zusammenhänge, Datenschutz, Privatsphäre etc. All diese zählen zu angrenzenden Themenfeldern, die aber erst mal nichts mit der reinen Definition zu tun haben. Des weiteren steckt in dem Begriff auch kein Rückschluss auf die tatsächliche Verwendung oder Analyse der Daten.

Anders ausgedrückt: Wenn Sie wissen wollen, was ein Auto ist, so hat die Definition nichts mit Unfallstatistiken, CO2-Ausstoss oder Insassensicherheit zu tun (obwohl all dies Themen sind, für die Sie sich vielleicht durchaus interessieren, wenn Sie erst mal wissen, was ein Auto ist).

FAZIT

Big Data hat sich präzisiert und als generalisierter, bzw. allgemeiner Oberbegriff für Prozesse, die zur Verarbeitung von Massendaten gehören ausgedient. An seine Stelle sind entsprechend spezialisierte Fachbegriffe, wie Predictive Analytics, Microtargeting etc. getreten, die Verfahren detaillierter umschreiben (und von denen wir eine Auswahl in kommenden Blogs vorstellen werden). Zusammenfassend kann man aber bereits feststellen, dass die Bedeutung von Big Data als Buzzword abnimmt, aber als Fachbegriff gewinnt, da es das Fundament jeder weiteren Auswertung, bzw. Analyse der entsprechenden Massendaten beschreibt.

Der Bericht hat Ihnen gefallen?

Wenn Sie Brandkontor mögen, dann hinterlassen Sie uns doch ein Like auf Facebook. Wir würden uns freuen.



Über den Autor:

Martin J. Schwiezer beschäftigt sich seit den frühen 90er Jahren leidenschaftlich mit Medien und Online-Communities. Nach dem Jura-Studium arbeitete er mehrere Jahre als Medienproduzent für die Berliner Pixelpark AG und ab 1996 für die Bertelsmann AG. 1999 gründet er die Reakktor Media GmbH mit der er 2001 Neocron als einziges, jemals in Deutschland entwickeltes Online-Rollenspiel veröffentlichte (drei Jahre vor dem Massenphänomen World of Warcraft). Bis heute hat Schwiezer die Produktion von über zwanzig Media-Apps, Online-Games und -Plattformen geleitet. Zuletzt Ende 2016 das eSports & Online-Game TOXIKK, welches Reakktor über das Distributionsportal STEAM published. Seit Anfang 2017 ist er mit der Schwiezer System GmbH auch bei Brandkontor engagiert.