"100 Milliarden Zeilen pro Sekunde"

The culture industry in the early 21st century

Lev Manovich

2 February 2016

Scuba ist Facebooks ultraschneller Killer-Datenspeicher. Mit seinen 100 Terabytes kann er Tausende von Tabellen speichern. Pro Sekunde wird er um Millionen neuer Zeilen länger, wobei er gleichzeitig ebenso viele löscht. Der Datenfluss beträgt 100 Suchvorgänge pro Sekunde, wobei 100 Milliarden Datenzeilen pro Sekunde gescannt werden und die meisten Antwortzeiten dadurch unter einer Sekunde liegen.
, 2014

Von Interessenten wird die Kulturindustrie gern technologisch erklärt. Die Teilnahme der Millionen an ihr erzwinge Reproduktionsverfahren, die es wiederum unabwendbar machten, daß an zahllosen Stellen gleiche Bedürfnisse mit Standardgütern beliefert werden. […] In der Tat ist es der Zirkel von Manipulation und rückwirkendem Bedürfnis, in dem die Einheit des Systems immer dichter zusammenschießt.
Theodor Adorno/Max Horkheimer, “Die Kulturindustrie: Aufklärung als Massenbetrug”, in: Dialektik der Aufklärung (1944)

Wenn wir Tausende Modelle rasch iterierend einsetzen wollen, müssen wir diese Modelle gleichzeitig lernfähig und treffsicher machen. Dieser Ansatz ermöglicht es Cisco (einem H20-Kunden), alle drei Monate 60.000 Kaufneigungsmodelle zu erproben, sodass Google nicht nur für jedes Individuum ein eigenes Modell erstellen kann, sondern je nach Tageszeit unterschiedliche Modelle für jeden einzelnen User.
Alex Woodie, , 9. Februar 2015

Einer der wichtigsten Aspekte der Big-Data-Revolution ist ihre Auswirkung auf Medien und Kulturindustrie. Ich sage absichtlich nicht “digitale Kultur” oder “digitale Medien”, weil heute schlichtweg alle an der Kulturindustrie Beteiligten digitale Produkte herstellen, die online vertrieben werden. Damit meine ich Spiele, Filme, Musik, Fernsehshows, E-Books, Apps, Online-Werbung und so fort.

Photo: cherezoff. Source:Shutterstock

Firmen wie Amazon, Apple, Spotify oder Netflix vertreiben online Kulturprodukte und Dienstleistungen, Google klassifiziert und macht Informationen abfragbar, Yelp, TripAdvisor etc. geben Empfehlungen ab, Facebook, QQ, WhatsApp, Twitter usw. erleichtern die Kommunikation und den Informationsaustausch, und Instagram, Pinterest, YouTube den medialen Austausch zwischen NutzerInnen. All diese Dienste beruhen auf der rechnerischen Auswertung riesiger Datenmengen und -ströme.1
Zu diesen Daten gehören das Verhalten online (welche Internetseiten werden von wem aufgerufen, welche Hyperlinks werden angeklickt, wo kommt das nächste “gefällt mir” hin, was wird gekauft, welche Daten werden freigegeben usw.), die geografische Ortung (wann wurde wo von wem was in sozialen Medien gepostet), Interaktionen (Online-Spiele) und kulturelle “Inhalte” im engeren Sinn, das heißt Songs, Bilder, Bücher, Filme, Mitteilungen und Posts. Genauso wird die Interaktion zwischen Mensch und Computer – zum Beispiel mittels Spracherkennung – durch die rechnerische Analyse zahlloser Stunden von Datasets mit Sprachbefehlen bewerkstelligt.

Für seinen Suchdienst analysiert Google beispielsweise laufend den gesamten Inhalt samt sogenannter “Markups” von Milliarden Websites. Der Algorithmus scannt jede Internetseite, die er findet, nach Text, Layout, benützten Schriftarten, Bildern usw. ab. Insgesamt betrifft das mehr als 200 Merkmale oder, auch genannt, “Signale”. Streamingdienste analysieren, um Musikempfehlungen abgeben zu können, die Merkmale von Millionen Songs. So haben die Algorithmen der Firma Echonest, die etwa Spotify einsetzt, bis dato 36.774.820 Lieder von 3.230.888 UrheberInnen analysiert. Ebenso erfordert die Spam-Erkennung die Analyse von Unmengen E-Mails, und auch Amazon analysiert die Daten über die Millionen Einkäufe, um den NutzerInnen Bücher zu empfehlen. Kontextsensible Werbealgorithmen wie AdSense wiederum analysieren die Inhalte von Websites, um automatisch passende Werbebanner einblenden zu können. Videospielfirmen nehmen mittels Game-Capture das Verhalten von Millionen SpielerInnen auf, um ihre Spiele optimieren zu können. Und die Algorithmen von Facebook werten alle Updates deiner FreundInnen aus, um daraus zu errechnen, welche dann in deinem Newsfeed verlinkt werden. Und nicht nur von dir, sondern von jedem seiner anderthalb Milliarden NutzerInnen. So hat Facebook nach einer Schätzung 2014 pro Tag mehr als 600 Terabyte an neuen Daten verarbeitet.

Die technische Entwicklung der Algorithmen und Programme, die solche Analysen möglich machen, wird von unterschiedlich spezialisierten InformatikerInnen geleitet, die unter anderem aus den Feldern “Machine-learning”, “Data-mining”, computerisiertem Sehen, “Music-information-retrieval” oder Computerlinguistik kommen. Der unlängst populär gewordene Ausdruck “Data Science” bezeichnet ComputerwissenschaftlerInnen mit höherem Ausbildungsgrad, die nicht nur mit den gängigen Algorithmen und Methoden zur Datenanalyse (“Data-mining”, “Machine-learning”, “KI”) und klassischer Statistik vertraut sind, sondern diese auch zeitgemäß umsetzen können. Um den Fortschritt zu beschleunigen, werden wichtige Programmteile zudem oft zwischen den Firmen ausgetauscht. Am 9. November 2015 gab Google zum Beispiel TensorFlow – das Daten- und Medienanalysesystem, das hinter zahlreichen seiner Dienste steckt – als offene Software frei. Auch andere Programmcodes zur Auswertung großer Datenmengen in Echtzeit wie Cassandra oder Hive (Facebook) wurden mittlerweile öffentlich gemacht.

Die massenstatistische Analyse von Medien in der Kulturindustrie begann um das Jahr 1995 mit den ersten Suchmaschinen und ist seit 2010, als Facebook 500 Millionen NutzerInnen erreichte, Routine. Jeder große Medienkonzern verwendet sie täglich und zunehmend auch in Echtzeit.

Medienanalytik

Die moderne Medienkultur ist, wie man sagen könnte, auf der Big-Data-Stufe angelangt. Es ist dies die nächste Stufe nach dem Buchdruck (seit 1500), dem Rundfunk (seit 1920) und dem Internet (seit 1993). Da es in der Industrie noch kein Wort gibt, das all ihre Aspekte fasst, dürfen wir uns die Freiheit nehmen, sie vorläufig selbst zu benennen. Nennen wir diese Stufe die der Medienanalytik.

Soweit ich weiß, hat noch kein/e GeisteswissenschaftlerIn Medien unter diesem neuen Aspekt untersucht. Erst seit etwa 2013 erleben wir eine verstärkte Diskussion über soziale und politische Aspekte, die mit der Verwendung von Massenkonsum- und Social-Media-Daten und automatisch angewandten Algorithmen einhergehen. Zur Debatte stehen gesetzliche Aspekte von Daten, Privatsphäre, Auswirkungen der Datenanalyse auf unsere Arbeit etc. So finden am New Yorker Data & Society Institute zahlreiche solcher Diskussionen statt. Auch die Konferenz Governing Algorithms 2013 an der NYU oder die Konferenz Digital Labor 2014 an der New School of Social Research sowie die kürzlich gegründete Zeitschrift Big Data and Society zählen zu diesen Initiativen.

Doch in all den Diskussionen zu gesellschaftlichen, gesetzlichen und wirtschaftlichen Themen ist die Art von Medienanalytik, um die es mir hier geht, bislang noch nicht vorgekommen. Für mich bezeichnet diese nicht nur den neuen Zustand der Kulturindustrie, sondern überhaupt eine neue Stufe in der Mediengeschichte. Die algorithmische Analyse von “Kulturdaten” und die Personalisierung von Kulturprodukten gibt es nämlich nicht nur in offensichtlichen Bereichen wie der Suche mit Google oder auf Facebook, sondern auf allen Plattformen und bei allen Diensten, mit denen Menschen heute Kulturgüter austauschen, kaufen oder nutzen.

Zu der Zeit, als Adorno und Horkheimer die Dialektik der Aufklärung schrieben, waren persönliche Beziehungen noch nicht unmittelbarer Teil der Kulturindustrie. In der heutigen “Softwarekultur” hingegen sind auch diese “industrialisiert” – auf Schnittstellen hin normiert, durch bestimmte Konventionen organisiert, mittels sozialer Netzwerke und Messaging-Apps verwaltet. Unsere persönlichen Beziehungen sind gewissermaßen von Algorithmen beeinflusst, die unsere Interaktionsdaten auswerten, um festzulegen, welche Inhalte, Updates und Informationen wir wann zu sehen bekommen.

Warum sage ich “Stufe”? Warum ist das nicht einfach nur ein neuer Trend oder Aspekt der modernen Kulturindustrie? Nun, weil die Datenauswertung der großen Netzwerke wie Facebook nahezu jedes Produkt eines bestimmten Bereichs – zum Beispiel der Musikindustrie – und jedes Nutzerverhalten erfasst. Das ist schlicht die neue Funktionsweise der Medien und der Gesellschaft. Und sie ist massiv, und zwar praktisch wie theoretisch. Jede zukünftige Debatte über Medien- und Kommunikationstheorie wird sich damit beschäftigen müssen.2

Die Firmen, die diese Datenverarbeitung im großen Stil betreiben, sind neuere Internetgründungen wie Google, Amazon, Ebay oder Facebook und nicht mehr die alten Kulturindustrieriesen wie Filmstudios oder Großverlage. Seit 1995 personalisieren und optimieren sie den Vertrieb und die Empfehlungen von Produkten, kurz: das Zielgruppenmarketing. Dieselben Methoden werden, wie gesagt, auch in sozialen Netzwerken und Kommunikationsmedien angewandt. So gesehen sind auch die NutzerInnen dieser Netzwerke füreinander nichts anderes als “Produkte”. Amazons Algorithmen zeichnen auf, welche Produktseiten die NutzerInnen aufrufen, und errechnen daraus individuelle Empfehlungen. Facebook analysiert, was die Leute im Netz tun, um ihre News-Feeds zu personalisieren.3

Medienanalytik stellt demnach die grundlegende “Materie” unserer heutigen Medien dar. Es geht nicht mehr wie in den 2000er-Jahren bloß um Hardware, Datenbanken, Urheberrecht und Softwarevertrieb.4 Heute geht es vielmehr um Techniken wie Hadoop und Storm, um Cluster-Computing, überwachtes “Machine-learning” und noch neuere Trends wie das sogenannte “deep learning” oder Statistikalgorithmen wie k-means oder kNN.5 Materialität besteht heute darin, dass Facebook “100 Milliarden Datenzeilen pro Sekunde durchsucht” und Google mehr als 100 Terabyte Daten am Tag verarbeitet und automatisch “je nach Tageszeit unterschiedliche Modelle für jeden einzelnen User” generiert.6

An dieser Stelle mögen sich die LeserInnen ungeduldig fragen, wann denn endlich meine Kritik kommt. Immerhin erwartet ja man von MedientheoretikerInnen Kritik am Status quo, insbesondere wenn es um neue Technologien geht. Warum spreche ich nicht von “Kapitalismus”, “Warenform”, “Fetischismus” oder “Widerstand”? Ist nicht das Paradigma der Medienanalytik nur ein weiterer Schritt bei der kapitalistischen Rationalisierung von allem und jedem? Wo bleibt mein moralisches Urteil?

Kurz gesagt, es kommt keines. Und zwar weil ich anders als andere MedientheoretikerInnen glaube, dass Computer- und Datenanalysetechniken im Prinzip neutral sind. Sie basieren nicht per se auf bestimmten gesellschaftlichen und ökonomischen Ideologien oder verfolgen gewisse Effekte und sind daher auch nicht automatisch Werkzeuge der kapitalistischen Profitgier. Dieselben Analysealgorithmen – etwa die k-Means-Clusteranalyse oder die Hauptkomponentenanalyse – und Massendatentechniken wie Cassandra oder MongoDB werden bei der Auswertung menschlichen Verhaltens, der Forschung nach Krebsheilmitteln, der Fahndung nach potenziellen TerroristInnen, der Vorauswahl unserer YouTube-Videos, der Analyse des menschlichen Mikrobioms, der Anregung von Menschen zu einem gesunden Lebensstil oder bei Präsidentschaftswahlkämpfen – man denke an Obama 2012 – verwendet. Gewerbliche und gemeinnützige Organisationen nutzen sie ebenso wie die USA, Russland, Brasilien, China. Auch in Tausenden von Apps sind sie eingebaut. Man kann sie also verwenden, um zu überwachen oder zu befreien, um neues Wissen zu generieren oder um Wissen zu beschränken, um neue PartnerInnen zu finden oder um nur noch mehr zu konsumieren.

Das bedeutet freilich nicht, dass die Massendatenverarbeitung und -analyse die Kulturindustrie nicht grundlegend verändert. Es bedeutet auch nicht, dass diese nun weniger “industriell” ist, weil sie etwa weniger straff organisiert ist. Ganz im Gegenteil. Bestimmte Marketing- und Werbemethoden, Interaktionsformen mit KonsumentInnen und Präsentationsarten von Kulturprodukten sind völlig neuartig, und allesamt beruhen sie seit einigen Jahren auf massiver Datenanalytik. Bloß werden die kulturellen Auswirkungen dieser Entwicklung im Gegensatz zu den wirtschaftlichen oder sozialen noch nicht systematisch untersucht, und zwar weder von der Industrie selbst noch von der Wissenschaft. Doch eines sollte klar sein. Dieselben Datensammlungs- und Analysemethoden, die in der Kulturindustrie angewandt werden, lassen sich auch in der Forschung verwenden, um damit wenigstens einige ihrer Auswirkungen auf die Kultur zu eruieren. Solche Forschungen werden nach und nach entstehen, und man kann ihnen schon heute einen Namen geben: rechnerische Medienforschung.

Den Ausdruck "Datenmengen" verwende ich für statische oder historische Daten, die vor ihrer automatischen Auswertung in Datenbanken vorsortiert werden. "Historisch" ist, was die industrielle Datenanalyse durch Software betrifft, alles, was älter als eine Sekunde ist. Datenströme sind Daten, die permanent und sofort analysiert werden, und zwar mit Methoden wie Spark Streaming oder Storm. Grundlage dieser Methoden ist der schnelle Zugriff auf Daten mittels Cassandra, HBase oder MongoDB.

Damit will ich nicht sagen, dass in den Medien seit 1993 technisch nicht noch anderes passiert ist. Man könnte hier weitere wichtige Entwicklungen nennen, wie den Übergang von der hierarchischen Informationssortierung zu Suchalgorithmen, den Aufstieg der sozialen Medien, GPS, mobile Computer, Konsumvorhersage durch Medienverhaltensanalyse, Medienübertragung auf Handys oder den Übergang der Künstlichen Intelligenz zum Machine-learning als ihrer Hauptmethode.

In der aktuellen Standardeinstellung zeigt einem/r Facebook nur eine algorithmisch errechnete Auswahl an Posts, die sogenannten "Top Stories". Diese Einstellung kann freilich geändert werden, indem man Links am News-Feed-Tab "Most Recent" statt "Top Stories" anklickt.

Zur Geschichte und Theorie dieser Software vgl. mein Buch Software Takes Command.

rayli.net/blog/data/top-10-data-mining-algorithms-in-plain-english/

followthedata.wordpress.com/2014/06/24/data-size-estimates/

Published 2 February 2016
Original in English
Translated by Thomas Raab
First published by Springerin 1/2016

PDF/PRINT

Read in: EN / DE