Das nächste Interface für die digitale Welt wird die Stimme. Die Einstiegsdrogen von Amazon und Google verbreiten sich auch hierzulande schnell, und die Folgen werden so tiefgreifend sein wie beim Smartphone.
Der lustigste deutsche Tweet des Jahres 2017 war ohne Zweifel im November mitten ins Scheitern von Merkels missmutiger Mitregierzentrale hineingeschossen: „Alexa, regiere Deutschland.“
Das ist witzig, weil das Zwiegespräch mit Netzrobotern Normalität geworden ist. Bei der Verbreitung von Technologie gibt es ein wiederkehrendes Muster, ich bezeichne es als „progress of no return“, Fortschritt ohne Wiederkehr: Durchschnittsnutzer spüren, dass sie nicht mehr hinter diesen Standard zurückfallen wollen. Vorherige Anwendungen erscheinen überholt. Wer 2008 ein Smartphone mit Touchscreen in die Hand nahm, spürte, die physische Handy-Tastatur ist alt. Wer bei Musik oder Filmen in den letzten Jahren ins Streamen geriet, dem erschienen dinglich-digitale Datenträger museal. Ähnliches ist bei der Elektromobilität zu erahnen, und jetzt zieht das Reden mit dem Netz herauf, Smart Speaker mit digitalen Assistenten, angetrieben von sogenannter künstlicher Intelligenz.
Es gibt kaum konkrete Verkaufszahlen, nur Andeutungen: Google hat seit Oktober pro Sekunde mehr als einen Google Home verkauft, Amazon zu Weihnachten mindestens 20 Millionen Alexa-Geräte. In Deutschland dürfte die Millionengrenze von Geräten überschritten worden sein. Der „Economist“ erklärte Amazon zur größten Lautsprecherfirma der Welt.
Weihnachten 2017 markiert den Durchbruch der Stimme als Interface für die digitale Welt. Die Folgen werden so tiefgreifend sein wie beim Smartphone, das alles veränderte außer den deutschen Bildungsapparat, der traditionell mit der Geschwindigkeit der Kontinentaldrift auf Veränderungen reagiert. Einem Gerücht zufolge wird Facebook im Mai ein Gerät namens Portal vorstellen, einen Lautsprecher mit Bildschirm und Kamera, der auf Videochats zugeschnitten sein soll. Mit Gesichtserkennung und automatischer Verbindung mit den Facebook-Accounts der Anwesenden. Hört sich gruselig an, aber wenn sich etwas verändert hat in den letzten Jahren, dann die Grenze, ab der Durchschnittspersonen vernetzte Technologien gruselig finden. In jeder deutschen Fußgängerzone wäre man vor 30 Jahren blau geschlagen worden allein für die Frage, ob man eine „Wohnzimmerwanze“ kaufen würde, die jedes Wort nach Amerika funken kann. Bei einer Million Smart Speaker in Deutschland allein von Amazon muss es rein statistisch Leute geben, die in den Achtzigerjahren gegen die Volkszählung protestierten und heute Alexa als Teil der Familie behandeln. Die Weltmacht Bequemlichkeit schlägt alles, sogar deutsche Bedenken.
Einstiegsdroge Echo
In zehn Jahren wird man mit Wehmut und Belustigung auf die Phase schauen, als in der digitalen Sphäre schriftliche Interaktion der Standard war. Tastaturen und Mäuse werden dann noch zur Arbeit verwendet, sonst Sprache und Gesten. Heute stehen Kinder zu Recht verständnislos vor Bildschirmen, die sich erdreisten, keine Touchscreens zu sein oder wenigstens gestengesteuert. Bald wirken Alltagsgeräte, mit denen man nicht sprechen kann, ähnlich gestrig.
Smart Speaker wie Amazons Echo sind Einstiegsdroge und Brückentechnologie, demnächst gehen sie im Rest der Heimtechnik auf. Man spricht einfach in den Raum hinein, und es wird egal sein, welches der Dutzend Mikros die Daten zum Server übertragt. Smart Home ist da, nur anders, es ist kein Gerät, kein bescheuerter Kühlschrank, der Milch nachbestellt, sondern ein Sprachinterface.
Sprachsteuerung ist die bisher niedrigschwelligste Interaktion mit der digitalen Welt. Niedrigschwelligkeit ist ein Wert an sich, sie legt frei, was zuvor unter Mühseligkeit verborgen war. Die meisten Digitalumwälzungen ließen sich schon vor ihrem Siegeszug irgendwie bewerkstelligen, „Mobile Instant Messaging hab ich schon 87 mit verteiltem Echtzeit-Java auf Linuxbasis im IRC compilet!“ Meine Drei-U-Regel: Erst wenn die Zukunft unkompliziert, unnerdig und unanstrengend genug ist, ist sie reif für die Bevölkerung. Wer vor der Erfindung des App Store versucht hat, Software auf dem Mobiltelefon zu installieren, weiß, dass Niedrigschwelligkeit Märkte entstehen lässt, auf Kosten bestehender Märkte.
Digital betreutes Wünschen
„Voice Commerce“ wird eine weitere Herausforderung für den Handel, das Offliner-Argument „Beratung bekommt man nur im Laden!“ zerbröselt. Die Verkäuferin zu Hause hat alles, ist nicht aufdringlich und kennt die Konsumhistorie. „Alexa, ich möchte die Schuhe noch mal, die ich im letzten Herbst gekauft habe. Aber in Rot“, daran arbeitet Amazon. Digitale Assistenten müssen als automatisierte Dauerverkäufer für alles verstanden werden, Voice bedeutet die vollständige Kommerzialisierung jedes Moments, wenn man möchte. Die Leute möchten in Scharen.
Auf Sprachplattformen gerinnt Werbung zum Vertriebsgespräch, Anbieter kaufen Vorschlagsslots. „Es gibt rote Schuhe von Nike, gerade runtergesetzt. Ich schicke sie dir in deiner Größe zu, wenn sie dir nicht gefallen, werden sie kostenlos abgeholt.“ Natürlich werden die Leute das tun, Niedrigschwelligkeit ist ein Schwert, das in beide Richtungen schneidet. Irgendwann gibt man die Gegenwehr auf und redet sich ein, man hätte es eh so gewollt, das hat das Internet vom Kapitalismus gelernt. In China, wo heute die Zukunft des Internet entschieden wird, ist der frühere Whatsapp-Klon WeChat längst auch eine Sprach-Plattform, die mit ihren Apps verschmolzen ist. Auf der Basis cleverer Spracherkennung hat das chinesische Startup iFlytek 500 Millionen Nutzer gewinnen können, das ist sogar für China viel. Jüngste Entwicklung: die App „Kleiner Fliegender Fisch“ ohne visuelles Interface, die das Smartphone in eine Art Alexa für Autofahrer verwandelt.
Dieser „progress of no return“ sieht aus wie die Sprachsteuerung des Internets, eigentlich ist es digital betreutes Wünschen mit einer Konsumfee, die jeden Tag selbstverständlicher, klüger, machtvoller wird. Weil bei Sprachsteuerung kaum mehr als zweieinhalb Vorschläge zweckmäßig sind, ist die algorithmische Vorauswahl so essenziell. Daraus ergibt sich ein Rattenschwanz an Konsequenzen. Wenn man etwa den Smart Speaker mit Spotify verbindet, ist fast jedes Musikstück nur einen Zuruf entfernt, man kann sofort hören, was man will. Allerdings muss man dann auch aktiv wollen. Das ist der Moment, wo man begreift, wie anstrengend es ist, ständig bewusst auszuwählen. Wie sehr Konsum bisher von Gelegenheiten und Zufällen geprägt war. Wie angenehm man sich fallen lassen kann in die weiche Matte algorithmischer Entscheidung.
Alexas Fehler sind Kinderkrankheiten
Schopenhauer schrieb: „Der Mensch kann zwar tun, was er will, aber er kann nicht wollen, was er will.“ Im hyperkomplexen 21. Jahrhundert heißt es: Der Mensch kann in fünf von hundert Dingen sinnvoll tun, was er will, beim Rest fährt er besser mit algorithmischen Vorschlägen, und die Sprachsteuerung offenbart es. Das ist knalltraurig und zukünftig zugleich, denn es ist realistisch. Ein Beispiel: ich.
Die Playlists, die mir Spotify und Soundcloud vorschlagen, sind viel besser, als wenn ich selbst mühsam meine Musik mixen müsste. Musiknerds gehen von sich aus und protestieren, aber meine bittere Laienwahrheit ist: Ich bin ein zu schlechter, zu ahnungsloser, zu fauler DJ für meinen eigenen Musikgeschmack, und ich bin damit nicht allein. Die heutigen Dysfunktionalitäten – Alexa versteht oft lustig schlecht – sind Kinderkrankheiten, Gesprächsstoff für die Kantine, sogar eine Form von Genre-Marketing. Mit jeder Anekdote über einen falsch erkannten Wunsch wird die Funktionalität alltäglicher, die Technologie akzeptierter, der Wunsch, es auszuprobieren größer: Marketing by funny failing.
Die nächste Milliarde Internetnutzer werde vor allem Sprache verwenden, um in der digitalen Sphäre zu interagieren, schrieb das „Wall Street Journal“. Das Netz wandele sich in eine Sprech- und Videolandschaft, manuelle Texteingabe werde zum Sonderfall. Das mag auf manche wirken wie ein Rückschritt, aber es ist das Gegenteil: „progress of no return“, Fortschritt ohne Wiederkehr. Die Plattformkonzerne, die heute für so viele das Netz sind, erobern die älteste Kommunikationsform der Menschheit: das Gespräch. Und alle machen mit. Alexa regiert Deutschland.