Siege Künstlicher Intelligenz beim Poker: Maschinelles Lernen bei unvollständiger Information

by Dirk Elsner on 6. März 2017

Ob Computer eines Tages wirklich schlauer als Menschen sein werden, ist eine umstrittene Frage. Die sogenannte Singularität, wie wir sie jüngst in den TV-Serien Humans und Westworld sehen konnten, wird vorläufig noch Science-Fiction bleiben, oder doch nicht?

Technologischen Singularität bezeichnet die zu erwartende explosionsartige Vermehrung der künstlichen Intelligenz. Dabei steht die Frage im Mittelpunkt, ob sich Künstliche Intelligenz (KI) “alle intellektuellen Fähigkeiten des Menschen aneignen kann. Wenn das wirklich eintreffen sollte, wäre es mit gewaltigen Auswirkungen auf unser Leben und unsere Gesellschaft verbunden.” (Bernd Vowinkel in: “Kommt die technologische Singularität?”).

Unbestritten ist freilich, dass KI-Systeme viele einzelne Aufgaben besser lösen als der Mensch. Hier wird meist von schwacher KI gesprochen. Starke KI will dagegen die Fähigkeiten des menschlichen Gehirns wie eine Art Biocomputer nachvollziehen, einschließlich des Bewusstseins und der Emotionen. Und natürlich wird im Silicon Valley daran gearbeitet den menschlichen Verstand zu entschlüsseln und die Welt von unzähligen Probleme zu befreien (siehe dazu SZ  “Demis Hassabis Dieser Mann will die ultimative künstliche Intelligenz entwickeln”).

Libratus vs. Mensch

 

Als populäre Beispiel für schwache KI gelten gern Spielpartien gegen die in ihrer jeweiligen Disziplin führenden Spieler. Schon vor über einem Jahrzehnt zurück ist das beim Schach gelungen, im vergangenen Jahr beim Go. Bei diesen Spielen liegen alle Informationen den Spielern vor. Es reicht prinzipiell reine Rechenkraft (also keine Künstliche Intelligenz), um zu gewinnen. Das ist beim Poker anders. Poker ist ein Spiel mit unvollständigen Informationen und „galten bislang als schwer für Computer, da sie stark von Intuition und einer Einschätzung der anderen Spieler abhängen.“ (siehe Johannes Merkert „Poker-KI Libratus kennt kein Deep Learning, ist aber ein Multitalent“)

In einem Turnier, über das Ende Januar berichtete wurde besiegte das KI-System Libratus vier professionelle Poker-Spieler im Texas Hold‘em ohne Limit.“

Der Poker-Bot Libratus wurde zwar mit den Spielregeln programmiert, hat sich dann aber anhand von Milliarden Spielen gegen sich selbst beigebracht, wie man blufft und gewinnt (Details in diesem Paper).

Johannes Merkert fasst auf Heise die Funktionsweise zusammen:

„Die jetzt veröffentlichten Paper zeigen, dass Libratus nicht wie Alpha-Go auf tiefe neuronale Netze setzt, sondern eine Variante der Counterfactual Regret Minimization (CFR) mit Regret Based Pruning (RBP) kombiniert. Es handelt sich damit um klassisches Reinforcement-Learning, bei dem der Entscheidungsbaum der möglichen Spielzüge systematisch auf die Züge eingeschränkt wird, die die KI später mit der geringsten Wahrscheinlichkeit abgleicht.“

DeepStrack vs. Mensch

In der vergangenen Woche ähnelten sich dann die Schlagzeilen. Der Poker-Bot DeepStrack, über den das Wissenschaftsmagazin Science Anfang März berichtete, hat zehn von 11 Profispieler in einer großen Anzahl von Partien deutlich besiegt. Eva Wolfangel schreibt dazu auf Spektrum.de:

“Statt auf rohe Rechenpower zu setzen, arbeite DeepStack mit Intuition, sagt der Forscher. Zudem laufe das Programm auf einem handelsüblichen Laptop und benötige nicht wie Sandholms KI einen Supercomputer. Doch wie kann eine Maschine Intuition haben? Eigentlich ist das eine menschliche Eigenart, mit der Menschen gewissermaßen ihre begrenzte Rechenkapazität ausgleichen: Sie berücksichtigen bei der Entscheidungsfindung nicht alle möglichen Wege, sondern nur diejenigen, auf denen sie mit einer gewissen Wahrscheinlichkeit ihr Ziel erreichen können.

Um diesen Kniff einer Maschine beizubringen, ließ Bowlings Team die DeepStack-Software zunächst zehn Millionen Pokerpartien gegen sich selbst spielen, eine Form von „Deep Learning“ neuronaler Netze. Dabei entwickelte das Computerprogramm laut Bowling eine Art Bauchgefühl, auf das sich auch Profispieler berufen: ein Gespür dafür, welcher Zug in welcher Situation erfolgreich sein könnte, ohne die Folgen der Handlung bis zum Ende des Spiels durchrechnen zu müssen. Die Software berücksichtigte jeweils bloß die nächsten sieben Spielzüge und entschied dann, welche die beste Aktion sei. Auf ähnliche Weise reduzierte die Google-Software AlphaGo bei ihrem Sieg gegen Go-Profis die Entscheidungspunkte.”

Praktische Relevanz und Gefahr

Anwendungsfälle sehen die Wissenschaftler überall dort, wo es um unvollständigen Informationen geht. Sie glauben, man könnte Programme wie Libratus und DeepStack in der Medizin oder bei Verhandlungen einsetzen. Andere Anwendungen werden in der Finanzwirtschaft gesehen, wenn etwa um die Beurteilung der Kreditwürdigkeit geht.

Eva Wolfangel warnte aber bereits 2016 in einem Beitrag für Spektrum:

Je weitreichender die Einsatzgebiete solcher Algorithmen sind, umso gefährlicher sind mögliche Fehlschlüsse oder Ungenauigkeiten solcher Systeme: Das kann jeder sofort nachvollziehen, wenn es beispielsweise ums autonome Fahren oder um die Steuerung automatischer Waffensysteme geht.”

Auf eine besondere Gefahr wiesen in einem sehr lesenswerten Essay Hanno Beck und Aloys Prinz in der FAZ hin. In “Der seltsame Tod der Theorie” (paid content) warnen sie davor, mit Hilfe von Big Data Daten zu analysieren, “ohne Hypothesen darüber zu haben, welche Zusammenhänge man finden könnte.” Sie schreiben u.a.

“Man stürzt sich auf die Zilliarden von Datenbytes, die das Internet bereitstellt, durchkämmt sie mit statistischer Rigorosität nach Zusammenhängen, unabhängig davon, ob es eine plausible theoretische Erklärung für diese Zusammenhänge geben könnte. Im Fachjargon nennt man diese Strategie „Data Mining“. Hat man irgendwelche statistischen Zusammenhänge gefunden, packt man sie in eine Ad-hoc-Theorie – fertig ist der Artikel für ein prestigeträchtiges Journal. Je skurriler, kontraintuitiver der Zusammenhang ist, umso besser. … Google habe nur mit angewandter Mathematik die Werbewirtschaft erobert, ohne etwas über Marketing, Werbung oder Werbekultur zu wissen – Petabytes von Daten erschlagen jede Theorie.”

Beck und Prinz weisen darauf hin, dass zur Entdeckung von Zusammenhängen in Daten statistische Modell notwendig sind. Welches Modell das „richtige“ ist, erledigt Big Data gleich mit “nach den Prinzipien des statistischen Lernens funktioniert; dies wird in der Literatur „Machine Learning“ genannt.”

Previous post:

Next post: