AlphaZero – Ein Computerprogramm, das von selbst lernt

alphazero

AlphaZero ist ein Computerprogramm, das von DeepMind entwickelt wurde, um Spiele wie Go, Shogi und Schach zu gewinnen. Der Algorithmus, der hinter AlphaZero steckt, ist ähnlich wie der von AlphaGo Zero. Er lernt im Wesentlichen von selbst und verwendet eine Tabellenbasis mit einer lächerlichen Anzahl von Zügen.

AlphaZero ist ein maschinenlernender Algorithmus

AlphaZero ist ein Computerprogramm, das den Wert eines Zustands sowie die Wahrscheinlichkeitsverteilung der bestmöglichen Züge aus diesem Zustand vorhersagt. Es ist ein Beispiel für einen maschinell lernenden Algorithmus. Der Algorithmus verwendet zwei Köpfe und mehr als 800 Simulationen pro Zug, um zu lernen, wie er seine Wertfunktion optimieren kann.

Der Erfolg von AlphaZero ist ein Beweis für die Leistungsfähigkeit von Algorithmen des maschinellen Lernens. Er demonstriert die Leistungsfähigkeit von neuronalen Netzwerkfunktionen und der geführten Monte-Carlo-Baumsuche, zwei Methoden des Deep Learning. Kurz gesagt, es zeigt, wie diese Ansätze die Leistung einer Maschine in Spielen wie Schach und Go verbessern können.

Um ein optimales Schachsystem zu entwickeln, wendet AlphaZero denselben Deep-Learning-Algorithmus an, der auch von AlphaGo Zero verwendet wird. Mit der gleichen Netzwerkarchitektur und den gleichen Algorithmuseinstellungen ist AlphaZero ein unglaublich genauer und leistungsstarker Computer. Er kann in vielen Spielen jeden Menschen übertreffen.

In einer kürzlich durchgeführten Studie verglichen Forscher/innen die Leistung von AlphaZero mit menschlichen Spieler/innen in so unterschiedlichen Spielen wie Go, Shogi und Schach. Während die meisten menschlichen Spieler sich auf einen einzigen Eröffnungszug konzentrieren, probierte AlphaZero in der Anfangsphase eine Vielzahl von Eröffnungszügen aus. So konnte sich der Algorithmus an verschiedene Regeln in einer Vielzahl von Spielen anpassen.

AlphaZero lernt von selbst

Ein Algorithmus, der von selbst lernt, könnte eines Tages helfen, Quantencomputer zu bauen. Forscher/innen der Universität Aarhus, Dänemark, haben ihre Ergebnisse kürzlich in der Zeitschrift Nature Quantum Information veröffentlicht. Das Forschungsteam unter der Leitung von Professor Jacob Sherson entwickelte den AlphaZero-Algorithmus zur Steuerung eines Quantensystems.

AlphaZero ist in der Lage, Spiele wie Schach, Shogi und Go ohne menschliches Wissen zu lernen. Es hat sich sogar gezeigt, dass es spezielle Computerprogramme schlagen kann. In einer Studie lernte die Maschine, vier Stunden lang gegen sich selbst zu spielen und besiegte das führende Schachprogramm Stockfish. Es war so gut, dass der dänische Großmeister Peter Heine Nielsen AlphaZero mit einer überlegenen außerirdischen Rasse verglich.

In anderen Tests war AlphaZero in der Lage, menschliche Spieler in Schach, Shogi und Go zu schlagen. Es brauchte zwei Stunden, um Shogi zu lernen, und acht Stunden, um Go zu meistern. Die Software hat auch die Regeln mehrerer beliebter Videospiele gelernt. Es ist wirklich erstaunlich, wie viel dieses Computerprogramm selbständig lernen kann!

AlphaZeros System der Selbstverbesserung funktioniert über zwei Hauptmechanismen. Zuerst spielt es ein Spiel gegen sich selbst, um aus seinen Fehlern zu lernen. Dann nutzt es diese Informationen, um sein Spiel zu verbessern. So kann es seine Gesamtleistung verbessern und sogar die besten menschlichen Spieler/innen schlagen. Außerdem verwendet es einen Monte-Carlo-Baum-Suchalgorithmus, der der Art und Weise ähnelt, wie Menschen lernen.

AlphaZero hat auch gezeigt, dass es einen ganz besonderen Spielstil hat. Er ist dynamisch, unorthodox und kreativ. Schachexperten haben Tausende von AlphaZeros Partien analysiert.

Es verwendet lächerlich große Tabellen mit Zügen

Der Algorithmus hinter AlphaZero ist eine allgemeine Monte-Carlo-Baumsuche. Bei jeder Suche wird versucht, Züge mit einer geringen Anzahl von Besuchen, einer hohen Wahrscheinlichkeit und einem hohen Wert zu finden. Er gibt dann eine Wahrscheinlichkeitsverteilung über die Züge zurück. Diese Methode ist radikal einfach, aber sie erfordert eine große Datenbank mit Zügen.

AlphaZero durchsucht 60.000 Positionen pro Sekunde in Schach und Shogi. Das ist viel langsamer als bei Elmo und Stockfish, aber es gleicht diese Langsamkeit aus, indem es ein tiefes neuronales Netzwerk verwendet, um sich auf die vielversprechendsten Varianten zu konzentrieren. Das macht AlphaZero wohl menschenähnlicher als Elmo oder Stockfish. In Tests hat AlphaZero mehr als 97% der Spiele gegen Stockfish und 46% gegen Elmo mit 1/100 der Zeit gewonnen.

Eine weitere interessante Eigenschaft von AlphaZero ist seine Fähigkeit, kurzfristige und langfristige Pläne zu machen. Er opfert oft Material im frühen Spiel, um langfristige Gewinne zu erzielen. Großmeister haben diese Idee nie ernst genommen, aber AlphaZero konnte den Beweis für das Konzept in einer Schachpartie erbringen.

Der Algorithmus von AlphaZero verwendet auch eine nichtlineare Auswertung. Er verwendet tiefe neuronale Netze, die eine leistungsfähigere Bewertungsfunktion bieten können. Allerdings kann diese Technik im schlimmsten Fall zu größeren Generalisierungsfehlern führen. Das Verfahren wird mit der Alpha-Beta-Suche kombiniert und verwendet einen expliziten Minimax-Algorithmus. Sie nutzt ein trainiertes Netzwerk, um den Monte-Carlo-Baumsuchalgorithmus zu steuern. Mit diesem Algorithmus kann AlphaZero einen Bruchteil der Positionen durchsuchen, die traditionelle Schachengines berücksichtigen. Er kann 60 Tausend Positionen pro Sekunde durchsuchen, während Stockfish 60 Millionen Positionen durchsuchen kann.

Neuronales Netzwerk nutzt partielle Informationsumgebungen in Brettspielen

Alpha Zero nutzt Teilinformationsumgebungen in Brettspielen, um seine Entscheidungsfindung zu verbessern. Die Algorithmen von Alpha Zero haben sich bei Spielen wie Poker, Go und Schach als effektiv erwiesen. Der Algorithmus basiert auf einer verallgemeinerten Monte-Carlo-Baumsuchmethode und Deep Reinforcement Learning. Das System kann in kurzer Zeit lernen, diese Spiele zu spielen, indem es bis zu 5.000 Tensor Processing Units einsetzt.

AlphaZero approximiert auch die bekannten Materialwerte von Schachfiguren. Es erkennt zum Beispiel Läufer korrekt als wertvoller als Springer. Die Schätzungen für die Figuren sind bei allen Varianten des Spiels vergleichbar. Allerdings führen Varianten, die die Mobilität der Bauern erhöhen, zu niedrigeren relativen Werten für andere Figuren. Deshalb ist ein Zwei-Bauern-Tausch für AlphaZero oft vorteilhaft.

Außerdem betonten die Forscher, dass die partielle Informationsumgebung in einem Tensor kodiert ist und AlphaZero helfen kann, seine Leistung zu verbessern. In einem ergänzenden Papier haben die Forscher auch die Details der Forschung dargestellt. Die Forscher verwendeten ein neuronales Netzwerk fth (parametrisch parametrisiert durch th), das zustandsspezifische Eingaben (Zustände des Brettes) erhält. Das neuronale Netzwerk erzeugt zwei Ausgaben: einen kontinuierlichen Wert, der den Zustand des Brettes darstellt, und einen Wahrscheinlichkeitsvektor, der die Menge der möglichen Aktionen repräsentiert.

AlphaZero zeigte übermenschliche Leistungen in einer Reihe von Brettspielen, darunter Schach, Go und Shogi. Der Computer konnte Schachpartien mit nur wenigen Zügen gewinnen, also mit einem Bruchteil der Züge, die ein Mensch braucht, um zu gewinnen. Das System könnte auch für eine Vielzahl anderer Aufgaben nützlich sein, z. B. für die Entwicklung von Medikamenten, Mathematik und Materialdesign.

alphazero

AlphaZero besiegt Stockfish in Schach

AlphaZero, eine von DeepMind entwickelte Schachengine, besiegte die Weltmeisterprogramme AlphaGo Zero, Elmo und Stockfish in einem zeitgesteuerten 100-Spiele-Turnier. AlphaZero basiert auf künstlicher Intelligenz (KI) und lernt die Strategie durch „Selbstspiel“. Nachdem er die Grundregeln des Schachspiels gelernt hatte, spielte AlphaZero Millionen von Partien gegen sich selbst und setzte nach und nach seine eigene Strategie zusammen.

Um Stockfish zu besiegen, verwendete AlphaZero einen neuen Ansatz, der den menschlichen Einfluss im Schach ausschaltet. Herkömmliche Schachengines treffen Entscheidungen auf der Grundlage von Tausenden von Regeln, aber AlphaZero ersetzt diesen menschlichen Einfluss durch eine KI-Engine, die nur den Spielregeln folgt. Sie hat 28 von 100 Partien gewonnen und nie verloren.

AlphaZero ist in der Lage, Spielzüge zu erkennen, die Stockfish nicht in Betracht ziehen würde. So könnte AlphaZero zum Beispiel einen Bauern auf der g-Linie opfern, um Stockfish einzuschränken. Oder AlphaZero könnte einen Zug machen, um die Größe einer Figur auf einer bestimmten Datei zu verringern. Wenn AlphaZeros Argumentation richtig ist, könnten herkömmliche Schachengines den Zug zwar herausfinden, müssten ihn aber genauer analysieren.

AlphaZero hat kürzlich Stockfish 15, die stärkste Schachengine, besiegt. Sie nutzt verschiedene Optimierungs- und Planungsmethoden, um menschliche Spieler auszustechen. Sie wurde von einem Schachgroßmeister im Laufe eines Jahrzehnts entwickelt. AlphaZero war nicht quelloffen, sondern wurde von Grund auf neu entwickelt und lernte aus den Partien, die es spielte. Der neue Algorithmus ist weitaus leistungsfähiger als Stockfish und es ist unwahrscheinlich, dass AlphaZero in nächster Zeit von einem menschlichen Schachgroßmeister besiegt wird.