2016-04-21 8 views
1

Ich habe ein paar Nachrichtenartikel über AlphaGo gelesen und sie alle erwähnen, dass AlphaGo besser wurde, als er zuerst menschliche Spiele spielte und dann Spiele gegen sich selbst spielte. Eine Sache, die mich interessiert, ist: Wie hat sich AlphaGo verbessert? Ändert es Variablen im Code? Oder ändert es seinen Code, indem er es selbst schreibt? Oder haben die Schöpfer es hinzugefügt? Wie lernt es eigentlich? Eine generalisierte Antwort ist in Ordnung, da es nur für mein Allgemeinwissen ist.AlphaGo verbessert sich

Vielleicht missverstehe ich das ganze Konzept, Nachrichtenartikel neigen dazu, ein breites und manchmal falsches Verständnis zu geben. Etwas Klarheit wäre toll oder Links zu nützlichen Informationen.

+0

Ich denke, die Schlüsselwörter, die Sie lesen müssen, sind "überwachtes Lernen" und "unüberwachtes Lernen". Aber ich kenne AlphaGo nicht, sie haben vielleicht eine ganz andere Technik benutzt. – biziclop

+1

AlphaGo verwendete eine Fülle von Lernalgorithmen, aber der Teil "Spielen gegen sich selbst" verwendete einen [Verstärkungslernen] (https://en.wikipedia.org/wiki/Resperforcement_learning) Algorithmus – BlackBear

+0

Maschinenlernprogramme speichern einen Trainingssatz, dh Daten Deskriptoren mit "Entscheidungsinformationen" und verwenden sie zur Berechnung der Parameter eines Klassifikators. Der allgemeine Rahmen ist gut definiert (vorprogrammierte Trainings- und Klassifikationsalgorithmen), nur der Datensatz entwickelt sich. Es gibt keine Intelligenz in der Box. In diesem speziellen Fall spielte das Programm imaginäre Spiele und nutzte die Ergebnisse für das Selbsttraining. –

Antwort

0

AlphaGo verwendet maschinelles Lernen.

In Machine Learning haben Sie eine Funktion (zB ax +b), die Sie zu einem Resultat, und Sie stimmen die Parameter dieser Funktion (a und b), so dass das Ergebnis passt mehr und mehr die Beispiele, die Sie haben. Im Falle von AlphaGo hatten sie 2 Funktionen, eine für den nächsten Zug und eine für den Gewinner und beide sind sehr komplex mit vielen tausend Parametern.

Wenn sie ein Spiel zwischen zwei Instanzen von AlphaGo spielten, würden sie das Ergebnis aufnehmen und es als ein Beispiel verwenden, um die Funktionen zu trainieren, so dass die nächste Version noch besser spielt.

Es gibt tolle Tutorials im Internet darüber, wie maschinelles Lernen funktioniert, wenn Sie mehr wissen wollen.

Verwandte Themen