Ich habe ein paar Nachrichtenartikel über AlphaGo gelesen und sie alle erwähnen, dass AlphaGo besser wurde, als er zuerst menschliche Spiele spielte und dann Spiele gegen sich selbst spielte. Eine Sache, die mich interessiert, ist: Wie hat sich AlphaGo verbessert? Ändert es Variablen im Code? Oder ändert es seinen Code, indem er es selbst schreibt? Oder haben die Schöpfer es hinzugefügt? Wie lernt es eigentlich? Eine generalisierte Antwort ist in Ordnung, da es nur für mein Allgemeinwissen ist.AlphaGo verbessert sich
Vielleicht missverstehe ich das ganze Konzept, Nachrichtenartikel neigen dazu, ein breites und manchmal falsches Verständnis zu geben. Etwas Klarheit wäre toll oder Links zu nützlichen Informationen.
Ich denke, die Schlüsselwörter, die Sie lesen müssen, sind "überwachtes Lernen" und "unüberwachtes Lernen". Aber ich kenne AlphaGo nicht, sie haben vielleicht eine ganz andere Technik benutzt. – biziclop
AlphaGo verwendete eine Fülle von Lernalgorithmen, aber der Teil "Spielen gegen sich selbst" verwendete einen [Verstärkungslernen] (https://en.wikipedia.org/wiki/Resperforcement_learning) Algorithmus – BlackBear
Maschinenlernprogramme speichern einen Trainingssatz, dh Daten Deskriptoren mit "Entscheidungsinformationen" und verwenden sie zur Berechnung der Parameter eines Klassifikators. Der allgemeine Rahmen ist gut definiert (vorprogrammierte Trainings- und Klassifikationsalgorithmen), nur der Datensatz entwickelt sich. Es gibt keine Intelligenz in der Box. In diesem speziellen Fall spielte das Programm imaginäre Spiele und nutzte die Ergebnisse für das Selbsttraining. –