mich interessiert die Frage, wie rollouts der bots genau funktionieren und wie verlässlich die Ergebnisse tatsächlich sind.
Ich klaue mal Thomas' Antwort und präzisiere noch ein bißchen:
Der Bot spielt eine gewisse Anzahl von Spielen (Trials) von der auszurollenden Position ausgehend gegen sich selbst
bis zum Ende der Partie*, hält die Ergebnisse fest und errechnet daraus die Equity der Position bzw. der einzelnen Züge,
indem er das arithmetische Mittel der Ergebnisse bildet, also die Summer der Ergebnisse durch die Anzahl der Trials teilt.**
*: Es gibt auch die truncated Rollouts, bei denen der Bot die Position nur eine i.d.R. kleine, wählbare Anzahl von Zügen weiter spielt. Hier im Forum sind truncated Rollouts aber ziemlich unüblich. Üblich dagegen ist es, einen Rollout-Trial abzubrechen, wenn eine Stellung erreicht ist, die in den Endspieldatenbanken verzeichnet ist. In diesem Fall geht man davon aus, dass der Bot in der Abbruchposition sehr genau weiß, wie groß die theoretische Equity ist.
**: Die Ergebnisse, die gemittelt werden, sind bei Moneygame einfach die Spielwerte am Ende des Spiels und bei Matchplay die Einträge der Match-Equity-Tabelle für den neu erreichten Spielstand. Für truncated Rollouts werden stattdessen die bestmöglichen Schätzungen des Bots angesetzt. Außerdem sind fast alle Rollouts variance reduced, was bedeutet, dass alles in Wahrheit viel komplizierter ist, aber: ein sehr langer (viele Trials) variance-reduced Rollout kommt (also konvergiert) zum exakt gleichen Ergebnis wie ein sehr langer nicht-variance-reduced Rollout.
und wie verlässlich die Ergebnisse tatsächlich sind.
Ein ausreichend langer nicht-truncated Rollout (also einer mit genügend Trials) beantwortet exakt die Frage: "Welche Entscheidung wäre jetzt am besten, wenn direkt nach der Entscheidung beide Seiten genau so weiterspielen würden, wie es der Bot tut, der den Rollout vornimmt?"
Das ist natürlich normalerweise nicht die Frage, die einen eigentlich interessiert, denn das wäre ja wahlweise "Welche Entscheidung wäre jetzt am besten, wenn direkt nach der Entscheidung beide Seiten perfekt weiterspielen würden?" oder "Welche Entscheidung wäre jetzt am besten, wenn beide Seiten ganz normal menschlich entsprechend ihrer speziellen Fähig- und Unfähigkeiten weiterspielen würden?"
Die Hoffnung, dass die eigentlich beantwortete Frage ungefähr die gleiche Antwort hat wie die interessanten Fragen, ist theoretisch erst mal genau das: eine Hoffnung. Zumindest in Bezug auf die erste der interessante Frage haben wir keine Möglichkeit zu überprüfen, ob unsere Hoffnung berechtigt ist.
Andererseits sind Rollouts natürlich momentan mit Abstand das Beste, was wir haben, um hoffen zu können, perfektes Spiel zu sehen. Schon die Bewertungsstufen der Bots sind in der Analyse besser als die besten Menschen, und Rollouts setzen da noch einmal erhebliche Qualität oben drauf.