AlphaGo Zéro - AlphaGo Zero

AlphaGo Zéro est une version de DeepMind de Go logiciel AlphaGo . L'équipe d'AlphaGo a publié un article dans la revue Nature le 19 octobre 2017, présentant AlphaGo Zero, une version créée sans utiliser les données de jeux humains, et plus puissante que toute version précédente. En jouant à des jeux contre lui-même, AlphaGo Zero a dépassé la force d' AlphaGo Lee en trois jours en remportant 100 parties à 0, a atteint le niveau d' AlphaGo Master en 21 jours et a dépassé toutes les anciennes versions en 40 jours.

La formation de l'intelligence artificielle (IA) sans ensembles de données dérivés d'experts humains a des implications importantes pour le développement d'une IA dotée de compétences surhumaines, car les données d'experts sont "souvent coûteuses, peu fiables ou tout simplement indisponibles". Demis Hassabis , co-fondateur et PDG de DeepMind, a déclaré qu'AlphaGo Zero était si puissant parce qu'il n'était "plus limité par les limites de la connaissance humaine". De plus, AlphaGo Zero a obtenu de meilleurs résultats que les modèles standard d'apprentissage en profondeur par renforcement (tels que les implémentations DQN) en raison de son intégration de la recherche d'arbre Monte Carlo. David Silver , l'un des premiers auteurs des articles de DeepMind publiés dans Nature sur AlphaGo, a déclaré qu'il est possible d'avoir des algorithmes d'IA généralisés en supprimant le besoin d'apprendre des humains.

Google a ensuite développé AlphaZero , une version généralisée d'AlphaGo Zero qui pouvait jouer aux échecs et au Shōgi en plus du Go. En décembre 2017, AlphaZero a battu la version 3 jours d'AlphaGo Zero en remportant 60 matchs à 40, et avec 8 heures d'entraînement, il a surpassé AlphaGo Lee sur une échelle Elo . AlphaZero a également battu un programme d'échecs de premier plan ( Stockfish ) et un programme de haut niveau Shōgi ( Elmo ).

Entraînement

Le réseau neuronal d'AlphaGo Zero a été formé à l'aide de TensorFlow , avec 64 processeurs GPU et 19 serveurs de paramètres CPU. Seuls quatre TPU ont été utilisés pour l'inférence. Au départ, le réseau de neurones ne savait rien de Aller au-delà des règles . Contrairement aux versions antérieures d'AlphaGo, Zero ne percevait que les pierres de la planche, plutôt que d'avoir quelques rares cas de bord programmés par l'homme pour aider à reconnaître les positions inhabituelles de la planche Go. L'IA s'est engagée dans un apprentissage par renforcement , jouant contre elle-même jusqu'à ce qu'elle puisse anticiper ses propres mouvements et comment ces mouvements affecteraient le résultat du jeu. Au cours des trois premiers jours, AlphaGo Zero a joué 4,9 millions de matchs contre lui-même en succession rapide. Il a semblé développer les compétences nécessaires pour battre les meilleurs humains en quelques jours seulement, alors que le précédent AlphaGo avait pris des mois d'entraînement pour atteindre le même niveau.

À titre de comparaison, les chercheurs ont également formé une version d'AlphaGo Zero à l'aide de jeux humains, AlphaGo Master, et ont découvert qu'il apprenait plus rapidement, mais qu'il fonctionnait en fait moins bien à long terme. DeepMind a soumis ses premières conclusions dans un article à Nature en avril 2017, qui a ensuite été publié en octobre 2017.

Coût du matériel

Le coût matériel d'un seul système AlphaGo Zero en 2017, y compris les quatre TPU, a été estimé à environ 25 millions de dollars.

Applications

Selon Hassabis, les algorithmes d'AlphaGo sont susceptibles d'être les plus bénéfiques pour les domaines qui nécessitent une recherche intelligente à travers un énorme espace de possibilités, tels que le repliement des protéines (voir AlphaFold ) ou la simulation précise de réactions chimiques. Les techniques d'AlphaGo sont probablement moins utiles dans des domaines difficiles à simuler, comme l'apprentissage de la conduite automobile. DeepMind a déclaré en octobre 2017 qu'il avait déjà commencé à travailler activement pour tenter d'utiliser la technologie AlphaGo Zero pour le repliement des protéines, et a déclaré qu'il publierait bientôt de nouvelles découvertes.

Accueil

AlphaGo Zero était largement considéré comme une avancée significative, même par rapport à son prédécesseur révolutionnaire, AlphaGo. Oren Etzioni de l' Allen Institute for Artificial Intelligence a qualifié AlphaGo Zero de "résultat technique très impressionnant" à la fois pour sa capacité à le faire et pour sa capacité à entraîner le système en 40 jours, sur quatre TPU. The Guardian a appelé une « percée majeure pour l' intelligence artificielle », citant Eleni Vasilaki de l' Université de Sheffield et Tom Mitchell de l' Université Carnegie Mellon , qui l'a appelé un exploit et un « accomplissement d'ingénierie exceptionnelle » respectivement. Mark Pesce de l'Université de Sydney appelé AlphaGo Zero « une grande avancée technologique » nous emmenant en « territoire inconnu ».

Gary Marcus , psychologue à l'Université de New York , a averti que pour autant que nous sachions, AlphaGo peut contenir "des connaissances implicites que les programmeurs ont sur la façon de construire des machines pour jouer à des problèmes comme le Go" et devra être testé dans d'autres domaines avant d'être sûr que son architecture de base est efficace à bien plus que jouer au Go. En revanche, DeepMind est "confiant que cette approche est généralisable à un grand nombre de domaines".

En réponse aux rapports, le professionnel sud-coréen du Go, Lee Sedol, a déclaré : « La version précédente d'AlphaGo n'était pas parfaite, et je pense que c'est la raison pour laquelle AlphaGo Zero a été créé. Concernant le potentiel de développement d'AlphaGo, Lee a déclaré qu'il devra attendre et voir, mais a également déclaré que cela affecterait les jeunes joueurs de Go. Mok Jin-seok , qui dirige l'équipe nationale sud-coréenne de Go, a déclaré que le monde du Go avait déjà imité les styles de jeu des versions précédentes d'AlphaGo et créé de nouvelles idées à partir d'eux, et il espère que de nouvelles idées sortiront d'AlphaGo Zero. . Mok a également ajouté que les tendances générales dans le monde du Go sont désormais influencées par le style de jeu d'AlphaGo. "Au début, c'était difficile à comprendre et j'avais presque l'impression de jouer contre un extraterrestre. Cependant, ayant beaucoup d'expérience, je m'y suis habitué", a déclaré Mok. "Nous avons maintenant dépassé le point où nous débattons de l'écart entre la capacité d'AlphaGo et les humains. C'est maintenant entre les ordinateurs." Mok aurait déjà commencé à analyser le style de jeu d'AlphaGo Zero avec des joueurs de l'équipe nationale. "Bien que n'ayant regardé que quelques matchs, nous avons eu l'impression qu'AlphaGo Zero joue plus comme un humain que ses prédécesseurs", a déclaré Mok. Professionnel du Go chinois, Ke Jie a commenté les réalisations remarquables du nouveau programme : « Un AlphaGo d'auto-apprentissage pur est le plus fort. Les humains semblent redondants face à son auto-amélioration.

Comparaison avec les prédécesseurs

Configuration et solidité
Versions Matériel de jeu Classement Elo Allumettes
Ventilateur AlphaGo 176 GPU , distribués 3 144 5:0 contre Fan Hui
AlphaGo Lee 48 TPU , distribués 3 739 4:1 contre Lee Sedol
Maître AlphaGo 4 TPU, une seule machine 4 858 60:0 contre des joueurs professionnels ;

Sommet du futur du Go

AlphaGo Zero (40 jours) 4 TPU, une seule machine 5 185 100:0 contre AlphaGo Lee

89:11 contre AlphaGo Master

AlphaZéro (34 heures) 4 TPU, une seule machine 4 430 (est.) 60:40 contre un AlphaGo Zero de 3 jours

AlphaZéro

Le 5 décembre 2017, l'équipe de DeepMind a publié une préimpression sur arXiv , présentant AlphaZero, un programme utilisant l'approche généralisée d'AlphaGo Zero, qui a atteint en 24 heures un niveau de jeu surhumain aux échecs , au shogi et au Go , battant les programmes champions du monde, Stockfish , Elmo et la version 3 jours d'AlphaGo Zero dans chaque cas.

AlphaZero (AZ) est une variante plus généralisée de l' algorithme AlphaGo Zero (AGZ) et est capable de jouer au shogi et aux échecs ainsi qu'au Go. Les différences entre AZ et AGZ incluent :

  • AZ a des règles codées en dur pour définir les hyperparamètres de recherche .
  • Le réseau de neurones est désormais mis à jour en permanence.
  • Les échecs (contrairement au Go) peuvent se terminer par une égalité ; donc AZ peut prendre en compte la possibilité d'un match nul.

Un programme open source , Leela Zero , basé sur les idées des papiers AlphaGo est disponible. Il utilise un GPU au lieu des TPU sur lesquels s'appuient les versions récentes d'AlphaGo.

Les références

Liens externes et lectures complémentaires