La formation de chien aide à apprendre aux robots à apprendre de nouvelles astuces

Avec une technique d’entraînement couramment utilisée pour apprendre aux chiens à s’asseoir et à rester, les informaticiens de l’Université Johns Hopkins ont montré à un robot comment s’enseigner plusieurs nouvelles astuces, y compris l’empilement de blocs. Avec la méthode, le robot, nommé Spot, a pu apprendre en quelques jours ce qui prend généralement un mois.

En utilisant le renforcement positif, une approche familière à quiconque a utilisé des friandises pour changer le comportement d’un chien, l’équipe a considérablement amélioré les compétences du robot et l’a fait assez rapidement pour faire des robots d’entraînement pour le travail réel une entreprise plus faisable. Les résultats ont été récemment publiés dans un article intitulé “Good Robot!”

“La question ici était de savoir comment amener le robot à apprendre une compétence?” a déclaré l’auteur principal Andrew Hundt, un étudiant au doctorat travaillant au laboratoire d’interaction computationnelle et de robotique de Johns Hopkins. “J’ai eu des chiens, donc je sais que les récompenses fonctionnent et c’est ce qui m’a inspiré la façon dont j’ai conçu l’algorithme d’apprentissage.”

Contrairement aux humains et aux animaux nés avec un cerveau très intuitif, les ordinateurs sont des ardoises vierges et doivent tout apprendre à partir de zéro. Mais le véritable apprentissage est souvent accompli par essais et erreurs, et les roboticiens sont toujours en train de comprendre comment les robots peuvent apprendre efficacement de leurs erreurs.

L’équipe a accompli cela en concevant un système de récompense qui fonctionne pour un robot comme les friandises fonctionnent pour un chien. Là où un chien pouvait obtenir un cookie pour un travail bien fait, le robot gagnait des points numériques.

Hundt a rappelé comment il avait enseigné une fois à son chiot terrier, nommé Leah, la commande «laissez-le», afin qu’elle puisse ignorer les écureuils en promenade. Il a utilisé deux types de friandises, des friandises ordinaires pour entraîneurs et quelque chose d’encore mieux, comme du fromage. Quand Leah était excitée et reniflant autour des friandises, elle n’a rien eu. Mais quand elle s’est calmée et a détourné le regard, elle a trouvé les bonnes choses. «C’est à ce moment-là que je lui ai donné le fromage et que je lui ai dit:« Laisse-le! Bonne Leah!

De même, pour empiler des blocs, Spot le robot devait apprendre à se concentrer sur des actions constructives. Au fur et à mesure que le robot explorait les blocs, il a rapidement appris que les bons comportements pour l’empilement gagnaient des points élevés, mais que les mauvais ne gagnaient rien. Tendez la main mais ne saisissez pas un bloc? Pas de points. Renverser une pile? Certainement pas de points. Spot a gagné le plus en plaçant le dernier bloc au-dessus d’une pile de quatre blocs.

La tactique d’entraînement a non seulement fonctionné, mais il n’a fallu que quelques jours pour enseigner au robot ce qui prenait des semaines. L’équipe a pu réduire le temps de pratique en entraînant d’abord un robot simulé, qui ressemble beaucoup à un jeu vidéo, puis en exécutant des tests avec Spot.

“Le robot veut le score le plus élevé”, a déclaré Hundt. “Il apprend rapidement le bon comportement pour obtenir la meilleure récompense. En fait, il fallait un mois de pratique pour que le robot atteigne une précision de 100%. Nous avons pu le faire en deux jours.”

Le renforcement positif a non seulement aidé le robot à apprendre à empiler des blocs, avec le système de points, le robot a tout aussi rapidement appris plusieurs autres tâches – même comment jouer à un jeu de navigation simulé. La capacité d’apprendre des erreurs dans tous les types de situations est essentielle pour concevoir un robot qui pourrait s’adapter à de nouveaux environnements.

“Au début, le robot n’a aucune idée de ce qu’il fait, mais il ira de mieux en mieux à chaque entraînement. Il n’abandonne jamais et continue d’essayer de s’empiler et est capable de terminer la tâche 100% du temps”, a déclaré Hundt.

L’équipe imagine que ces résultats pourraient aider à former des robots ménagers à faire la lessive et à laver la vaisselle – des tâches qui pourraient être populaires sur le marché libre et aider les personnes âgées à vivre de manière autonome. Cela pourrait également aider à concevoir des voitures autonomes améliorées.

«Notre objectif est de développer à terme des robots capables d’effectuer des tâches complexes dans le monde réel, comme l’assemblage de produits, les soins aux personnes âgées et la chirurgie», a déclaré Hager. «Nous ne savons pas actuellement comment programmer des tâches comme celles-là – le monde est trop complexe. Mais un tel travail nous montre que l’idée que les robots peuvent apprendre à accomplir de telles tâches dans le monde réel de manière sûre et efficace est prometteuse. façon.”

L’équipe et les co-auteurs comprenaient également les étudiants diplômés de Johns Hopkins Benjamin Killeen, Nicholas Greene, Heeyeon Kwon et Hongtao Wu; l’ancien étudiant diplômé Chris Paxton; et Gregory D. Hager, professeur d’informatique.

Cette histoire a été publiée à l’origine par l’Université Johns Hopkins. Réimprimé avec permission.

Source : https://thebark.com/content/dog-training-helps-teach-robots-learn-new-tricks

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *