Chapter 74 — Learning from Humans

Policy refinement after demonstration

Use of stochastic optimization in the policy-parameters space to refine a skill initially learned from demonstration. Reference: S. Calinon, P. Kormushev, D.G. Caldwell: Compliant skills acquisition and multi-optima policy search with EM-based reinforcement learning, Robot. Auton. Syst. 61(4), 369–379 (2013); URL: http://vimeo.com/13387420

Author name: Sylvain Calinon, Petar Kormushev, Darwin Caldwell
Video ID: 105
Credits: Sylvain Calinon, Petar Kormushev, Darwin Caldwell
GPS coordinate: Latitude =44.474982 , Longitude =8.906511 (link to Google Maps)