Close

Course Summary:

Đối tượng: Chuyên gia về khoa học dữ liệu Chuyên gia Phân tích dữ liệu Kỹ sư phần mềm Mục tiêu khoá học: Khoá học nhằm trang bị cho học viên kiến thức và kỹ năng để có thể: Giải thích được 2 khái niệm cơ bản rất cơ bản đối với RL: Markov Decision/Reward Process và Bellman Optimality Equation Giải thích các thuật toán RL khác nhau: Monte Carlo, Temporal-Difference learning, SARSA và Q-Learning Hiểu cách chính thức hóa một nhiệm vụ như một vấn đề của RL Áp dụng các thuật toán RL khác nhau để cho phép một tác nhân tìm hiểu cách thực hiện các hành động / quyết định tối ưu một cách tự động.

Course Duration: 5 ngày (~40 giờ)


Course Content:

  • Markov Decision Process
  • Bellman Equation
  • Dynamic Programming
  • Monte Carlo methods
  • Temporal Difference - SARSA(0) and Q-Learning
  • Policies including equiprobable,  ϵ-greedy and GLIE