Course Summary:
Đối tượng:
Chuyên gia về khoa học dữ liệu
Chuyên gia Phân tích dữ liệu
Kỹ sư phần mềm
Mục tiêu khoá học:
Khoá học nhằm trang bị cho học viên kiến thức và kỹ năng để có thể:
Giải thích được 2 khái niệm cơ bản rất cơ bản đối với RL: Markov Decision/Reward Process và Bellman Optimality Equation
Giải thích các thuật toán RL khác nhau: Monte Carlo, Temporal-Difference learning, SARSA và Q-Learning
Hiểu cách chính thức hóa một nhiệm vụ như một vấn đề của RL
Áp dụng các thuật toán RL khác nhau để cho phép một tác nhân tìm hiểu cách thực hiện các hành động / quyết định tối ưu một cách tự động.
|
Course Duration: 5 ngày (~40 giờ)
Course Content:
- Markov Decision Process
- Bellman Equation
- Dynamic Programming
- Monte Carlo methods
- Temporal Difference - SARSA(0) and Q-Learning
- Policies including equiprobable, ϵ-greedy and GLIE