Toán tin vuotlen.com

6 phần cơ bản trong Q-learning

Thành phần Ví dụ về game xe leo dốc
  1. Goal: Mục tiêu.
  2. Enviroment: Môi trường.
  3. State: Trạng thái.
  4. Action: Hành động.
  5. Reward: Phần thưởng.
  6. Terminal state: Trạng thái dừng.
  1. Goal: Đến được chỗ cắm cờ.
  2. Enviroment: Con dốc và xe.
  3. State: Trạng thái của xe có 2 thông tin: tọa độ của xe theo trục x và vận tốc xe.
  4. Action: 3 loại: Sang trái, sang phải và đứng yên.
  5. Reward: Mỗi bước đi không đến cờ trừ 1 số điểm, đến cờ thưởng 100 điểm.
  6. Terminal state: Trang thái dừng: (khi đến được cờ hoặc quá số bước limit).