TẤT TẦN TẬT VỀ HỌC TĂNG CƯỜNG (RL)

Tác giả Kevin Murphy từ Google DeepMind. Kevin đã viết nhiều textbooks về ML/DL được đánh giá cao.

MỘT SỐ KHÁI NIỆM CƠ BẢN

1. Agent:

Khái niệm: Là thực thể tương tác với môi trường và học hỏi thông qua thử và sai (trial and error).

Ví dụ: Một con robot học cách đi, một chương trình AI chơi game, một thuật toán điều khiển xe tự lái.

Giống như một đứa trẻ học cách đi xe đạp, ban đầu sẽ ngã nhiều lần nhưng dần dần sẽ học được cách giữ thăng bằng và đi được.

2. Environment (Môi trường):

Khái niệm: Là hệ thống bên ngoài mà agent tương tác, cung cấp các quan sát (observations) và phần thưởng (rewards) dựa trên hành động (actions) của agent.

Ví dụ: Thế giới thực mà robot di chuyển, trò chơi điện tử mà AI đang chơi, mô phỏng đường phố cho xe tự lái.

Giống như sân chơi (môi trường) mà đứa trẻ đang tập đi xe đạp, cung cấp các phản hồi như mặt đất gồ ghề (quan sát) và cảm giác đau khi ngã (phần thưởng tiêu cực).

3. Policy (Chính sách):

Khái niệm: Là một mapping từ trạng thái (states) sang hành động (actions), quyết định hành vi của agent. Nói cách khác, nó cho agent biết nên làm gì trong từng tình huống.

Ví dụ: Trong trò chơi cờ vua, chính sách có thể là "nếu đối thủ di chuyển quân mã, hãy di chuyển quân xe".

Giống như luật lệ trong một trò chơi, hướng dẫn người chơi cách hành động. Hoặc giống như một cuốn sổ tay hướng dẫn cách sử dụng một thiết bị.

4. Reward (Phần thưởng):

Khái niệm: Là tín hiệu phản hồi dạng số từ môi trường, cho biết mức độ tốt/xấu của hành động mà agent thực hiện.

Ví dụ: Trong trò chơi, điểm số là phần thưởng. Trong việc huấn luyện chó, thức ăn là phần thưởng.

Giống như điểm số trong bài kiểm tra, phản ánh mức độ đúng/sai của câu trả lời. Hoặc giống như lời khen/chê khi bạn làm một việc gì đó.

5. Value Function (Hàm giá trị):

Khái niệm: Là một hàm ước tính tổng phần thưởng tích lũy dự kiến mà agent có thể nhận được từ một trạng thái nhất định hoặc từ một cặp trạng thái-hành động nhất định, dựa theo một chính sách cụ thể.

Ví dụ: Trong cờ vua, hàm giá trị có thể ước tính khả năng chiến thắng (tổng phần thưởng) từ một thế cờ cụ thể.

Giống như việc bạn đánh giá tiềm năng của một khoản đầu tư (tổng lợi nhuận dự kiến) dựa trên tình hình hiện tại.

6. Bellman Equation (Phương trình Bellman):

Khái niệm: Là một phương trình đệ quy (recursive), định nghĩa mối quan hệ giữa giá trị của một trạng thái và giá trị của các trạng thái kế tiếp nó.

Ý nghĩa: Đây là nền tảng toán học quan trọng trong học tăng cường, giúp tính toán hàm giá trị.

Giống như việc bạn tính toán đường đi ngắn nhất từ A đến B bằng cách dựa vào khoảng cách từ A đến các điểm trung gian và từ các điểm trung gian đó đến B.

7. Exploration-Exploitation Trade-off (Cân bằng giữa khám phá và khai thác):

Khái niệm: Là sự đánh đổi mà agent phải đối mặt giữa việc khám phá (exploration) các hành động mới để có thể tìm ra phần thưởng tốt hơn và khai thác (exploitation) các hành động tốt nhất đã biết để tối đa hóa phần thưởng ngay lập tức.

Ví dụ: Khi đi ăn nhà hàng, bạn có thể chọn món quen thuộc mà bạn biết chắc là ngon (khai thác) hoặc thử món mới mà có thể ngon hơn (khám phá).

8. Monte Carlo Methods (Phương pháp Monte Carlo):

Khái niệm: Là các thuật toán học tăng cường ước tính hàm giá trị hoặc gradient chính sách bằng cách lấy trung bình kết quả từ các "quỹ đạo" (trajectories) hoàn chỉnh (từ đầu đến cuối).

Ví dụ: Để ước tính khả năng thắng trong cờ vua từ một thế cờ, bạn có thể cho máy tính chơi từ thế cờ đó rất nhiều lần đến khi kết thúc ván đấu và lấy trung bình kết quả.

Giống như việc bạn tung đồng xu nhiều lần để ước tính xác suất ra mặt ngửa.

9. Temporal Difference (TD) Learning (Học Temporal Difference):

Khái niệm: Là các thuật toán học tăng cường cập nhật hàm giá trị dựa trên sự khác biệt giữa các bước thời gian liên tiếp.

Ý nghĩa: TD learning cho phép agent học ngay sau mỗi bước đi, thay vì phải đợi đến khi kết thúc "quỹ đạo" như Monte Carlo methods.

Giống như việc bạn học chơi một bản nhạc. Bạn không cần phải chơi hết cả bài mới biết mình sai ở đâu, mà bạn có thể nhận ra lỗi sai ngay sau mỗi nốt nhạc và sửa chữa.

10. Q-learning:

Khái niệm: Là một thuật toán TD học ngoài chính sách (off-policy), học hàm giá trị hành động (action-value function - Q-function), cho phép agent chọn hành động tối ưu mà không cần mô hình của môi trường.

Ý nghĩa: Q-learning là một trong những thuật toán học tăng cường phổ biến và hiệu quả.

Giống như việc bạn học cách đi đến một địa điểm mới mà không cần bản đồ. Bạn cứ đi và ghi nhớ con đường nào dẫn đến đích nhanh nhất (giá trị Q cao nhất).

11. Policy Gradient (Gradient Chính sách):

Khái niệm: Là gradient (hướng thay đổi) của hàm mục tiêu (return) theo các tham số của chính sách, được sử dụng để cải thiện chính sách trực tiếp.

Ý nghĩa: Policy gradient là nền tảng của các thuật toán Policy-based RL.

Giống như việc bạn điều chỉnh các nút vặn trên radio để bắt sóng rõ nhất (tối ưu hóa chính sách). Gradient chính sách cho bạn biết nên vặn nút nào và vặn theo hướng nào.

12. Actor-Critic Methods (Phương pháp Diễn viên-Nhà phê bình):

Khái niệm: Là các thuật toán học tăng cường kết hợp giữa phương pháp dựa trên giá trị (value-based) và phương pháp dựa trên chính sách (policy-based). Sử dụng "nhà phê bình" (critic) để ước tính hàm giá trị và "tác nhân" (actor) để tối ưu hóa trực tiếp chính sách.

Ý nghĩa: Kết hợp ưu điểm của cả hai phương pháp value-based và policy-based.

Giống như việc bạn học vẽ tranh với sự hướng dẫn của một giáo viên. Giáo viên (critic) sẽ đánh giá bức tranh của bạn (ước tính giá trị) và bạn (actor) sẽ dựa vào đó để vẽ đẹp hơn (tối ưu hóa chính sách).

13. Model-based RL (Học tăng cường dựa trên mô hình):

Khái niệm: Là các thuật toán học tăng cường học một mô hình về sự vận hành của môi trường và sử dụng nó để lập kế hoạch hoặc cải thiện chính sách.

Ý nghĩa: Có thể giúp agent học nhanh hơn và hiệu quả hơn, đặc biệt trong các môi trường phức tạp.

Giống như việc bạn học cách chơi cờ vua bằng cách nghiên cứu các nước đi của các kiện tướng (học mô hình) và sau đó sử dụng kiến thức đó để lên kế hoạch cho nước đi của mình.

14. Successor Representation (SR - Biểu diễn kế nhiệm):

Khái niệm: Đã giải thích ở câu trả lời trước. Là một biểu diễn nắm bắt tần suất xuất hiện dự kiến của các đặc trưng hoặc trạng thái cụ thể trong tương lai, dựa trên một chính sách nhất định.

Ví dụ: Trong một mê cung, SR có thể cho biết xác suất đến được các ô khác nhau từ ô hiện tại.

Giống như việc bạn dự đoán tần suất bạn sẽ đến các địa điểm khác nhau trong thành phố dựa trên thói quen di chuyển của bạn.

15. Hierarchical RL (Học tăng cường phân cấp):

Khái niệm: Là các phương pháp học tăng cường phân rã các nhiệm vụ phức tạp thành các nhiệm vụ con đơn giản hơn, cho phép học hiệu quả trong không gian trạng thái lớn.

Ý nghĩa: Giúp giải quyết các nhiệm vụ phức tạp mà các phương pháp học tăng cường thông thường khó giải quyết.

Giống như việc bạn chia nhỏ một dự án lớn thành các nhiệm vụ nhỏ hơn và dễ quản lý hơn.

16. Options (Tùy chọn):

Khái niệm: Là các hành động kéo dài theo thời gian, đại diện cho chuỗi các hành động cơ bản, được sử dụng trong Hierarchical RL để cung cấp khả năng kiểm soát ở cấp độ cao hơn.

Ví dụ: Trong robot, một "option" có thể là "đi đến cửa", bao gồm một chuỗi các hành động như "xoay trái", "tiến lên", "xoay phải".

Giống như các kỹ năng trong trò chơi điện tử, mỗi kỹ năng là một chuỗi các thao tác cơ bản.

17. Imitation Learning (Học bắt chước):

Khái niệm: Là các phương pháp học tăng cường học từ các minh họa của chuyên gia, nhằm bắt chước hành vi của chuyên gia.

Ví dụ: Huấn luyện xe tự lái bằng cách cho nó học từ dữ liệu lái xe của con người.

Giống như việc bạn học nấu ăn bằng cách xem video hướng dẫn của đầu bếp.

18. Offline RL (Học tăng cường ngoại tuyến):

Khái niệm: Là các phương pháp học tăng cường học từ một tập dữ liệu kinh nghiệm cố định, mà không cần tương tác thêm với môi trường.

Ý nghĩa: Hữu ích trong các trường hợp mà việc tương tác với môi trường là tốn kém hoặc nguy hiểm.

Giống như việc bạn học lịch sử từ sách giáo khoa (dữ liệu cố định) thay vì trực tiếp trải nghiệm các sự kiện lịch sử.