Show Menu
Cheatography

Reinforcement Learning Cheat Sheet Cheat Sheet (DRAFT) by

Reinforcement Learning Cheat Sheet

This is a draft cheat sheet. It is a work in progress and is not finished yet.

Termin­ology

Agent
Pelaku
Reward
Hadiah
Action
Tindakan
State
Keadaan
Enviro­nment
Lingkungan
Eksplo­itasi
Aksi algoritme RL dalam menggu­nakan aksi sebelumnya yang mendapat reward positif.
Ekplorasi
Aksi algoritme RL dalam melakukan aksi berbeda untuk mencari reward positif yang lain.
Policy
Rules (aturan) atau strategi yang digunakan oleh agent untuk melakukan action (A) selanj­utnya, berdas­arkan state (S) saat ini.
Value function (V)
Total nilai jangka panjang yang diharapkan (expected longterm return without discount) dari state saat ini di bawah policy 𝜋. Value ini adalah kebalikan dari short-term reward (R).
Optimal Value Function
Sebuah fungsi yang memiliki nilai tertinggi untuk semua state diband­ingkan dengan fungsi nilai lainnya.
Optimal Policy
Policy (kebij­akan) yang memiliki fungsi nilai optimal.
Model Enviro­nment
Segala sesuatu yang meniru perilaku enviro­nment. Atau, secara umumnya, sebuah kesimpulan tentang bagaimana perilaku dari enviro­nment.
Model Based RL
Model dasar atau paling sederhana dan memiliki perenc­anaan terhadap tindak­annya, atau dapat juga dimaknai sebagai agent mengek­spl­oitasi informasi yang dipelajari sebelumnya untuk menyel­esaikan tugasnya.
Model Free RL
Kebalikan dari model Model Based RL, karena agent belajar dari lingkungan melalui metode trial and error untuk memperoleh pengal­ama­nnya.

Tipe-Tipe Enviro­nment RL:

Determ­inistic enviro­nment
Stochastic enviro­nment
Fully observable enviro­nment
Partially observable enviro­nment
Discrete enviro­nment
Continuous enviro­nment
Episodic and non-ep­isodic enviro­nment
Single and multi-­agent enviro­nment