روش های یادگیری مبتنی بر نمونه

مدرس Martha White

انتشار 2022/12/12

مدت زمان 3h 1m

سطح مناسب همه

فایل تمرینی ندارد

آموزش Sample-based Learning Methods

در این دوره، با چندین الگوریتم آشنا خواهید شد که می توانند سیاست های نزدیک به بهینه را بر اساس تعامل آزمون و خطا با محیط بیاموزند --- یادگیری از تجربه خود عامل. یادگیری از تجربه واقعی قابل توجه است زیرا نیازی به دانش قبلی در مورد پویایی محیط ندارد، اما هنوز می تواند به رفتار مطلوب دست یابد. ما روش های مونت کارلو ساده اما قدرتمند و روش های یادگیری تفاوت زمانی از جمله یادگیری Q را پوشش خواهیم داد. ما این دوره را با بررسی اینکه چگونه می‌توانیم بهترین‌ها را از هر دو دنیا بدست آوریم، به پایان می‌رسانیم: الگوریتم‌هایی که می‌توانند برنامه‌ریزی مبتنی بر مدل (مشابه برنامه‌نویسی پویا) و به‌روزرسانی‌های تفاوت زمانی را برای تسریع اساسی یادگیری ترکیب کنند. در پایان این دوره شما قادر خواهید بود: - یادگیری تفاوت زمانی و مونت کارلو را به عنوان دو استراتژی برای تخمین توابع ارزش از تجربه نمونه برداری شده درک کنید - اهمیت کاوش را در هنگام استفاده از تجربه نمونه برداری شده به جای برنامه نویسی پویا در یک مدل درک کنید. - ارتباط بین Monte Carlo و Dynamic Programming و TD را درک کنید. - پیاده سازی و اعمال الگوریتم TD، برای تخمین توابع ارزش - پیاده سازی و اعمال Expected Sarsa و Q-learning (دو روش TD برای کنترل) - درک تفاوت بین کنترل درون خط مشی و خارج از سیاست - درک برنامه ریزی با تجربه شبیه سازی شده (به عنوان مخالف استراتژی‌های برنامه‌ریزی کلاسیک) - یک رویکرد مبتنی بر مدل برای RL، به نام Dyna، که از تجربه شبیه‌سازی‌شده استفاده می‌کند، اجرا کنید - انجام یک مطالعه تجربی برای مشاهده بهبود کارایی نمونه هنگام استفاده از Dyna.

Artificial Intelligence (AI) Data Science تقریب تابع سیستم های هوشمند Machine Learning Reinforcement Learning

Welcome to the Course! -Course Introduction

Course Introduction ()

Meet your instructors! ()

Reinforcement Learning Textbook

Read Me: Pre-requisites and Learning Objectives

Monte Carlo Methods for Prediction & Control-Introduction to Monte Carlo Methods

Module 1 Learning Objectives

Weekly Reading

What is Monte Carlo? ()

Using Monte Carlo for Prediction ()

Monte Carlo Methods for Prediction & Control-Monte Carlo for Control

Using Monte Carlo for Action Values ()

Using Monte Carlo methods for generalized policy iteration ()

Solving the Blackjack Example ()

Monte Carlo Methods for Prediction & Control-Exploration Methods for Monte Carlo

Epsilon-soft policies ()

Monte Carlo Methods for Prediction & Control-Off-policy Learning for Prediction

Why does off-policy learning matter? ()

Importance Sampling ()

Off-Policy Monte Carlo Prediction ()

Emma Brunskill: Batch Reinforcement Learning ()

Week 1 Summary ()

Chapter Summary

Temporal Difference Learning Methods for Prediction -Introduction to Temporal Difference Learning

Module 2 Learning Objectives

Weekly Reading

What is Temporal Difference (TD) learning? ()

Rich Sutton: The Importance of TD Learning ()

Temporal Difference Learning Methods for Prediction -Advantages of TD

The advantages of temporal difference learning ()

Comparing TD and Monte Carlo ()

Andy Barto and Rich Sutton: More on the History of RL ()

Week 2 Summary ()

Temporal Difference Learning Methods for Control -TD for Control

Module 3 Learning Objectives

Weekly Reading

Sarsa: GPI with TD ()

Sarsa in the Windy Grid World ()

Temporal Difference Learning Methods for Control - Off-policy TD Control: Q-learning

What is Q-learning? ()

Q-learning in the Windy Grid World ()

How is Q-learning off-policy? ()

Temporal Difference Learning Methods for Control -Expected Sarsa

Expected Sarsa ()

Expected Sarsa in the Cliff World ()

Generality of Expected Sarsa ()

Week 3 Summary ()

Chapter summary

Planning, Learning & Acting-What is a Model?

Module 4 Learning Objectives

Weekly Reading

What is a Model? ()

Comparing Sample and Distribution Models ()

Planning, Learning & Acting-Planning

Random Tabular Q-planning ()

Planning, Learning & Acting-Dyna as a formalism for planning

The Dyna Architecture ()

The Dyna Algorithm ()

Dyna & Q-learning in a Simple Maze ()

Planning, Learning & Acting-Dealing with inaccurate models

What if the model is inaccurate? ()

In-depth with changing environments ()

Drew Bagnell: self-driving, robotics, and Model Based RL ()

Week 4 Summary ()

Chapter Summary

Text Book Part 1 Summary

Planning, Learning & Acting-Course Wrap-up

Congratulations! ()

دانلود فایل فشرده

با توجه به امکانات آموزش و همچنین امکانات بسته انتخاب شده لینک دانلود فایل فشرده آماده خواهد شد. با در نظر داشتن این شرایط لطفا بسته مورد نظر خود را انتخاب کرده و روی دکمه درخواست لینک دانلود کلیک کنید

در حال به روزرسانی اطلاعات

درخواست لینک دانلود

در حال به روزرسانی اطلاعات

لطفا قبل از فعالسازی لینک دانلود به موارد زیر توجه کنید:

پسورد فایل‌های فشرده است.
لینک‌های آماده شده تا 8 روز پس از فعالسازی منقضی خواهند شد.
حجم فایل‌ها تخمینی هستند.
در صورتی که لینک دانلود تا 15دقیقه پس از درخواست آماده نشد، از بخش پشتیبانی پیگیری نمایید.

محتواها

39 محتوای ویدئویی 14 محتوای Pdf

زیرنویس‌

فارسی-ماشین و انگلیسی

کیفیت ویدئوها‌

فقط 720p

فایل تمرینی‌

ندارد

آزمون‌

ندارد

دانلود مشاهده آنلاین

تلگرام توییتر واتساپ

آموزش روش های یادگیری مبتنی بر نمونه

آموزش Sample-based Learning Methods

دانلود فایل فشرده

درخواست لینک دانلود