پیش بینی و کنترل با تقریب تابع

مدرس Martha White

انتشار 2022/12/12

مدت زمان 3h 48m

سطح مناسب همه

فایل تمرینی ندارد

آموزش Prediction and Control with Function Approximation

در این دوره یاد خواهید گرفت که چگونه مسائل را با فضاهای بزرگ، با ابعاد بالا و بالقوه بی نهایت حل کنید. خواهید دید که تخمین توابع ارزش را می توان به عنوان یک مشکل تحت نظارت یادگیری --- تقریب عملکرد --- به شما امکان می دهد تا نمایندگانی را بسازید که با دقت تعادل و تبعیض را به منظور حداکثر رساندن پاداش تعادل برقرار کنید. ما این سفر را با بررسی اینکه چگونه روش‌های ارزیابی خط‌مشی یا پیش‌بینی ما مانند مونت کارلو و TD را می‌توان به تنظیمات تقریب تابع گسترش داد، آغاز خواهیم کرد. شما در مورد تکنیک های ساخت ویژگی برای RL و یادگیری نمایش از طریق شبکه های عصبی و backprop یاد خواهید گرفت. ما این دوره را با یک فرو رفتن عمیق در روش‌های گرادیان سیاست به پایان می‌رسانیم. راهی برای یادگیری مستقیم سیاست ها بدون یادگیری تابع ارزش. در این دوره شما دو وظیفه کنترل حالت پیوسته را حل می کنید و مزایای روش های گرادیان خط مشی را در یک محیط کنش پیوسته بررسی می کنید. پیش نیازها: این دوره به شدت مبتنی بر مبانی دوره های 1 و 2 است و فراگیران باید قبل از شروع این دوره این موارد را تکمیل کرده باشند. همچنین زبان آموزان باید با احتمالات و انتظارات، جبر خطی پایه، حساب دیفرانسیل و انتگرال، پایتون 3.0 (حداقل 1 سال) و پیاده سازی الگوریتم ها از کد شبه راحت باشند. در پایان این دوره، شما قادر خواهید بود: -درک نحوه استفاده از رویکردهای یادگیری نظارت شده برای تقریبی توابع ارزش - درک اهداف برای پیش بینی (تخمین ارزش) تحت تقریب تابع -اجرای TD با تقریب تابع (تجمع حالت)، بر روی یک محیطی با فضای حالت نامتناهی (فضای حالت پیوسته) - درک مبنای ثابت و رویکردهای شبکه عصبی برای ساخت ویژگی - پیاده سازی TD با تقریب تابع شبکه عصبی در یک محیط حالت پیوسته - درک مشکلات جدید در کاوش هنگام حرکت به تقریب تابع - مشکل کنتراست تخفیف خورده فرمول‌بندی برای کنترل در مقابل فرمول‌بندی مسئله پاداش متوسط - اجرای Sarsa و Q-Learning مورد انتظار با تقریب تابع در یک کار کنترل حالت مستمر - درک اهداف برای تخمین مستقیم خط‌مشی‌ها (اهداف گرادیان خط‌مشی) - پیاده‌سازی یک روش گرادیان خط‌مشی (به نام Actor-Critic) در یک محیط حالت گسسته

Artificial Intelligence (AI) Data Science تقریب تابع سیستم های هوشمند Machine Learning Reinforcement Learning

Welcome to the Course!-Course Introduction

Course 3 Introduction ()

Meet your instructors! ()

Read Me: Pre-requisites and Learning Objectives

Reinforcement Learning Textbook

On-policy Prediction with Approximation-Estimating values functions with supervised learning

Module 1 Learning Objectives

Weekly Reading: On-policy Prediction with Approximation

Moving to Parameterized Functions ()

Generalization and Discrimination ()

Framing Value Estimation as Supervised Learning ()

On-policy Prediction with Approximation-The Objective for On-policy Prediction

The Value Error Objective ()

Introducing Gradient Descent ()

Gradient Monte for Policy Evaluation ()

State Aggregation with Monte Carlo ()

On-policy Prediction with Approximation-The Objective for TD

Semi-Gradient TD for Policy Evaluation ()

Comparing TD and Monte Carlo with State Aggregation ()

Doina Precup: Building Knowledge for AI Agents with Reinforcement Learning ()

On-policy Prediction with Approximation-Linear TD

The Linear TD Update ()

The True Objective for TD ()

Week 1 Summary ()

Constructing Features for Prediction-Feature Construction for Linear Methods

Module 2 Learning Objectives

Weekly Reading: On-policy Prediction with Approximation II

Coarse Coding ()

Generalization Properties of Coarse Coding ()

Tile Coding ()

Using Tile Coding in TD ()

Constructing Features for Prediction-Neural Networks

What is a Neural Network? ()

Non-linear Approximation with Neural Networks ()

Deep Neural Networks ()

Constructing Features for Prediction-Training Neural Networks

Gradient Descent for Training Neural Networks ()

Optimization Strategies for NNs ()

David Silver on Deep Learning + RL = AI? ()

Week 2 Review ()

Control with Approximation -Episodic Sarsa with Function Approximation

Module 3 Learning Objectives

Weekly Reading: On-policy Control with Approximation

Episodic Sarsa with Function Approximation ()

Episodic Sarsa in Mountain Car ()

Expected Sarsa with Function Approximation ()

Control with Approximation -Exploration under Function Approximation

Exploration under Function Approximation ()

Control with Approximation -Average Reward

Average Reward: A New Way of Formulating Control Problems ()

Satinder Singh on Intrinsic Rewards ()

Week 3 Review ()

Policy Gradient-Learning Parameterized Policies

Module 4 Learning Objectives

Weekly Reading: Policy Gradient Methods

Learning Policies Directly ()

Advantages of Policy Parameterization ()

Policy Gradient-Policy Gradient for Continuing Tasks

The Objective for Learning Policies ()

The Policy Gradient Theorem ()

Policy Gradient-Actor-Critic for Continuing Tasks

Estimating the Policy Gradient ()

Actor-Critic Algorithm ()

Policy Gradient-Policy Parameterizations

Actor-Critic with Softmax Policies ()

Demonstration with Actor-Critic ()

Gaussian Policies for Continuous Actions ()

Week 4 Summary ()

Policy Gradient-Course Wrap-up

Congratulations! Course 4 Preview ()

دانلود فایل فشرده

با توجه به امکانات آموزش و همچنین امکانات بسته انتخاب شده لینک دانلود فایل فشرده آماده خواهد شد. با در نظر داشتن این شرایط لطفا بسته مورد نظر خود را انتخاب کرده و روی دکمه درخواست لینک دانلود کلیک کنید

در حال به روزرسانی اطلاعات

درخواست لینک دانلود

در حال به روزرسانی اطلاعات

لطفا قبل از فعالسازی لینک دانلود به موارد زیر توجه کنید:

پسورد فایل‌های فشرده است.
لینک‌های آماده شده تا 8 روز پس از فعالسازی منقضی خواهند شد.
حجم فایل‌ها تخمینی هستند.
در صورتی که لینک دانلود تا 15دقیقه پس از درخواست آماده نشد، از بخش پشتیبانی پیگیری نمایید.

محتواها

44 محتوای ویدئویی 10 محتوای Pdf

زیرنویس‌

انگلیسی و فارسی-ماشین

کیفیت ویدئوها‌

فقط 720p

فایل تمرینی‌

ندارد

آزمون‌

ندارد

دانلود مشاهده آنلاین

تلگرام توییتر واتساپ

آموزش پیش بینی و کنترل با تقریب تابع

آموزش Prediction and Control with Function Approximation

دانلود فایل فشرده

درخواست لینک دانلود