یادگیری تقویتی از بازخورد انسانی (RLHF)

مدرس Mina Parham

انتشار 2024/01/01

مدت زمان 47m 17s

سطح مناسب همه

فایل تمرینی ندارد

آموزش Reinforcement Learning from Human Feedback (RLHF)

در این دوره آموزشی در مورد یادگیری تقویتی از بازخورد انسانی، کارایی هوش مصنوعی تولیدی را با درک تخصص انسانی ترکیب کنید. شما یاد خواهید گرفت که چگونه مدل‌های GenAI را واقعاً منعکس‌کننده ارزش‌ها و ترجیحات انسانی کنید، در حالی که تجربه عملی با LLM کسب می‌کنید. همچنین پیچیدگی‌های مدل‌های پاداش را بررسی می‌کنید و یاد می‌گیرید که چگونه بر اساس LLMها برای تولید هوش مصنوعی که نه تنها یاد می‌گیرد بلکه با سناریوهای دنیای واقعی سازگار می‌شود، بسازید.

هوش مصنوعی Python

Foundational Concepts

Introduction to RLHF ()

Text generation with RLHF

Classifying generated text for RLHF

Exploring pre-trained LLMs ()

Tokenize a text dataset

Fine-tuning for review classification

Preparing data for RLHF ()

Preparing the preference dataset

Extracting prompts

Gathering Human Feedback

Methods for high-quality feedback gathering ()

Comparing slogans for a gym campaign

Measuring feedback quality and relevance ()

Low confidence

K-means for feedback clustering

Active learning ()

Implementing an active learning pipeline

Active learning loop

Tuning Models with Human Feedback

Reward models explored ()

Initializing the reward

Setting up the reward trainer

Training with PPO ()

Initialize the PPO trainer

PPO fine-tuning

Efficient fine-tuning in RLHF ()

Prepare for 8-bit Training

Train with LoRA

Model Evaluation

Model metrics and adjustments ()

Mitigating negative KL divergence

Checking the reward model

Incorporating diverse feedback sources ()

Majority voting on multiple data sources

Unreliable data source identification

Evaluating RLHF models ()

Evaluating RLHF with metrics

Wrapping up your RLHF journey ()

دانلود فایل فشرده

با توجه به امکانات آموزش و همچنین امکانات بسته انتخاب شده لینک دانلود فایل فشرده آماده خواهد شد. با در نظر داشتن این شرایط لطفا بسته مورد نظر خود را انتخاب کرده و روی دکمه درخواست لینک دانلود کلیک کنید

در حال به روزرسانی اطلاعات

درخواست لینک دانلود

در حال به روزرسانی اطلاعات

لطفا قبل از فعالسازی لینک دانلود به موارد زیر توجه کنید:

پسورد فایل‌های فشرده است.
لینک‌های آماده شده تا 8 روز پس از فعالسازی منقضی خواهند شد.
حجم فایل‌ها تخمینی هستند.
در صورتی که لینک دانلود تا 15دقیقه پس از درخواست آماده نشد، از بخش پشتیبانی پیگیری نمایید.

مسیرهای یادگیری آموزش یادگیری تقویتی از بازخورد انسانی (RLHF)

یکی از مهمترین مشکلات افرادی که از آموزش های آنلاین استفاده می‌ کنند این است به دلیل تعداد زیاد این آموزش ها، کاربر دچار سردرگمی شده و نمی داند از کدام آموزش بهتر است شروع کند و یا با کدام آموزش ها مهارت های خود را ارتقا دهد. داشتن یک برنامه آموزشی گام به گام میتواند کاربران را از این مشکلات رها کند. در واقع مسیرهای یادگیری مجموعه ای از آموزش ها هستند که به ترتیب اولویت در کنار هم قرار گرفته اند تا کاربران را از این سردرگمی ها نجات دهند. این مسیرها در موضوعات مختلفی دسته بندی شده‌اند که در زیر، لیستی از همه دسته بندی مسیرهایی که توسط سایت لیندا ارائه شده اند را می توانید مشاهده کنید.

آموزش Reinforcement Learning from Human Feedback (RLHF) در 2 مسیر آموزشی قرار دارد. تخصص مورد نظر خود را انتخاب کنید، با مسیر یادگیری آن همراه شوید و حرفه ای شوید.

با استفاده از آخرین تکنیک‌های یادگیری عمیق و NLP، با PyTorch و Hugging Face، مدل‌های زبان بزرگ (LLM) را توسعه دهید.

آموزش یادگیری تقویتی از بازخورد انسانی (RLHF) ، ایستگاه شماره 4 در مسیر یادگیری توسعه مدل های زبان بزرگ ، است.

مسیر یادگیری توسعه مدل های زبان بزرگ

برای ایجاد مدل هایی که می توانند در محیط های پیچیده دنیای واقعی حرکت کنند و LLM ها را آموزش دهند، به اصول یادگیری تقویتی (RL) مسلط شوید.

آموزش یادگیری تقویتی از بازخورد انسانی (RLHF) ، ایستگاه شماره 2 در مسیر یادگیری یادگیری تقویتی ، است.

مسیر یادگیری یادگیری تقویتی

محتواها

13 محتوای ویدئویی 22 محتوای Pdf

زیرنویس‌

English و فارسی-ماشین

کیفیت ویدئوها‌

فقط 720p

فایل تمرینی‌

ندارد

آزمون‌

ندارد

دانلود مشاهده آنلاین

آموزش های مرتبط

تلگرام توییتر واتساپ