ارزیابی های هوش مصنوعی: مبانی و نمونه های عملی

مدرس Mahesh Yadav

انتشار 2025/09/22

مدت زمان 2h 8m

سطح مناسب همه

فایل تمرینی دارد

آموزش AI Evaluations: Foundations and Practical Examples

مأمورین هوش مصنوعی به ما کمک می کنند تا بیشتر دست یابیم و کمتر هزینه کنیم. اگرچه ساخت عوامل هوش مصنوعی آسانتر از همیشه است ، اما ارزیابی عملکرد آنها می تواند چالش برانگیز باشد. در این دوره ، مشاور تولیدی هوش مصنوعی Mahesh Yadav تکنیک هایی را به اشتراک می گذارد که به شما امکان می دهد از صفر به قهرمان در ارزیابی عوامل هوش مصنوعی بروید. بیاموزید که چگونه ارزیابی عامل هوش مصنوعی خود را تنظیم کرده و آن را مقیاس کنید. ترفندها و نکاتی را که در هنگام ایجاد یک استراتژی ارزیابی برای عوامل هوش مصنوعی خود و اجرای آن استراتژی ، باعث صرفه جویی در وقت و هزینه می شود ، کاوش کنید. هنگامی که این دوره را تمام می کنید ، یک برنامه ارزیابی جامع برای آزمایش عوامل هوش مصنوعی خواهید داشت.

AI Agents Artificial Intelligence (AI)

Introduction

The power of AI agents and AI evaluations ()

1. Introducing AI Agents and Evaluations

Demo of fully functional human and auto-evaluator systems ()

What are AI agents? ()

Why a lot of AI agents fail ()

Understanding the "moat" in AI agents ()

Evaluating the moat and backbone of your AI agents ()

Challenges in setting proprietary AI evaluations ()

2. Foundation Models and Benchmarks in AI

Introduction to AI foundation models ()

Essential requirements for model evaluations ()

Define requirements for model evaluations ()

Understanding and leveraging benchmarks ()

Hands-on lab: Choosing the right model with benchmark analysis ()

3. Manual Evaluation Strategies and AI Component-Level Testing

Decomposing AI agents into evaluative components ()

Identifying high-risk or hard-to-evaluate components ()

Manual evaluation with criteria ()

Defining evaluation criteria from MVP to GA ()

Hands-on lab: Vibe code auto evaluations using Cursor ()

Hands-on lab: Automating AI evaluation using LLM as judge ()

4. Automated Evaluation Techniques and Metrics Deep Dive

Deep dive into evaluation metrics for AI agents ()

Hands-on lab: Building an automated evaluator ()

Red teaming: Scaling automated evaluations without ground truth ()

Continuous evaluation with real-time monitoring and alerts ()

Conclusion

What's next ()

Ex_Files_Intro_AI_Evals.zip (110 KB)

دانلود فایل فشرده

با توجه به امکانات آموزش و همچنین امکانات بسته انتخاب شده لینک دانلود فایل فشرده آماده خواهد شد. با در نظر داشتن این شرایط لطفا بسته مورد نظر خود را انتخاب کرده و روی دکمه درخواست لینک دانلود کلیک کنید

در حال به روزرسانی اطلاعات

درخواست لینک دانلود

در حال به روزرسانی اطلاعات

لطفا قبل از فعالسازی لینک دانلود به موارد زیر توجه کنید:

پسورد فایل‌های فشرده است.
لینک‌های آماده شده تا 8 روز پس از فعالسازی منقضی خواهند شد.
حجم فایل‌ها تخمینی هستند.
در صورتی که لینک دانلود تا 15دقیقه پس از درخواست آماده نشد، از بخش پشتیبانی پیگیری نمایید.