یادگیری تقویتی و اجزای آن و اجرایی کردن یک مثال عامل

          س 
            بازدید : 137
          شنبه 06 آذر 1395
           نظرات (0)
        

یادگیری تقویتی و اجزای آن و اجرایی کردن یک مثال عامل

دانلود پروژه مطالعاتی درس یادگیری ماشین با عنوان یادگیری تقویتی و اجزای آن و اجرایی کردن یک مثال عامل

دسته بندی	مهندسی نرم افزار
فرمت فایل	doc
حجم فایل	651 کیلو بایت
تعداد صفحات فایل	37

دانلود پروژه مطالعاتی درس یادگیری ماشین

یادگیری تقویتی و اجزای آن و اجرایی کردن یک مثال عامل

چکیده :

حیوانات ، انسان ها ، اتومات ها و .. از خود رفتار های مختلفی در محیطی که آن ها را احاطه کرده ، در شرایط مختلف ، از خود نشان می دهند.آن ها کارهای مختلفی را به عنوان باز خورد در جواب ورودی هایی که از محیط می گیرند انجام می دهند. بعضی از این عامل ها رفتار های خود را در طول زمان عوض می کنند.آن ها ممکن است با دادن ورودی های یکسان ، عمل های متفاوتی نسبت به حرکت های قبلی خود انجام دهند. چنین عاملی یاد می گیرد. شاخه یادگیری ماشین به مطالعه الگوریتم های یادگیری که مشخص می کند تغییر در ورودی ها چگونه در رفتار عامل تغییر ایجاد می کند می پردازد.

الگوریتم های یادگیری به 3 دسته تقسیم می شوند :

•با ناظر

•بی ناظر

•تقویتی

در یادگیری با ناظر ، عامل با یک سری ورودی و خروجی مشخص آموزش داده می شود.در یادگیری بی ناظر ، عامل از محیط ، هیچ باز خوردی دریافت نمی کند. در مقابل عامل سعی می کند تا وردی ها را به صورت خوشه ها ، طبقه بندی ها یا ... بازسازی کند.و اعمال خود را بر طبق این طبقه بندی ها و نتیجه گیری ها انجام دهد.

کلمات کلیدی:

یادگیری ماشین

یادگیری تقویتی

الگوریتم های یادگیری

مسائل یادگیری تقویتی

مقدمه:

در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را بری رسیدن به هدف انتخاب نمید

یادگیری تقویتی از ینرو مورد توجه است که راهی بری آموزش عاملها بری انجام یک عمل از طریق دادن پاداش و تنبیه است

بدون ینکه لازم باشد نحوه انجام عمل را بری عامل مشخص نمائیم.



دو استراتژی اصلی بری ینکار وجود دارد:

•1.یکی استفاده از الگوریتم هی ژنتیکی

•2.و دیگری استفاده از روشهی آماری و dynamic programming

محیط مجموعه ی از S حالت ممکن است.

در هر لحظه t عامل میتواند یکی از A عمل ممکن را انجام دهد.

عامل ممکن است در مقابل عمل و یا مجموعه ی از اعمالی که انجام میدهد پاداش r را دریافت کند. ین پاداش ممکن است مثبت و یا منفی )تنبیه(باشد

عامل در محیط حرکت کرده و حالتها و پاداشهی مربوطه را به خاطر می سپارد.

عامل سعی میکند طوری رفتار کند که تابع پاداش را ماکزیمم نمید.

پاداش Rt مجموع پاداشی است که عامل با گذشت زمانt جمع کرده است.

فهرست مطالب

•معرفی یادگیری تقویتی

•برنامه نویسی پویا

•اجزا یک سیستم یادگیری تقویتی

oمحیط

oتابع پاداش

oتابع مقدار

•Q-Learning

oمعرفی

oالگوریتم یادگیری

oمثالی از یک عامل

oاثبات همگرایی

oیادگیری Q برای MDP غیرقطعی

•روش های مونت کارلو در یادگیری تقویتی

oویژگیها

oسیاست first visit MC

oکنترل مونت کارلو

oهمگرایی مونت کارلو

oon line policy و off line policy

•منابع

اتوماتای یادگیر تصادفی و الگوریتمهای یادگیر

          س 
            بازدید : 169
          پنجشنبه 04 آذر 1395
           نظرات (0)
        

اتوماتای یادگیر تصادفی و الگوریتمهای یادگیر

فرآیند یادگیری موجودات زنده یكی از موضوعات تحقیقاتی جدید بشمار می‌آید این تحقیقات به دو دسته كلی تقسیم می‌شوند دسته نخست به شناخت اصول یادگیری موجودات زنده و مراحل آن می‌پردازند و دسته دوم بدنبال ارائه یك متدولوژی برای قرار دادن این اصول در یك ماشین می‌باشند

آتاماتای یادگیر
یادگیری ماشین
یادگیری تقویتی
سیستمهای یادگیر
اتوماتای یادگیر تصادفی
الگوریتمهای یادگیر
اتوماتای یادگیر تصادفی و الگوریتمهای یادگیر
دانلود پروژه نرم افزار
دانلود پروژه کامپیوتر

دسته بندی	دکترا
فرمت فایل	doc
حجم فایل	151 کیلو بایت
تعداد صفحات فایل	36

دانلود پروژه مطالعاتی درس یادگیری ماشین رشته مهندسی نرم افزار

اتوماتای یادگیر تصادفی و الگوریتمهای یادگیر

مقدمه

فرآیند یادگیری موجودات زنده یكی از موضوعات تحقیقاتی جدید بشمار می‌آید. این تحقیقات به دو دسته كلی تقسیم می‌شوند. دسته نخست به شناخت اصول یادگیری موجودات زنده و مراحل آن می‌پردازند و دسته دوم بدنبال ارائه یك متدولوژی برای قرار دادن این اصول در یك ماشین می‌باشند. یادگیری بصورت تغییرات ایجادشده در كارایی یك سیستم بر اساس تجربه‌های گذشته تعریف می‌شود. یك ویژگی مهم سیستمهای یادگیر، توانایی بهبود كارایی خود با گذشت زمان است. به بیان ریاضی می‌توان اینطور عنوان كرد كه هدف یك سیستم یادگیر بهینه‌سازی وظیفه‌ای است كه كاملا شناخته شده نیست. بنابراین یك رویكرد به این مساله، كاهش اهداف سیستم یادگیر به یك مساله بهینه‌سازی است كه بر روی مجموعه‌ای از پارامترها تعریف می‌شود و هدف آن پیدا كردن مجموعه پارامترهای بهینه می‌باشد.

در بسیاری از مسائل مطرح شده، اطلاعی از پاسخهای صحیح مساله ( كه یادگیری با نظارت به آنها نیاز دارد) در دست نیست. بهمین علت استفاده از یك روش یادگیری بنام یادگیری تقویتی مورد توجه قرار گرفته است. یادگیری تقویتی نه زیر مجموعه شبكه‌های عصبی است و نه انتخابی بجای آنها محسوب می‌شود. بلكه رویكردی متعامد برای حل مسائل متفاوت و مشكلتر بشمار می‌رود. یادگیری تقویتی، از تركیب برنامه‌نویسی پویا و یادگیری نظارتی برای دستیابی به یك سیستم قدرتمند یادگیری ماشین استفاده می‌كند. در یادگیری تقویتی هدفی برای عامل یادگیر مشخص می‌شود تا به آن دست یابد. آنگاه عامل مذكور یاد می‌گیرد كه چگونه با آزمایشهای صحیح و خطا با محیط خود، به هدف تعیین شده برسد.

در یادگیری تقویتی یك عامل یادگیرنده در طی یادگیری با فعل و انفعالات مكرر با محیط، به یك سیاست كنترل بهینه می‌رسد. كارایی این فعل و انفعالات با محیط بوسیله بیشینه‌(كمینه) بودن پاداش (جریمه) عددی كه از محیط گرفته می‌شود، ارزیابی می‌گردد. علاوه بر این در روش‌های یادگیری تقویتی، اولا استفاده از یادگیری روش ساده، سیستماتیك و واقعی برای رسیدن به یك جواب تقریبا بهینه را بیان می‌كند.(پیدا كردن این جواب بهینه با استفاده از روشهای سنتی بسیار مشكل است.) ثانیا، دانشی كه در طی فرایند یادگیری بدست می‌آید، در یك مكانیزم نمایش دانش مانند شبكه عصبی یا جدول مراجعه ذخیره می‌شود كه از طریق آن می‌توان با محاسبات اندك و با كارایی بالایی عمل تخصیص كانال را انجام داد. ثالثا، از آنجاییكه این روش یادگیری در محیطی بلادرنگ در حال انجام است، می‌توان آنرا همزمان با فعالیت محیط (مانند شبكه سلولی) انجام داد. كه در این حالت با تمام رخدادهای پیش‌بینی نشده بصورت یك تجربه جدید برخورد می‌شود كه می‌توان از آنها برای بهبود كیفیت یادگیری استفاده كرد.

مزیت اصلی یادگیری تقویتی نسبت به سایر روشهای یادگیری عدم نیاز به هیچگونه اطلاعاتی از محیط (بجز سیگنال تقویتی) است. یكی از روشهای یادگیری تقویتی، اتوماتای یادگیر تصادفی است. اتوماتای تصادفی بدون هیچگونه اطلاعاتی درباره اقدام بهینه (یعنی با در نظر گرفتن احتمال یكسان برای تمامی اقدامهای خود در آغاز كار) سعی در یافتن پاسخ مساله دارد. یك اقدام اتوماتا بصورت تصادفی انتخاب می‌شود، در محیط اِعمال می‌گردد. سپس پاسخ محیط دریافت شده و احتمال اقدامها بر طبق الگوریتم یادگیری بِروز می‌شوند و روال فوق تكرار می‌گردد. اتوماتای تصادفی كه بصورت فوق در جهت افزایش كارایی خود عمل كند، یك اتوماتای یادگیر تصادفی گفته می‌شود. در ادامه این مقاله به معرفی اتوماتای یادگیر تصادفی پرداخته می شود.

کلمات کلیدی:

آتاماتای یادگیر

یادگیری ماشین

یادگیری تقویتی

سیستمهای یادگیر

فهرست مطالب

1.مقدمه3

1.1.تاریخچه اتوماتای یادگیر5

2.اتوماتای یادگیر6

2.1.اتوماتای تصادفی7

2.2.محیط8

2.3.معیار‌های رفتار اتوماتای یادگیر10

2.4.الگوریتمهای یادگیر12

2.4.1.الگوریتمهای یادگیر استاندارد12

2.4.2.الگوریتمهای یادگیری مدل-S14

2.5.اتوماتای یادگیر با اقدامهای متغیر16

2.6.اتوماتای یادگیر توزیع شده17

3.اتوماتای یادگیر واكنشی18

3.1.اتوماتای یادگیر واكنشی توزیع شده20

4.کوتاهترین مسیر در گراف های تصادفی با اتوماتای یادگیر توزیع شده21

5.حل مساله فروشنده دوره‌گرد احتمالی با اتوماتای یادگیر توزیع شده24

5.1.تابع هدف مساله فروشنده دوره‌گرد احتمالی24

5.2.الگوریتم پیشنهادی[4]27

6.مراجع36

دانلود

دانلود محصولات علمی

یادگیری تقویتی و اجزای آن و اجرایی کردن یک مثال عامل

دانلود پروژه مطالعاتی درس یادگیری ماشین

یادگیری تقویتی و اجزای آن و اجرایی کردن یک مثال عامل

الگوریتم های یادگیری به 3 دسته تقسیم می شوند :

یادگیری ماشین

یادگیری تقویتی

الگوریتم های یادگیری

مسائل یادگیری تقویتی

•معرفی یادگیری تقویتی

•برنامه نویسی پویا

•اجزا یک سیستم یادگیری تقویتی

•روش های مونت کارلو در یادگیری تقویتی

oسیاست first visit MC

oکنترل مونت کارلو

oهمگرایی مونت کارلو

اتوماتای یادگیر تصادفی و الگوریتمهای یادگیر

دانلود پروژه مطالعاتی درس یادگیری ماشین رشته مهندسی نرم افزار

اتوماتای یادگیر تصادفی و الگوریتمهای یادگیر

آتاماتای یادگیر

یادگیری ماشین

یادگیری تقویتی

سیستمهای یادگیر

1.1.تاریخچه اتوماتای یادگیر5

2.3.معیار‌های رفتار اتوماتای یادگیر10

2.4.الگوریتمهای یادگیر12

3.1.اتوماتای یادگیر واكنشی توزیع شده20