هدایت فازی ربات های خود مختار با استفاده از یادگیری تشدیدی … – منابع مورد نیاز برای مقاله و پایان نامه : دانلود پژوهش های پیشین |
عدم نیاز به مدلسازی و ذخیره مدل کامل و دقیق محیط
محاسبات و تاخیر کمتر میان عمل و ادراک
نسبت به رویکرد سلسله مراتبی مقاومترو قابل اطمینانتر میباشد. از این لحاظ که در هنگام خطای یکی از واحدهای رفتاری، سایر واحدها به انجام وظایف خود ادامه می دهند.
معایب معماری مبتنی بر رفتار عبارتند از:
مساله تلفیق رفتارهای مجزا: تعامل میان سامانه ناوبری و محیط مشکل و کمتر قابل پیش بینی میباشد.
رفتارها در سطح پایین هستند و رفتارهای سطح بالا را انعکاس نمیدهند.
نبود ماژول تصمیم گیری می تواند برای بعضی مسایل پیچیده مناسب نباشد.
روش ترکیبی
علی رغم اینکه معماری مبتنی بر رفتار چهارچوب موفقی برای ناوبری رباتهای متحرک فراهم می آورد، هنوز برخی مشکلات در مواجه با محیطهای پویا و ناشناخته وجود دارند. یک رویکرد برای حل این مشکلات، ترکیب معماریهای سلسله مراتبی و مبتنی بر رفتار میباشد. روشهای ترکیبی می توانند به سه دسته کلی طبقه بندی شوند [۱۶]: مدیریتی[۲۱]، سلسله مراتب حالتها[۲۲] و مدل گرا[۲۳]. در نوع مدیریتی [۲۱-۲۵] ماژول سلسله مراتبی مسئول تصمیم گیری در سطح بالاتر است. سپس تصمیمات برای پیادهسازی به سطح پایینتر که ماژول مبتنی بر رفتار است فرستاده میشوند. هر ماژول سعی می کند مسایل را به تنهایی اصلاح و حل کند ولی چنانچه امکان پذیر نبود به ماژول بالادست خود ارجاع میدهد. نوع سلسله مراتب حالتها [۲۶, ۲۷] دانش مربوط به حالتهای گذشته، حال و آینده ربات را به کار میگیرد. لایه سلسله مراتبی برای پیش بینی آینده (طرح مسیر) نیازمند حالت گذشته ربات (کارهای انجام شده در گذشته) میباشد. لایه مبتنی بر رفتار در حال عمل می کند (خود آگاهی) و مسئول انجام فرامین لایه سلسله مراتبی و تولید حرکت ربات میباشد. نوع مدل گرا [۲۸] بیشتر بر مدل سراسری محیط تمرکز می کند و بیشتر مشابه روش سلسله مراتبی است. با این حال، لایه مبتنی بر رفتار فوراً از مدل سراسری به روز شده محیط استفاده می کند تا زمان پردازش کاهش یابد [۲۹].
روشهای ترکیبی معمول از سه لایه تشکیل میشوند (شکل(۲‑۵)): سلسله مراتبی، تلفیق کننده و مبتنی بر رفتار. لایه سلسله مراتبی برای مسایل سطح بالا به کار میرود تا طرح بهینه را تولید کند. محدودیتهای سطح بالا تشکیل شده اند از: ترکیب داده های حسگرها، ساخت نقشه و تصمیم گیری. سپس دستورات بهینه از سطح بالاتر به لایه مبتنی بر رفتار برای تولید عمل ارسال میشوند. لایه تلفیق کننده مسئول نظارت میان تعامل لایه های سطح پایین و سطح بالا میباشد [۳۰]. اجتماع مشخصههای مختلف دو معماری سلسله مراتبی و مبتنی بر رفتار در روش ترکیبی معماری مقاوم و انعطافپذیر نوینی را تشکیل میدهد.
شکل(۲‑۵): معماری ترکیبی جهت ناوبری ربات [۳]
مطالعات مرتبط
منطق فازی به دلیل خصوصیات موثر خود از قبیل عدم نیاز به مدل دقیق محیط، پایداری نسبت به داده های غیر قطعی و نویزی، پاسخ سریع و پیاده سازی آسان، ابزاری کارآمد برای حل مسالهی ناوبری ربات خودمختار به شمار میرود [۳۱-۳۴]. پارامترهای سامانه استنباط فازی گاهاً به طور غیربرخط تنظیم میشوند. عموماً این تنظیم بر اساس دانش نخبه یا فرایند سعی و خطا انجام می شود، که در مورد موقعیتهای پیش بینی نشده کافی نمی باشد. برای حل این مشکل و طراحی سامانه تصمیم گیری فازی وفق پذیر با رویدادهای پیش بینی نشده، به کارگیری الگوریتمهای یادگیری ضروری به نظر میرسد.
روشهای یادگیری را می توان در دو دستهبندی کلی بامربی و بدونمربی قرار داد. مشکل رویکردهای یادگیری بامربی، نظیر شبکه های عصبی، فراهم کردن داده های دقیق آموزشی است، که در مورد ناوبری خودمختار معمولاً در دسترس نیستند. حتی اگر این داده ها فراهم باشند، ممکن است فرایند یادگیری زمانبر و پرهزینه باشد [۳۴-۳۶]. یکی از الگوریتمهای کارآمد یادگیری بدونمربی، یادگیری تشدیدی [۳۷, ۳۸] است. برخلاف یادگیری بامربی که مقدار خروجی صحیح برای هر الگوی ورودی به منظور یادگیری در دسترس است، مسالهی یادگیری تشدیدی به جای اطلاعات آموزشی از پیش آماده شده برای یادگیری، تنها دارای اطلاعات بسیار سادهی جریمه یا پاداش است. مهمترین دستهی الگوریتمهای یادگیری تشدیدی، مبتنی بر تخمین مقدار توابع ارزش جفتهای عمل-حالت هستند. این توابع ارزش تخمین میزنند انجام عملی معلوم در حالتی معلوم چه پاداشی به همراه خواهد داشت. یادگیری Q یک روش پیادهسازی یادگیری تشدیدی است، که در آن توابع ارزش جفتهای عمل-حالت، با نام Q شناخته میشوند. همیشه حالتهای مخفیای در محیط وجود دارد، که در مرحله یادگیری Q (مخصوصاً در صورت گسسته بودن حالتها) مشاهده نمیشوند. بنابراین، الگوریتمی که تنها مبتنی بر یادگیری Q باشد، حتی در مواجه با تغییرات کوچک محیط قادر به یافتن استراتژی بهینه نیست. بنابراین، تعمیم مسالهی مهمی در یادگیری تشدیدی محسوب می شود. یک راه حل این است که محیط به صورت مجموعه ای از حالات فازی مدل شود. به علت خاصیت تعمیمپذیری فازی، بیان فازی حالات به طور موثر و بدون از دست رفتن اطلاعات تعداد حالات را کاهش میدهد. با توجه به نکات بیان شده، به نظر میرسد ترکیب الگوریتم فازی و یادگیری تشدیدی رویکردی مناسب جهت ناوبری رباتهای خودمختار باشد. الگوریتم فازی قابلیت پیادهسازی رفتارهای مجزای ساده و به عبارتی نگاشت حالات به عملها را داراست. لیکن در تشخیص خودکار اینکه کدام رفتار (عمل) در هر حالت بایستی اتخاذ شود، نیازمند به کارگیری الگوریتم یادگیری است. از طرفی، در صورت نگاشت مناسب حالات به عملها، یادگیری Q در فعالسازی رفتار مناسب، عملکرد مطلوبی دارد.
یادگیری Q داری ساختار بدون مربی و پویا، ساده و قابل پیاده سازی آسان میباشد، که ابزاری کارآمد جهت تنظیم برخط سامانه استنباط فازی است [۳۷-۳۹]. استفاده از یادگیری Q برای تنظیم سامانه تصمیم گیری و پاسخ به محیطها و وقایع مختلف در واقع به نوعی یک روش ترکیبی است که بیشتر در دسته سلسله مراتب حالتها قرار میگیرد و نیازمند مدلسازی نیست. لایه سلسله مراتبی همان رویه اتخاذ شده در یادگیری Q (نحوه اعمال پاداش یا جریمه) میباشد. ترکیب بین رفتارها در لایه سطح بالاتر و با در نظر گرفتن اهداف تاکتیکی با بهره گرفتن از یادگیری Q انجام می شود. ترکیب یادگیری Q و قوانین فازی در ادبیات به عنوان یادگیری Q فازی[۲۴] شناخته می شود [۳۹-۴۱]. به عنوان مثال، در مرجع [۴۱] تعدادی قانون فازی توسط منطق انسان به صورت غیربرخط طرح شدند، سپس یادگیری Q برای تنظیم قوانین فازی به صورت برخط به کار گرفته شد. بهترین خروجیها برای هر قانون فازی از میان تعدادی گزینه، توسط یادگیری Q انتخاب شدند. هدف الگوریتم ارائه شده در در مرجع [۴۱]، یافتن یک مجموعه قانون فازی بهینه پس از یک مرحله یادگیری میباشد. این مجموعه قانون بهینه، سپس در آزمایشها به کار گرفته می شود. شناسایی ساختار مجموعه قوانین فازی، از قبیل تقسیم بندی فازی فضای ورودی و خروجی و تعیین تعداد قوانین فازی به صورت غیربرخط انجام می شود.
مسایل اساسی مرتبط با تواناییهای یادگیری سامانه استنباط فازی عبارتند از: ۱) تخمین پارامترهای توابع عضویت ورودی و خروجی و ۲) شناسایی ساختار مجموعه قوانین فازی که مربوط به تقسیم بندی فازی فضای ورودی و خروجی و تعیین تعداد قوانین فازی برای یک عملکرد مشخص است. مرجع [۴۰] یادگیریQ فازی پویایی[۲۵]، جهت رفتار تعقیب دیوار توسط ربات، ارائه می کند. روش ارائه شده در مرجع [۴۰]، توانایی تنظیم برخط سامانههای استنباط فازی را داراست. شناسایی ساختار و پارامترها به طور خودکار و همزمان، تنها براساس یادگیری Q انجام میشوند. کنترل کننده فازی اولیه، که از تجربیات شهودی یک فرد راننده استنباط می شود، می تواند به عملی امکان پذیر ولی دور از بهینه منجر شود. بنابراین، یادگیری تشدیدی برای تنطیم برخط کنترل کننده فازی به کار گرفته شد. چون قوانین فازی اولیهای تولید شده و به عنوان نقاط شروع استفاده میشوند، میتوان پارامترهای بهینه را بدون تکرارهای بسیار زیاد به دست آورد. همچنین، ربات حتی در طول یادگیری می تواند با ایمنی قابل قبولی حرکت کند. همانگونه که در مرجع [۴۰] اشاره شد، دقت روش DFQL (ارائه شده در مرجع [۴۰]) از روش FQL (ارائه شده در مرجع [۴۱]) بالاتر است، ولی واضح است که پیچیدگی و زمان پردازش به علت تولید برخط قوانین و تعداد بیشتر آنها افزایش یافته است.
همچنین روشهای FQL و DFQL نیازمند به کارگیری یک مرحله یادگیری یا اکتشافی برای یافتن سامانه استنباط فازی بهینه میباشند. به کارگیری این مرحله یادگیری مستلزم طراحی یک محیط یادگیری مناسب برای مواجه با محیطهای آزمایش شناخته میباشد. بدیهی است طراحی چنین محیطی که منجر به تولید قوانین با خروجی ثابت و بهینه شود، بسیار در عملکرد سامانه تاثیرگذار است. طراحی مناسب محیط یادگیری، امری مشکل است علیالخصوص که محیطهای آزمایش گسترهی وسیعی از پیچیدگی را از لحاظ تعداد، اندازه و شکل موانع شامل شوند. انگیزه روش پیشنهادی طرح الگوریتمی کارآمد و در عین حال ساده برای ناوبری موفق و خودمختار ربات در انواع محیطهای ساده تا پیچیده میباشد. برای این منظور و ایجاد قابلیت انعطاف و وفقپذیری در سامانه استنباط فازی مرحله یادگیری (اکتشافی) حذف شده است. هدف الگوریتم پیشنهادی، یافتن یک مجموعه قانون فازی ثابت و بهینه نیست. زیرا همانگونه که انتظار میرود و در آزمایشها نیز تایید شده است، یک مجموعه قانون فازی ثابت (با خروجی ثابت) وفقپذیری کافی برای مواجه با گسترهی وسیع محیطهای آزمایش را ندارد. در روش پیشنهادی، یادگیری Q بدون هیچ مرحله یادگیری یا اکتشافی پیش از آزمایش الگوریتم به کار گرفته شده است. . بدین معنی که مقادیر q در هر آزمایش بدون پیشفرض و از مقدار اولیه صفر شروع میشوند، لذا محیط یادگیری جهت مقداردهی اولیه به مقادیر q وجود ندارد. دقت و کارایی یادگیری Q توسط تعریف مناسب سیگنال تشدیدی بهبود یافته است. پارامترهای کلیدی مجموعه فازی و یادگیری Q، شامل پارامترهای توابع عضویت ورودی فازی و همچنین مقدار عامل فراموشی یادگیری Q، توسط بهینهسازی کلونی زنبور مصنوعی به صورت غیربرخط، پیش از قرار گرفتن ربات در محیطهای آزمایش، به دست آمدهاند. محیط بهینهسازی شامل موانعی است که انتظار میرود خود یا ترکیبی از آنها در محیطهای آزمایش دیده شوند.
نتیجه گیری
از میان سه دستهبندی کلی روشهای ناوبری ربات، روش سلسله مراتبی در سطح بالا برای به دست آوردن مسیر بهینه به سمت هدف مناسب است. با این حال، این روش در محیطهای پویا و یا ناشناخته شکست میخورد. روش مبتنی بر رفتار برای دوری از موانع عملکرد بهتری در مواجه با عدم قطعیتهای محیطهای پویا و ناشناخته داراست. برای دستیابی به یک ناوبری جامع و کارآمد، ربات به قابلیتهایی بیش از تواناییهای روشهای سلسله مراتبی و مبتنی بر رفتار به تنهایی احتیاج دارد. ربات نیازمند به کارگیری قابلیت های زیر به طور توامان می باشد: قابلیت درک و نمایش محیط برای جمعآوری و پردازش اطلاعات و عکسالعمل سریع برای دوری از موانع ایستا یا پویا، قابلیت مکان یابی خود نسبت به محیط، قابلیت استنباط و تصمیم گیری برای اتخاذ تصمیمات مورد اطمینان بر اساس اطلاعات مشخص. بنابراین، روشهای سلسله مراتبی و مبتنی بر رفتار ترکیب شدند و روش ترکیبی را تشکیل دادند، که سازگاری بهتری با مسایل ناوبری ربات در محیط های پویا و ناشناخته دارا میباشد. جدول(۲-۱) روشهای ذکر شده را از نظر معیارهای مورد توجه در ناوبری ربات به طور کیفی با یکدیگر مقایسه مینماید. جدول(۲-۲) به تعریف این معیارها می پردازد.
جدول(۲‑۱): مقایسه خصوصیات معماریهای مختلف [۳]
خصوصیات معماریها
سلسله مراتبی
مبتنی بر رفتار
ترکیبی
هدف گرایی
بسیار خوب
خوب نیست
خوب
انعطاف پذیری
بسیار بد
بسیار خوب
بسیار خوب
سهولت به کارگیری
بسیار بد
بسیار خوب
خوب
واکنش
بسیار بد
بسیار خوب
خوب
فرم در حال بارگذاری ...
[سه شنبه 1401-04-14] [ 06:36:00 ق.ظ ]
|