عدم نیاز به مدل­سازی و ذخیره مدل کامل و دقیق محیط
محاسبات و تاخیر کمتر میان عمل و ادراک
نسبت به رویکرد سلسله مراتبی مقاوم­ترو قابل اطمینان­تر می­باشد. از این لحاظ که در هنگام خطای یکی از واحدهای رفتاری، سایر واحدها به انجام وظایف خود ادامه می­ دهند.
معایب معماری مبتنی بر رفتار عبارتند از:
مساله تلفیق رفتارهای مجزا: تعامل میان سامانه ناوبری و محیط مشکل و کمتر قابل پیش ­بینی می­باشد.
رفتارها در سطح پایین هستند و رفتارهای سطح بالا را انعکاس نمی­دهند.
نبود ماژول تصمیم ­گیری می ­تواند برای بعضی مسایل پیچیده مناسب نباشد.

روش ترکیبی
علی رغم اینکه معماری مبتنی بر رفتار چهارچوب موفقی برای ناوبری ربات­های متحرک فراهم می ­آورد، هنوز برخی مشکلات در مواجه با محیط­های پویا و ناشناخته وجود دارند. یک رویکرد برای حل این مشکلات، ترکیب معماری­های سلسله مراتبی و مبتنی بر رفتار می­باشد. روش­های ترکیبی می توانند به سه دسته کلی طبقه بندی شوند [۱۶]: مدیریتی[۲۱]، سلسله مراتب حالت­ها[۲۲] و مدل گرا[۲۳]. در نوع مدیریتی [۲۱-۲۵] ماژول سلسله مراتبی مسئول تصمیم ­گیری در سطح بالاتر است. سپس تصمیمات برای پیاده­سازی به سطح پایین­تر که ماژول مبتنی بر رفتار است فرستاده می­شوند. هر ماژول سعی می­ کند مسایل را به تنهایی اصلاح و حل کند ولی چنانچه امکان پذیر نبود به ماژول بالادست خود ارجاع می­دهد. نوع سلسله مراتب حالت­ها [۲۶, ۲۷] دانش مربوط به حالت­های گذشته، حال و آینده ربات را به کار می­گیرد. لایه سلسله مراتبی برای پیش ­بینی آینده (طرح مسیر) نیازمند حالت گذشته ربات (کارهای انجام شده در گذشته) می­باشد. لایه مبتنی بر رفتار در حال عمل می­ کند (خود آگاهی) و مسئول انجام فرامین لایه سلسله مراتبی و تولید حرکت ربات می­باشد. نوع مدل گرا [۲۸] بیشتر بر مدل سراسری محیط تمرکز می­ کند و بیشتر مشابه روش سلسله مراتبی است. با این حال، لایه مبتنی بر رفتار فوراً از مدل سراسری به روز شده محیط استفاده می­ کند تا زمان پردازش کاهش یابد [۲۹].
روش­های ترکیبی معمول از سه لایه تشکیل می­شوند (شکل(‏۲‑۵)): سلسله مراتبی، تلفیق کننده و مبتنی بر رفتار. لایه سلسله مراتبی برای مسایل سطح بالا به کار می­رود تا طرح بهینه را تولید کند. محدودیت­های سطح بالا تشکیل شده اند از: ترکیب داده های حسگرها، ساخت نقشه و تصمیم ­گیری. سپس دستورات بهینه از سطح بالاتر به لایه مبتنی بر رفتار برای تولید عمل ارسال می­شوند. لایه تلفیق کننده مسئول نظارت میان تعامل لایه­ های سطح پایین و سطح بالا می­باشد [۳۰]. اجتماع مشخصه­های مختلف دو معماری سلسله مراتبی و مبتنی بر رفتار در روش ترکیبی معماری مقاوم و انعطاف­پذیر نوینی را تشکیل می­دهد.

شکل(‏۲‑۵): معماری ترکیبی جهت ناوبری ربات [۳]

مطالعات مرتبط
منطق فازی به دلیل خصوصیات موثر خود از قبیل عدم نیاز به مدل دقیق محیط، پایداری نسبت به داده ­های غیر قطعی و نویزی، پاسخ سریع و پیاده سازی آسان، ابزاری کارآمد برای حل مساله­ی ناوبری ربات خودمختار به شمار می­رود [۳۱-۳۴]. پارامترهای سامانه استنباط فازی گاهاً به طور غیربرخط تنظیم می­شوند. عموماً این تنظیم بر اساس دانش نخبه یا فرایند سعی و خطا انجام می­ شود، که در مورد موقعیت­های پیش ­بینی نشده کافی نمی ­باشد. برای حل این مشکل و طراحی سامانه تصمیم ­گیری فازی وفق پذیر با رویدادهای پیش ­بینی نشده، به کارگیری الگوریتم­های یادگیری ضروری به نظر می­رسد.
روش­های یادگیری را می توان در دو دسته­بندی کلی بامربی و بدون­مربی قرار داد. مشکل رویکردهای یادگیری بامربی، نظیر شبکه ­های عصبی، فراهم کردن داده ­های دقیق آموزشی است، که در مورد ناوبری خودمختار معمولاً در دسترس نیستند. حتی اگر این داده ها فراهم باشند، ممکن است فرایند یادگیری زمان­بر و پرهزینه باشد [۳۴-۳۶]. یکی از الگوریتم­های کارآمد یادگیری بدون­مربی، یادگیری تشدیدی [۳۷, ۳۸] است. برخلاف یادگیری بامربی که مقدار خروجی صحیح برای هر الگوی ورودی به منظور یادگیری در دسترس است، مساله­ی یادگیری تشدیدی به جای اطلاعات آموزشی از پیش آماده شده برای یادگیری، تنها دارای اطلاعات بسیار ساده­ی جریمه یا پاداش است. مهم­ترین دسته­ی الگوریتم­های یادگیری تشدیدی، مبتنی بر تخمین مقدار توابع ارزش جفت­های عمل-حالت هستند. این توابع ارزش تخمین می­زنند انجام عملی معلوم در حالتی معلوم چه پاداشی به همراه خواهد داشت. یادگیری Q یک روش پیاده­سازی یادگیری تشدیدی است، که در آن توابع ارزش جفت­های عمل-حالت، با نام Q شناخته می­­شوند. همیشه حالت­های مخفی­ای در محیط وجود دارد، که در مرحله­ یادگیری Q (مخصوصاً در صورت گسسته بودن حالت­ها) مشاهده نمی­شوند. بنابراین، الگوریتمی که تنها مبتنی بر یادگیری Q باشد، حتی در مواجه با تغییرات کوچک محیط قادر به یافتن استراتژی بهینه نیست. بنابراین، تعمیم مساله­ی مهمی در یادگیری تشدیدی محسوب می­ شود. یک راه حل این است که محیط به صورت مجموعه ­ای از حالات فازی مدل شود. به علت خاصیت تعمیم­پذیری فازی، بیان فازی حالات به طور موثر و بدون از دست رفتن اطلاعات تعداد حالات را کاهش می­دهد. با توجه به نکات بیان شده، به نظر می­رسد ترکیب الگوریتم فازی و یادگیری تشدیدی رویکردی مناسب جهت ناوبری ربات­های خودمختار باشد. الگوریتم فازی قابلیت پیاده­سازی رفتارهای مجزای ساده و به عبارتی نگاشت حالات به عمل­ها را داراست. لیکن در تشخیص خودکار اینکه کدام رفتار (عمل) در هر حالت بایستی اتخاذ شود، نیازمند به کارگیری الگوریتم یادگیری است. از طرفی، در صورت نگاشت مناسب حالات به عمل­ها، یادگیری Q در فعال­سازی رفتار مناسب، عملکرد مطلوبی دارد.
یادگیری Q داری ساختار بدون مربی و پویا، ساده و قابل پیاده سازی آسان می­باشد، که ابزاری کارآمد جهت تنظیم برخط سامانه استنباط فازی است [۳۷-۳۹]. استفاده از یادگیری Q برای تنظیم سامانه تصمیم ­گیری و پاسخ به محیط­ها و وقایع مختلف در واقع به نوعی یک روش ترکیبی است که بیشتر در دسته سلسله مراتب حالت­ها قرار می­گیرد و نیازمند مدل­سازی نیست. لایه سلسله مراتبی همان رویه اتخاذ شده در یادگیری Q (نحوه اعمال پاداش یا جریمه) می­باشد. ترکیب بین رفتارها در لایه سطح بالاتر و با در نظر گرفتن اهداف تاکتیکی با بهره گرفتن از یادگیری Q انجام می­ شود. ترکیب یادگیری Q و قوانین فازی در ادبیات به عنوان یادگیری Q فازی[۲۴] شناخته می­ شود [۳۹-۴۱]. به عنوان مثال، در مرجع [۴۱] تعدادی قانون فازی توسط منطق انسان به صورت غیربرخط طرح شدند، سپس یادگیری Q برای تنظیم قوانین فازی به صورت برخط به کار گرفته شد. بهترین خروجی­ها­ برای هر قانون فازی از میان تعدادی گزینه، توسط یادگیری Q انتخاب شدند. هدف الگوریتم ارائه شده در در مرجع [۴۱]، یافتن یک مجموعه قانون فازی بهینه پس از یک مرحله یادگیری می­باشد. این مجموعه قانون بهینه، سپس در آزمایش­ها به کار گرفته می­ شود. شناسایی ساختار مجموعه قوانین فازی، از قبیل تقسیم ­بندی فازی فضای ورودی و خروجی و تعیین تعداد قوانین فازی به صورت غیربرخط انجام می­ شود.
مسایل اساسی مرتبط با توانایی­های یادگیری سامانه استنباط فازی عبارتند از: ۱) تخمین پارامترهای توابع عضویت ورودی و خروجی و ۲) شناسایی ساختار مجموعه قوانین فازی که مربوط به تقسیم ­بندی فازی فضای ورودی و خروجی و تعیین تعداد قوانین فازی برای یک عملکرد مشخص است. مرجع [۴۰] یادگیریQ فازی پویایی[۲۵]، جهت رفتار تعقیب دیوار توسط ربات، ارائه می­ کند. روش ارائه شده در مرجع [۴۰]، توانایی تنظیم برخط سامانه­های استنباط فازی را داراست. شناسایی ساختار و پارامترها به طور خودکار و همزمان، تنها براساس یادگیری Q انجام می­شوند. کنترل­ کننده فازی اولیه، که از تجربیات شهودی یک فرد راننده استنباط می­ شود، می ­تواند به عملی امکان پذیر ولی دور از بهینه منجر شود. بنابراین، یادگیری تشدیدی برای تنطیم برخط کنترل­ کننده فازی به کار گرفته شد. چون قوانین فازی اولیه­ای تولید شده و به عنوان نقاط شروع استفاده می­شوند، می­توان پارامترهای بهینه را بدون تکرارهای بسیار زیاد به دست آورد. همچنین، ربات حتی در طول یادگیری می ­تواند با ایمنی قابل قبولی حرکت کند. همانگونه که در مرجع [۴۰] اشاره شد، دقت روش DFQL (ارائه شده در مرجع [۴۰]) از روش FQL (ارائه شده در مرجع [۴۱]) بالاتر است، ولی واضح است که پیچیدگی و زمان پردازش به علت تولید برخط قوانین و تعداد بیشتر آنها افزایش یافته است.
همچنین روش­های FQL و DFQL نیازمند به کارگیری یک مرحله یادگیری یا اکتشافی برای یافتن سامانه استنباط فازی بهینه می­باشند. به کارگیری این مرحله یادگیری مستلزم طراحی یک محیط یادگیری مناسب برای مواجه با محیط­های آزمایش شناخته می­باشد. بدیهی است طراحی چنین محیطی که منجر به تولید قوانین با خروجی ثابت و بهینه شود، بسیار در عملکرد سامانه تاثیرگذار است. طراحی مناسب محیط یادگیری، امری مشکل است علی­الخصوص که محیط­های آزمایش گستره‌ی وسیعی از پیچیدگی را از لحاظ تعداد، اندازه و شکل موانع شامل شوند. انگیزه­ روش پیشنهادی طرح الگوریتمی کارآمد و در عین حال ساده برای ناوبری موفق و خودمختار ربات در انواع محیط­های ساده تا پیچیده می­باشد. برای این منظور و ایجاد قابلیت انعطاف و وفق­پذیری در سامانه استنباط فازی مرحله یادگیری (اکتشافی) حذف شده است. هدف الگوریتم پیشنهادی، یافتن یک مجموعه قانون فازی ثابت و بهینه نیست. زیرا همانگونه که انتظار می­رود و در آزمایش­ها نیز تایید شده است، یک مجموعه قانون فازی ثابت (با خروجی ثابت) وفق­پذیری کافی برای مواجه با گستره­ی وسیع محیط­های آزمایش را ندارد. در روش پیشنهادی، یادگیری Q بدون هیچ مرحله یادگیری یا اکتشافی پیش از آزمایش الگوریتم به کار گرفته شده است. . بدین معنی که مقادیر q در هر آزمایش بدون پیش­فرض و از مقدار اولیه صفر شروع می­شوند، لذا محیط یادگیری جهت مقداردهی اولیه به مقادیر q وجود ندارد. دقت و کارایی یادگیری Q توسط تعریف مناسب سیگنال تشدیدی بهبود یافته است. پارامترهای کلیدی مجموعه فازی و یادگیری Q، شامل پارامترهای توابع عضویت ورودی فازی و همچنین مقدار عامل فراموشی یادگیری Q، توسط بهینه­سازی کلونی زنبور مصنوعی به صورت غیربرخط، پیش از قرار گرفتن ربات در محیط­های آزمایش، به دست آمده­اند. محیط بهینه­سازی شامل موانعی است که انتظار می‌رود خود یا ترکیبی از آنها در محیط­های آزمایش دیده شوند.
نتیجه گیری
از میان سه دسته­بندی کلی روش­های ناوبری ربات، روش سلسله مراتبی در سطح بالا برای به دست آوردن مسیر بهینه به سمت هدف مناسب است. با این حال، این روش در محیط­های پویا و یا ناشناخته شکست می­خورد. روش مبتنی بر رفتار برای دوری از موانع عملکرد بهتری در مواجه با عدم قطعیت­های محیط­های پویا و ناشناخته داراست. برای دستیابی به یک ناوبری جامع و کارآمد، ربات به قابلیت­هایی بیش از توانایی­های روش­های سلسله مراتبی و مبتنی بر رفتار به تنهایی احتیاج دارد. ربات نیازمند به کارگیری قابلیت ­های زیر به طور توامان می باشد: قابلیت درک و نمایش محیط برای جمع­آوری و پردازش اطلاعات و عکس­العمل سریع برای دوری از موانع ایستا یا پویا، قابلیت مکان­ یابی خود نسبت به محیط، قابلیت استنباط و تصمیم ­گیری برای اتخاذ تصمیمات مورد اطمینان بر اساس اطلاعات مشخص. بنابراین، روش­های سلسله مراتبی و مبتنی بر رفتار ترکیب شدند و روش ترکیبی را تشکیل دادند، که سازگاری بهتری با مسایل ناوبری ربات در محیط های پویا و ناشناخته دارا می­باشد. جدول(۲-۱) روش­های ذکر شده را از نظر معیارهای مورد توجه در ناوبری ربات به طور کیفی با یکدیگر مقایسه می­نماید. جدول(۲-۲) به تعریف این معیارها می ­پردازد.
جدول(‏۲‑۱): مقایسه خصوصیات معماری­های مختلف [۳]

خصوصیات معماری­ها
سلسله مراتبی
مبتنی بر رفتار
ترکیبی
هدف گرایی

بسیار خوب

خوب نیست

خوب

انعطاف پذیری

بسیار بد

بسیار خوب

بسیار خوب

سهولت به کارگیری

بسیار بد

بسیار خوب

خوب

واکنش

بسیار بد

بسیار خوب

خوب

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...