تطبیق جنس و تعداد
تطبیق معنایی

مشابهت معنایی
مشابهت نحوی
بارز بودن
مجاورت

در روش‏های زبان‏شناسی، روال کار به این صورت است که ابتدا به ازای یک عبارت تالی، عبارات مقدم(عبارات هم‏مرجع) کاندیدای آن تعیین می‏گردد. پس از آن با بهره گرفتن از فاکتورهای «حذف‏کننده»، برخی از کاندیداها حذف می‏شوند، سپس فاکتورهای امتیازدهنده به امتیازدهی کاندیداهای باقیمانده می‏پردازند. در نهایت نیز کاندیدایی که بیشترین امتیاز را کسب کرده باشد به عنوان عبارت مقدم که با عبارت اسمی مورد نظر هم‏مرجع می‏باشد، انتخاب خواهد شد.
۲-۱-۲-۱.فاکتورهای «حذف کننده»
۲-۱-۲-۱-۱.تطبیق جنس و عدد
این دو فاکتور بررسی می‏پردازند که آیا دو عبارت اسمی از نظر جنس و تعداد با یکدیگر مطابق هستند یا خیر.
Alii asked Zahraj and Herj sistersk that leave himi alone مثال۱:
همان طور که مشاهده می‏شود در مثال بالا “her sisters” نمی‏تواند با “him” هم‏مرجع باشد چراکه از نظر جنس و تعداد با یکدیگر مطابقت ندارند.
۲-۱-۲-۱-۲ .تطبیق معنایی
این فاکتور از این جهت به کار می‏رود که اگر یک عبارت اسمی در یک حوزه معنایی صادق بود، عبارت اسمی هم‏مرجع آن نیز باید در آن محدوده‏ی معنایی صادق باشد.
Alii closed the windowj and cleaned itj : مثال ۲
همانطور که مشاهده می‏شود، ضمیر it”” تنها می‏تواند با عبارت اسمی “window” که غیرجاندار و قابل تمیز کردن است هم‏مرجع باشد.
۲-۱-۲-۲. فاکتورهای امتیازدهنده
فاکتورهای امتیازدهنده، برخلاف فاکتورهای حذف‏کننده که الزاماً باید بررسی شوند اجباری نیستند. به این ترتیب لزومی ندارد که تمامی عبارت‏های اسمی با مرجع مشترک دارای این فاکتورها باشند. در این بخش سه فاکتور مشابهت نحوی، مشابهت معنایی و بارز بودن را به همراه مثال شرح می‏دهیم.
۲-۱-۲-۲-۱. مشابهت نحوی
این امتیاز زمانی به یک عبارت اسمی تعلق می‏گیرد که نقش نحوی آن با عبارت اسمی هم‏مرجع کاندیدا یکسان باشد.
The programmeri finally combined the Prologj with Pascalk, currently heiمثال۳:
had combined itj with Cm
در مثال فوق، از آن جایی که عبارت اسمی “prolog” با “it” نقش نحوی یکسانی دارد، برای هم‏مرجع بودن با آن امتیاز بیشتری به عبارت اسمی “Pascal” دارد.

( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

۲-۱-۲-۲-۲. مشابهت معنایی
مشابهت معنایی، نسبت به فاکتور قبل، تاثیر بیشتری در امتیازدهی دارد. با این تفاوت که تنها سیستم‏هایی می‏توانند از آن بهره ببرند که قادر به تعیین خودکار نقش معنایی هر عبارت باشند. این فاکتور، به عبارت اسمی که نقش معنایی یکسانی با عبارت اسمی مورد نظر داشته باشد، امتیاز بیشتری می‏دهد.
Alii gave the book to Rezaj; Zahrak also gave himj a notebook مثال۴:
در مثال فوق، احتمال هم‏مرجع بودن ضمیر “him” با ” Reza”بیشتر است به این دلیل که عبارت اسمی “”Reza، نسبت به “”Ali دارای امتیاز بالاتری می‏باشد و همچنین نقش نحوی “Reza” باHim” ” یکسان است.
۲-۱-۲-۲-۳.بارز بودن
هر چند دو فاکتور قبل در انتخاب یک مقدم برای تالی مورد نظر، بسیار قوی هستند، اما این فاکتورها همیشه برای تفکیک میان مجموعه کاندیدا از عبارات اسمی مقدم کافی نیستند. بعلاوه این عوامل به جای پیشنهاد کاندیدای محتمل‏تر، بیشتر مانند یک فیلتر برای حذف کردن کاندیدای نامناسب به کار می‏روند.
در این میان، هنگامی که در انتخاب مقدم کاندیدا ابهام وجود داشته باشد، معمولا عبارت اسمی که بارزتر از سایرین است، دارای امتیاز بیشتری برای عبارت اسمی مقدم می‏باشد. بارزترین عنصر[۷۰] در زبان‏شناسی محاسباتی[۷۱]، به‏عنوان کانون توجه[۷۲] و یا مرکز[۷۳] در نظر گرفته می‏شود [۱۰،۶۰]
Jennyi put the cupj on the platek and broke it? مثال ۵ :
همان طور که در مثال بالا مشاهده می‏نمایید نه تنها رایانه، بلکه حتی انسان نیز قادر نیست تا مرجع ضمیر “it” را مشخص نماید. البته در صورتی که این جمله، بخشی از یک متن باشد، می‏توان بارزترین عنصر را در متن شناسایی نمود. به این ترتیب با توجه به متن مثال ۶ می‏توان مشاهده نمود که “The cup” بارزترین موجودیت در متن بوده و به همین دلیل به‏عنوان کانون توجه در کل متن در نظر گرفته می‏شود.
مثال۶:
Jenny went window shopping yesterday and spotted a nice cup. She wanted to buy it, but she had no money with her, nevertheless, she knew she would be shopping the following day, so she would be able to buy the cup then. The following day, she went to the shop and bought the coveted cup. However, once back home and in her kitchen, she put the cup on a plate and broke it…
به این ترتیب می‏توان نتیجه گرفت که هرگاه دو کاندیدا در شرایط یکسانی قرار گرفته باشند، فرایند تعیین عبارت مقدم، به فرایند تعیین بارزترین عنصر جمله تبدیل می‏شود.
همان طور که گفته شد، روش‏های زبان‏شناسی، برای تشخیص مرجع مشترک از دانش‏های نحوی، معنایی، ریخت شناسی[۷۴] و حتی دانش جهان[۷۵] استفاده می‏پردازند. به این ترتیب کسب این حجم عظیم از اطلاعات فرآیندی پرهزینه، زمانبر و همچنین پرخطا را به دنبال خواهد داشت. به همین دلیل و به علت پدید آمدن پیکره‏های بزرگ زبان‏شناسی، پژوهشگران به سمت استفاده از روش‏های آماری ترغیب شدند.
۲-۱-۳. روش‏های یادگیری ماشینی
در سیستم‏های مبتنی بر یادگیری ماشین، دانش مورد نیاز از طریق استفاده از الگوریتم‏های یادگیری و مجموعه داده‏های آموزشی کسب می‏شود. شاید بتوان گفت که استفاده از روش‏های یادگیری ماشینی در فرایند تشخیص مرجع مشترک نخستین بار توسط مک کارتی[۷۶] و همکارانش در سال ۱۹۹۵ و با به کارگیری مدل‏های درخت تصمیم[۷۷] انجام شد[۵۲]
یکی از رویکرد‏های ارائه شده در تحلیل مرجع مشترک، تحلیل مرجع مشترک پایان به پایان[۷۸] می‏باشد؛ این رویکرد می‏تواند به دو صورت دنبال شود، (۱) دریافت متن خام و انجام تمام پیش پردازش‏ها بر روی متن و در نهایت تحلیل مرجع مشترک، (۲) استفاده از متونی که در آن‏ها عبارت‏های اسمی‏ای که به موجودیت‏ها ارجاع دارند، در قالب «اشاره‏ها» نشانه‏گذاری شده باشند.[۶۳] به طوریکه هر اشاره دارای برچسب‏های باشد تا ویژگی‏های آن اشاره را نمایان سازد.
با تکیه بر این مسئله نخستین بار سون و همکارانش در ۲۰۰۱، از پیش پردازش‏هایی مانند برچسب‏گذاری‏ ادات سخن، شناسایی موجودیت‏های نامدار و … استفاده کرده و در نهایت تمام نتایج حاصل از پیش پردازش‏ها را با هم ادغام نمودند. به این ترتیب آن‏ها توانستند به اطلاعات مناسبی برای اشاره‏ها دست پیدا کنند. به دنبال آن‏ها این مسئله به طور گسترده‏تر مورد توجه پژوهشگران قرار گرفت. به طوریکه در اغلب پژوهش‏هایی که از انواع روش‏های رده‏بندی برای تشخیص ارتباط میان اشاره‏ها استفاده شده‏است، مشخص نمودن مجموعه‏ای از ویژگی‏های مناسب یک مسئله حیاتی برای شروع کار محسوب می‏شود. این مجموعه ویژگی‏ها در تعیین اینکه آیا دو عبارت اسمی با هم، هم‏مرجع هستند یا خیر، موثر می‏باشند. بعلاوه، این ویژگی‏ها باید به اندازه کافی عمومی‏باشند تا بتوان آن‏ها را برای متن ها در زمینه[۷۹]‏های متفاوت و انواع گوناگون اسم‏ها و عبارت‏های اسمی به کار برد.
۲-۱-۳-۱. ویژگی‏ها:
از لحاظ زبان‏شناسی ویژگی‏های گفته شده به چهار دسته‏ی لغوی، نحوی، معنایی و فاصله (مکانی) تقسیم می‏شوند.[۱۰۵] البته، در طی سال‏های اخیر پژوهشگران برای بهبود نتایج تحلیل مرجع مشترک دامنه‏ی ویژگی‏ها را گسترش داده ‏اند، به طوریکه برخی از پژوهشگران معتقدند اگر یک بازنمائی مناسب از ویژگی‏های غنی وجود داشته‏باشد، حتی یک مدل ساده نیز می‏تواند مانند تکنولوژی‏های جدید عمل نماید.[۴۵]در جدول۲-۲ یک طبقه‏بندی از ویژگی‏های رایج برای تحلیل مرجع مشترک آورده شده است.
۲-۱-۳-۲. مدل‏های جفت اشاره[۸۰]:
یکی از روش‏های رایج برای تحلیل مرجع مشترک، استفاده از رده‏بندی دودوئی می‏باشد؛ در روش‏های رده‏بندی، تصمیم‏ گیری بر اساس یک جفت اشاره صورت می‏گیرد. عموماً روال کار به این ترتیب است که دو اشاره توسط یک رده‏بند دریافت می‏شود و درنهایت مشخص می‏شودکه آیا دو عبارت با یکدیگر هم‏مرجع هستند یا خیر. حتی در برخی موارد میزان احتمالِ هم‏مرجع بودن آن‏ها نیز تعیین می‏گردد. در آخر نیز مجموع این تصمیمات دوبه‏دو به مسئله‏ی افراز اشاره‏ها تبدیل می‏گردد. که می‏تواند با بهره گرفتن از خوشه‏بندی و یا هر روش افراز دیگر انجام گیرد. یکی از محاسن این دسته از روش‏ها در سادگی آن‏ها می‏باشد. علاوه براین، مدل‏های بسیاری برای حل مسائل رده‏بندی وجود دارند که از کارائی بالایی برخوردار می‏باشند. از سوی دیگر، مشکل این دسته از روش‏ها در این است که تصمیم‏ گیری در مورد جفت عبارات اسمی، به صورت مستقل انجام می‏گیرد و روابط متعددی در تصمیم‏ گیری در نظر گرفته نمی‏شود. به عبارت دیگر مشکلی به نام «ناسازگاری‏های سه‏گانه[۸۱]» بوجود خواهند آمد. به‏عنوان مثال، در روش‏های رده‏بندی، اگر عبارت‏های “Mrs. Kazemi” و “Kazemi” هم‏مرجع باشند احتمال اینکه عبارت‏های “Kazemi “و “he” نیز با هم، هم‏مرجع باشند وجود دارد [۶]. از آنجائیکه این دو تصمیم به طور جداگانه گرفته می‏شود؛ امکان بروز این خطا که در جفت اول، جنس از نوع مونث، اما در عبارت دوم، جنس از نوع مذکر است و هر سه نمی‏توانند به یک مرجع مشترک اشاره داشته باشند، غیر قابل اجتناب است.[۶۳،۷۶]
برطرف کردن چنین مشکلی به مسئله خوشه‏بندی برمی‏گردد. البته شایان ذکر است که بر طرف کردن چنین خطایی در زبان پارسی، حتی با بهره گرفتن از خوشه‏بندی نیز آسان نخواهد بود، چرا که جنسیت در زبان پارسی مشخص نیست، در هر حال، با توجه به این مسئله، روال کار در مدل‏های مبتنی بر جفت اشاره در دو مرحله انجام خواهد شد. اما پیش از آنکه بخواهیم هر کدام از این دو مرحله (رده ‏بندی و افراز) را شرح دهیم، به طور خلاصه به روال تولید نمونه‏های آموزشی مثبت و منفی از متن ورودی می‏پردازیم.

جدول۲-۲: برخی از ویژگی‏های ارائه شده در تحلیل مرجع مشترک[۱۲،۴۴،۴۵،۵۰،۶۵،۷۷،۸۲،۱۰۳،۱۰۵]

ویژگی

توضیح

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...