دادگان توليد شده در پروژه قرآن جوي  

مقدمه

هدف اين پروژه تحقيقاتي طراحي و پياده سازي يک سامانه پرسش و پاسخ به زبان فارسي براي حوزه قرآني بود. ليکن از همان ابتدا با موانع و مشکلات زيادي براي پردازش زبان فارسي مواجه شديم. متاسفانه تاکنون سرمايه گذاري ها روي تحقيقات زبان فارسي محدود بوده اند و برخلاف زبان هاي ديگر مانند انگليسي، ابزارهايي پرازش زبان طبيعي براي فارسي نادر مي باشند و يا پوشانندگي لازم براي استفاده در يک سامانه عمياتي را ندارند. گريزي نبود جز اينکه براي نيل به هدف ابزارهاي مورد نياز را نيز بسازيم. بدين منظور دادگاني جهت آموزش ابزارها توليد شدند.

در اين بخش برخي از اين دادگان فارسي که در طول پروژه سامانه پرسش و پاسخ قرآن جوي توليد شده اند خدمت پژوهشگران محترم اين حوزه معرفي ميگردد. دريافت همه منابع براي محققان محترم رايگان بوده ليکن براي استفاده تجاري نياز به کسب موافقت مرکز تحقيقات مخابرات ايران مي باشد. روش دريافت و همچنين روش ارجاع به مقالات آنها براي هر يک از منابع در برگه مربوطه ذکر شده است.

مقدمه

برچسب‌گذاري معنايي عملي در پردازش زبان طبيعي است که عبارت است از استخراج آرگومان‌هاي (arguments) معنايي گزاره يا فعل جمله و دسته‌بندي آنها به نقش‌هاي خاص. اين دسته‌بندي‌ها رابطه معنايي بين آرگومان‌هاي فعل و فعل را نشان مي‌دهد. برخي از نقش‌هاي معنايي عبارتند از عامل (Agent)، کنش‌پذير (Patient)، ابزار (Instrument)، بهره‌ور (Beneficiary) و غيره. مشکلي که درباره دسته بندي اين نقش‌ها وجود دارد اين است که درباره تعداد و تعريف آنها اتفاق نظر وجود ندارد. معناشناسان مختلف فهرست‌ها و تعاريف گوناگوني در ارتباط با نقش‌هاي معنايي ارائه داده‌اند. براي حل چنين مشکلاتي، پيرو روش PropBank، فهرستي متشکل از آرگومان‌هاي فعل بدون اشاره به نام آنها ايجاد شده است. به اين ترتيب که به‌جاي عناويني مانند عامل، کنش‌پذير، ابزار و غيره از عناوين آرگومان1، آرگومان2، آرگومان3، آرگومان4، آرگومان5 استفاده مي‌شود. در اين صورت هريک‌از نقش‌هاي نحوي که وظيفه مشابهي در جمله دارند، زير اين عناوين دسته‌بندي مي‌شوند. براي نمونه در جملات زير:

  • علي ليوان را پرتاب کرد.
  • مهران از ديوار پريد.

علي و مهران هر دو آرگومان هستند. چون وظيفه آنها در جمله مشابه است و نقش نحوي مشابهي را دارند.

 

 

يکي از کاربردهاي نقش‌دهي به اجزاي نحوي در سامانه‌هاي پرسش‌وپاسخ ديده مي‌شود. اين گونه سامانه‌ها نوع پيچيده‌تري از سامانه‌هاي بازيابي اطلاعات هستند که يک پرسش را به زبان طبيعي از کاربر دريافت نموده و سپس جواب را از منبع دانش خود استخراج مي‌نمايد و به کاربر بازمي‌گردانند. در مقايسه با سامانه‌هاي کلاسيک بازيابي اطلاعات که در آنها واحد ارائه اطلاعات يک سند است اين سامانه‌ها تلاش مي‌نمايند «جواب دقيق» را مستقيماً محاسبه نمايند. بايد توجه کرد که کاربري که به سامانه‌هاي جستجوي اطلاعات مراجعه مي‌نمايد، اغلب در پي يافتن پاسخي صحيح، موجز و قابل درک مي‌باشد که مي‌توانند به يک کلمه، جمله، پاراگراف، تصوير، صوت و يا يک سند ارجاع دهد؛ لذا از اين جهت سامانه‌هاي پرسش‌وپاسخ نوع عالي‌تري از سامانه‌هاي بازيابي اطلاعات محسوب مي‌شوند. سامانه پرسش‌وپاسخ قرآني «قرآن‌جوي» به‌عنوان اولين سامانه پرسش‌و‌پاسخ عملياتي و خودكار فارسي كه دامنه آن حوزه قرآن مي‌باشد، با هدف تسهيل و تسريع فرايند دسترسي به اطلاعات قرآني و نيز ايجاد زمينه‌هاي لازم در جهت توسعه تحقيقات و پژوهش‌هاي حوزه قراني در پژوهشگاه ارتباطات و فناوري اطلاعات پياده‌سازي گرديد.

براي نيل به هدف سامانه‌هاي پرسش‌وپاسخ بايد درک معنا توسط سامانه را ممکن ساخت. براي اين منظور لازم است علاوه بر تجزيه‌وتحليل زبان طبيعي در سطح واژگان و نحو، سطح معنايي نيز تجزيه و برچسب‌گذاري شود.

چارچوب به‌کارگرفته‌شده براي برچسب‌گذاري نحوي زبان فارسي دستور وابستگي (Tesnière, 1957) است و بر اين اساس چهارچوب تجزيه معنايي ارائه شده است. به اين ترتيب که ابتدا طبق دستور وابستگي برچسب‌گذاري نحوي را انجام داديم و سپس براساس نقش‌ها و روابط نحوي به‌‌دست‌آمده برچسب‌گذاري معنايي را عملي کرديم. در رويکرد وابستگي هر جمله يک فعل مرکزي دارد و ساخت بنيادين جمله، براساس نوع و تعداد متمم‌هاي (complements) اجباري و اختياري آن تعيين مي‌شود. طبيب‌زاده (1385؛ 1391) دستور وابستگي را در زبان فارسي به کار برده است و ما در اين پژوهش با تمرکز بر اطلاعات وي برچسب‌گذاري نحوي و معنايي زبان فارسي را به انجام رسانديم.

پيکره خروجي اين پروژه شامل 3500 جمله برچسب‌گذاري‌شده با دست و 763 قاب فعل و ظرفيت معنايي آنها است که به‌همراه شيوه‌نامه توليد پيکره، جهت کاربردهاي تحقيقاتي به‌صورت رايگان در اختيار پژوهشگران قرار گرفته است.

پيکره تجزيه معنايي ParsQA PropBank

پيکره تجزيه معنايي ParsQA PropBank به دو روش قابل استفاده پژوهشگران محترم مي باشد. روش اول مرور برچسب گذاري ها به صورت آنلاين مي باشد. روش دوم دانلود بانک هاي داده در قالب CoNLL X مي باشد. اين فايل متني کليه دانش برچسب گذاري نحوي و معنايي را دارد (مطابق استاندارد CoNLL) ولي اطلاعات قاب ها (Frames) و روابطه بين قاب ها طبق استاندارد در اين فايل وجود ندارد. اين رابطه ها به صورت جداگانه و در قالب MySQL Dump قابل دانلود است.

 

   
دانلود نسخه MySQL *   دانلود نسخه CoNLL-X *   مرور آنلاين پيکره

 

* توجه: دانلود و استفاده از منابع ستاره دار مستلزم تکميل فرم مربوطه مي باشد. لطفا فرم درخواست منابع را از اينجا يا اينجا دريافت داشته و پس از تکميل به آدرس ايميل ذکر شده در فرم ارسال فرماييد.

شيوه نامه برچسب گذاري معنايي

روش برچسب گذاري معنايي و همچنين معاني روابط و برچسب ها به صورت دقيق و کامل در شيوه نامه زير مستند گرديده است. اين مستند براي فهم پيکره ParsQA Propbank و همچنين ادامه برچسب گذاري آن لازم و کافي مي باشد.

شيوه نامه معنايي ParsQA PropBank

ارجاع به مقالات

پژوهشگران محترم لطفا جهت ارجاع به پيکره تجزيه معنايي ParsQA PropBank از اين مقاله استفاده نمايند:

...

راهنمايي

پژوهشگران محترم مي توانند پرسش ها تکميلي خود را به آدرس زير ارسال فرمايند:

  • darrudi@itrc.ac.ir
© تمام حقوق براي مرکز تحقيقات مخابرات ايران محفوظ است.