پارسي پرداز  


 
تشخيص کلمات مرکب
جدا سازي واژه بست ها
 
 

لطفا مسير فايل خود را وارد فرماييد:

لطفا صبر نماييد ...نکات مهم:

  • فايل شما بايد در قالب متني با کدبندي يونيکد باشد.
  • حداکثر حجم فايل ورودي در حال حاضر صد کيلوبايت است.
  • براي نتيجه بهتر، هر جمله را در يک خط قرار دهيد.
  • مدت زمان پردازش وابسته به حجم فايل و تعداد جملات است.
 


چينش مولفه ها:

نکته:

  • فقط يک جمله وارد شود (در غير اينصورت سامانه پاسخي توليد نخواهد کرد).
  • جمله بايد از لحاظ قواعد نگارشي و املايي صحيح و معتبر باشد.

مثال ها:

شماره کلمه کلمه لم جزء سخن درشت جزء سخن ريز ويژگي‌ها رابطه نحوي مبدأ رابطه

لطفا مسير فايل خود را وارد فرماييد:

لطفا صبر نماييد ...نکات مهم:

  • لطفاً هر جمله را در يک خط قرار دهيد (هر جمله منتهي به يک Enter باشد). در غير اينصورت سامانه پاسخي توليد نخواهد کرد.
  • فايل شما بايد در قالب متني با کدبندي يونيکد باشد.
  • حداکثر حجم فايل ورودي در حال حاضر صد کيلوبايت است.
  • مدت زمان پردازش وابسته به حجم فايل و تعداد جملات است.

نکته: نحوه نمايش درختي تجزيه نحوي از وبگاه «مرجع دادگان زبان فارسي» متعلق به دبيرخانه شوراي عالي اطلاع رساني اقتباس شده است.


فهرست

معرفي

ابزار پارسي‌پرداز (ParsiPardaz - نسخه آزمايشي)، توسط اعضاي پروژه سامانه پرسش و پاسخ قرآني در پژوهشکده ملي فضاي مجازي (مرکز تحقيقات مخابرات)، توليد و پياده‌سازي شده است. زبان فارسي به دليل کمبود منابع زباني جزو زبان‌هايي است که از نظر ابزارهاي پردازش زبان با محدوديت‌هاي بسياري مواجه است. اکثر تحقيقاتي که تا کنون بر روي پردازش زبان فارسي انجام شده است، بر روي پردازش يک حوزه محدود از زبان تمرکز کرده‌اند. ابزار پارسي پرداز يک ابزار جامع پردازش زبان فارسي مي‌باشد که در بسياري از پروژه‌هاي مرتبط با زبان‌شناسي رايانشي قابل به کارگيري خواهد بود، به نحوي که با دريافت متن خام فارسي، پردازش‌هاي زبان فارسي را از پايين‌ترين لايه‌ پردازش زبان طبيعي يعني لايه لغوي آغاز کند و تا لايه‌هاي بالاتر مانند لايه دستور و معنا ادامه دهد. اين نرم افزار قادر است ترکيبي از يکسان‌سازي، قطعه‌بندي، برچسب‌گذار جزء کلام، تحليل‌گر ساختواژي شامل ريشه‌ياب و لم‌ياب ، تجزيه‌گر نحوي وابستگي و در نهايت برچسب‌گذار نقوش معنايي(SRL)، را اجرا کند. نتايج آزمايشات دقت و کارايي بالايي را براي اين ابزار نشان داده‌اند. مقاله مرتبط با اين ابزار در کنفرانس ICCKE 2013 پذيرفته شده و در IEEEE نمايه بندي شده است.

يکسان‌ساز

وظيفه ابزار يکسان‌ساز، يکسان‌سازي برخي نويسه‌ها و حذف حرکه‌هاي موجود در متن مي‌باشد. اين کار به سبب وجود نويسه‌هاي متفاوت براي يک حرف در رسم الخط فارسي جزء ضروريات اوليه مي‌باشد. نويسه‌هايي مانند "ي"، "ک"، "الف" و ... در اين قسمت يکسان‌سازي شده و حرکه‌هايي مانند انواع تنوين، همزه، تشديد و ... در اين قسمت حذف مي‌شوند.

قطعه‌بند

ابزار قطعه‌بند، شامل سه ابزار واژه‌ياب، غلط‌ياب و ويراستکار مي‌باشد. در گام اول، پس از يکسان سازي متن، در ابزار واژه‌ياب به برطرف کردن برخي ابهام‌هاي موجود در فاصله ميان کلمات ترکيبي مي‌پردازيم که شامل اين موارد است: اصلاح ساختار افعال با تمام تصريفات ممکن آنها، وندهاي صرفي مانند "ها" و همچنين مشکل رايج در "مي" که با فاصله نوشته مي‌شود مثل "مي‌روم". در گام دوم، در ابزار غلط‌ياب، در صورتي که کاربر واژه‌اي را به صورت ناصحيح وارد کند، سيستم آن را اصلاح مي‌کند. البته اين غلط‌يابي فعلا در اين نسخه فقط بر روي سرهم يا جدانويسي افعال و اسامي مي‌باشد. در گام سوم، ابزار ويراستکار، در زمينه نگارش کلمات خواهد بود که به صورت رايج با فاصله تمام نوشته مي‌شود ولي در واقع به صورت درست(مصوب فرهنگستان) بايد با نيم فاصله نوشته شود.

لم‌ياب

در ابزار لم‌ياب، براي هر کلمه، يک و فقط يک ريشه که همان لم کلمه در جمله مي‌باشد، بازگردانده مي‌شود. اين ابزار با توجه به برچسب جزء كلام هر کلمه، يعني نقش کلمه در جمله، لم کلمه را تشخيص مي‌دهد. به اين منظور، در اين ابزار از برچسب‌گذار جزء کلام پارسي‌پرداز استفاده شده است و به دليل دقت بالاي ابزار برچسب-گذار، دقت لم‌ياب نيز خوب نشان داده شده است. براي استفاده از لم‌ياب، ورودي بايد در قالب جمله باشد. يک نمونه از اجراي لم‌ياب بر روي جملات با کلمات مشابه ولي داراي نقش‌هاي متفاوت در زير نشان داده مي‌شود.

ريشه‌ياب

در ابزار ريشه‌ياب، تمام ريشه‌هاي ممکن يک کلمه، به همراه صورت واجي آنها، فرکانس رخداد آنها در پيکره و برچسب جزء کلام آنها استخراج مي‌شود. مثلا براي کلمه دانشکده‌هايم، ريشه‌هاي دانش و دانشکده بازيابي مي-شود. در قسمت ريشه، پرفرکانس‌ترين ريشه نمايش داده مي‌شود.

برچسب‌گذار جزء کلام

ابزار برچسب‌گذار جزء کلام پارسي‌پرداز، از موتور برچسب‌گذار استنفورد استفاده کرده‌است که يکي از مجموعه ابزارهاي پردازش زبان طبيعي متن‌باز دانشگاه استنفورد مي‌باشد که بر اساس مدل ماکزيمم آنتروپي عمل برچسب‌گذاري را انجام مي‌دهد. اين برچسب‌گذار به دفعات توسط گروه پردازش زبان طبيعي دانشگاه استنفورد مورد بازبيني قرار گرفته و بهبود يافته است. پس از ادغام دو پيکره دادگان و بيجن‌خان و يکسان کردن برچسب‌هاي جزء کلام آنها، موتور استنفورد روي اين پيکره ادغامي جديد آموزش ديد. نتايج دقت 98% را براي اين برچسب‌گذار نشان داده است.

تجزيه‌گر نحوي

در ابزار تجزيه‌گر نحوي، مي‌خواهيم نقش هر کلمه را در داخل جمله بررسي کنيم و ببينيم وابستگي هر کلمه به کلمه ديگر چگونه است. براي رسيدن به اين هدف از يک تجزيه‌گر وابستگي استفاده شده که روي بانک درختي وابستگي دادگان آموزش ديد. بانک درختي دادگان در اين پروژه با برچسب‌هاي POS خاص اين پروژه، مجددا ساخته شد و به عنوان يک پيکره آموزش به موتور يادگيري MaltParser داده شده است. دقت بدست آمده براي تجزيه‌گر فارسي در اين پژوهش، 87% براي تشخيص رابطه و نوع رابطه و دقت 91% فقط براي تشخيص رابطه بوده است.

تجزيه‌گر معنايي

در حال ساخت

مقالات

لطفا در صورت استفاده از پارسي پرداز به مقاله زير ارجاع دهيد:

Download Title

ParsiPardaz: Persian Language Processing Toolkit, Zahra Sarabi, Hooman Mahyar, Mojgan Farhoodi, ICCKE2013.

Abstract

ParsiPardaz Toolkit (Persian Language Processing Toolkit), which is introduced in this paper, is a comprehensive suite of Persian language processing tools, providing many computational linguistic applications. This system can process and advance all fundamental tasks required for different layers of Persian language processing from its initial layer which is lexical layer up to upper layer which are syntax and semantics. ParsiPardaz Toolkit performs a combination of normalization, tokenization, Spell checker, part of speech tagger, morphological analysis includes lemmatizing and stemming, Persian dependency parser and finally semantic role labeling (SRL). The results show high performance and accuracy.

دريافت بسته پارسي‌پرداز

بسته ابزارهاي پردازش زبان فارسي "پارسي‌پرداز" توسط پژوهشكده فناوري اطلاعات «مرکز تحقيقات مخابرات ايران» تهيه شده است. اين مجموعه با هدف توسعه پژوهش در زمينه پردازش، بازيابي و داده‌كاوي متون فارسي تهيه شده است. علاوه بر استفاد برخط از طريق اين وبگاه، پژوهشگران محترم مي تواند براي امور پژوهشي کل برنامه ابزارها را دريافت دارند. بدين منظور لطفا فرم درخواست ابزارها را را از اينجا يا اينجا دريافت داشته و پس از تکميل به آدرس ايميل ذکر شده در فرم ارسال داريد. پس از بررسي فرم توسط «مرکز تحقيقات مخابرات ايران»، لينک   دانلود براي شما با ايميل ارسال مي گردد.

نکته: استفاده تجاري از ابزارها بدون دريافت مجوز كتبي از «مرکز تحقيقات مخابرات ايران» ممنوع مي باشد.

© تمام حقوق براي مرکز تحقيقات مخابرات ايران محفوظ است.