کد خبر: 8789

نرم‌افزار تولید درخت‌بانک نحوی جملات فارسی تهیه شد

سینا: نرم‌افزار تولید درخت بانک پیکره متنی زبان فارسی به عنوان یکی از زیرساخت‌های مدل‌سازی نحو جملات زبان فارسی جهت تولید و توسعه نرم‌افزارهای کاربردی پردازش متون و گفتار فارسی با همکاری دبیرخانه شورای عالی اطلاع‌رسانی و آزمایشگاه زبان‌شناسی دانشگاه تهران تهیه شد.
به گزارش آژانس خبری صنعت ارتباطات (سینا) از واحد ارتباطات دبیرخانه  شورای عالی اطلاع‌رسانی، با توجه به اهمیت توسعه خط و زبان فارسی در محیط رایانه‌ای و مورد توجه قرار گرفتن آن در برنامه‌های راهبردی کشور از جمله سند چشم‌انداز بیست‌ساله و نقشه جامع علمی کشور، تولید زیرساخت‌ها و نرم‌افزارهایی که بتوانند این موضوع را تحقق بخشند، حائز اهمیت فراوان است.
در این میان یکی از این زیرساخت‌ها، درخت‌بانک گروه‌های نحوی متون فارسی است تا امکان تعبیر و تفسیر جملات زبان فارسی در سطح نحو را برای تولید و توسعه نرم‌افزارهای کاربردی پردازش متون و گفتار فارسی در محیط رایانه‌ای ایجاد کند.
با توجه به این که در سال ۱۳۸۴ بخشی از زیرساخت‌های موردنظر در چارچوب طرح دادگان ملی زبان فارسی در دبیرخانه شورای عالی اطلاع‌رسانی پیش‌بینی و طراحی شد و در سال ۱۳۸۶ در جهت استانداردسازی بخشی از این دادگان تحت عنوان “پیکره متنی زبان فارسی” گام اولیه برداشته شد، تولید درخت‌بانک متون این پیکره در دستور کار کارگروه خط و زبان فارسی در دبیرخانه قرار گرفت.
هدف از طرح فعلی نوشتن نرم‌افزاری بود که بتواند با دقت قابل‌قبولی متون پیکره را در قالب یک نظریه زبان‌شناختی تجزیه و تحلیل نحوی کند تا از میزان کار دستی به میزان زیادی بکاهد.
مسئله اصلی استخراج قواعد دستوری زبان نوشتاری فارسی است که با استفاده از سیستم برچسب‌های نحوی-معنایی پیکره متنی زبان فارسی به دست می‌آید.
دستاوردهای این طرح نرم‌افزاری است که متون پیکره متنی زبان فارسی را تقطیع، کلمات چندقطعه‌ای را استخراج و قطعه‌های چندواحدی را شناسایی می‌کند و در نهایت گروه‌بندی نحوی اجزای تشکیل‌دهنده جملات را با بررسی برچسب‌های اجزای کلام پیکره انجام می‌دهد. برای صحت‌سنجی و بررسی چالشهای موجود در تولید نرم‌افزار خودکار درخت‌بانک نحوی جملات فارسی اصلاح دستی درخت‌بانک یکصد پرونده متنی کم حجم نیز صورت گرفته است.
این نرم‌افزار اکنون توسط شورا در اختیار پژوهشکده پردازش هوشمند علائم قرار گرفته و به زودی بصورت رایگان به متقاضیان ارائه خواهد شد. در ضمن متقاضیان استفاده از این نرم‌افزار نیاز به فایل‌های پیکره متنی زبان فارسی به عنوان ورودی و محتوای نرم‌افزار دارند که بر اساس تفاهم‌نامه‌ دبیرخانه شورای عالی اطلاع‌رسانی با پژوهشکده پردازش هوشمند علائم که گردآورنده اصلی فایل‌های پیکره متنی است، فایل‌های مذکور با تخفیف ویژه به مراکز علمی و دانشگاه‌ها ارائه می‌شود. بدیهی است خروجی این نرم‌افزار ، همان درخت بانک نحوی جملات پیکره متنی زبان فارسی خواهد بود.
 گفتنی است اجزای نظام تولید درخت‌بانک نحوی جملات فارسی و تحلیل نتایج نیز در قالب دو گزارش تشریح شده است که در آینده در قالب کتابی به چاپ خواهد رسید.نظرات غیرفعال است.