گزارش برگزاری ششمین همایش ملی زبانشناسی رایانشی
ششمین همایش ملی زبانشناسی رایانشی، 28 مهر ماه 1401 از سوی انجمن زبانشناسی ایران با همکاری پژوهشکده زبانشناسی پژوهشگاه علوم انسانی و مطالعات فرهنگی و پایگاه استنادی جهان اسلام با حضور علاقهمندان به صورت حضوری و غیرحضوری در سالن حکمت پژوهشگاه علوم انسانی و مطالعات فرهنگی برگزار شد.
بهگزارش روابط عمومی پژوهشگاه علوم انسانی و مطالعات فرهنگی، سخنرانیهای این همایش در چهار نشست صبح و عصر ارائه شد و مقالات ارائه شده حوزههای مختلفی چون ترجمه ماشینی بهخصوص ترجمه گویش به فارسی معیار، ارائه مدلی برای تخمین کیفیت ترجمه ماشینی، نویسهگردانی، معناشناسی و شبکه معنایی و بررسی گفتار را پوشش دادند.
دبیران علمی همایش، دکتر مسعود قیومی و دکتر علی رضاقلیفامیان و دبیران اجرایی بیتا قوچانی و آزاده شکری بودند. نخست دبیران علمی همایش ضمن خوشامدگویی به حاضران با اشاره به اینکه زبانشناسی رایانشی امروزه در جامعۀ علمی ایران حوزهای تخصصی شده که علاقهمندان بسیاری دارد، گزارشی از مقالههای رسیده به همایش ارائه دادند. به گفته دبیران علمی همایش، 14 مقاله به دبیرخانه همایش ارسال شد که 8 مورد برای ارائه و چاپ انتخاب شد.
ترجمه ماشینی زبان لری و گویش یزدی به فارسی معیار و منابع زبانی رایانشی مرتبط
اولین سخنرانی از دانشگاه صنعتی شریف با عنوان: «ترجمه ماشینی زبان لری و گویش یزدی به فارسی معیار و منابع زبانی رایانشی مرتبط» ارائه شد. به نظر نویسندگان نبود یک مجموعه داده زبانی استاندارد و دیجیتال چالشی بزرگ و مهم در کارهای رایانشی محسوب میشود؛ از اینرو آنان در این پژوهش برای اولین بار از دو مجموعه داده تکزبانه و موازی بر روی زبان لری و گویش یزدی در مقابل زبان فارسی معیار استفاده کردند. برای ارزیابی دادهها نیز از مدل ترجمه ماشینی با معیار BLUE استفاده شد. در پایان نویسندگان یادآور شدند برای دست یافتن به نتایج مطلوبتر لازم است دادگان را گسترش و پژوهشهای بیشتری انجام داد.
ارائه یک مدل تخمین کیفیت مترجم ماشینی انگلیسی به فارسی با استفاده از یادگیری انتقالی عنوان سخنرانی دوم از دانشگاه تهران بود. به گفته این سخنران امروزه، ترجمه ماشینی کاربرد وسیعی پیدا کرده است. از اینرو ارزیابی کیفیت ترجمه ماشینی بدون داشتن ترجمه مرجع، از اهمیت بالایی برخوردار است. یکی از چالشهای موجود در این زمینه، مخصوصاً برای زبانهای کممنبع، عدم وجود دادههای آموزشی مناسب است. برای این منظور میتوان از روشهای مبتنی بر شبکه عصبی که قبلاً روی مدلهای زبانی چند زبانه آموزشدیده شده استفاده کرد و با کمک یادگیری انتقالی کیفیت ترجمه برای یک جفت زبان جدید را تخمین زد. براساس نتایج تحقیق نگارندگان میتوان گفت که دادگان آموزشی تهیهشده از کیفیت مناسبی برای بهبود مدل تخمین کیفیت ترجمه برخوردار بوده و میتواند در پژوهشهای آتی مورد استفاده قرار گیرد.
سومین سخنران دانشگاه تهران پژوهش خود را با عنوان Dialogue Management in Persian Chatbots using Rasa ارائه داد. او ابتدا به معرفی سامانه گفتوگو پرداخت که توانایی مکالمه به زبان انسان را داراست و طی سالهای اخیر کاربردهای مختلفی پیدا کرده است و در بخشهای مهمی چون مؤسسات آموزشی، مراکز بهداشتی و ... بهکار می رود. سخنران در ادامه توضیح داد که اندازهگیری میزان موفقیت این سامانه براساس شباهت به عملکرد انسان در زبان فارسی در مقایسه با کارهای مشابهی که روی سایر زبانها انجام شده است قابلقبول بوده است، اما نیاز به جمعآوری دادههای بیشتر و دقیق در حوزههای خاص همچنان احساس میشود.
مقاله دوم نشست دوم
مقاله دوم نشست دوم، نیز پژوهش دیگری از دانشگاه تهران با عنوان: On the use of BERT for Intent classification and slot filling for customer support dialogue system in the Persian language بود. هدف نگارندگان بررسی توسعه واحد درک زبان طبیعی در سامانه گفتوگو فارسی با استفاده از برنامه BERT بود. نگارنده به طبقهبندی سامانه گفتوگو به دو دسته وظیفهمحور و غیر وظیفهمحور (که از آن به عنوان چتبات یاد میشود) اشاره کرد و افزود هدف چتبات ایجاد گفتوگو و ارائه پاسخ مناسب است. بنابراین درک زبان طبیعی برای دستیابی به این هدف از اهمیت بالایی برخوردار است. «پر کردن شکاف» و «تشخیص قصد» دو بخش مهم در درک زبان طبیعی و سامانههای گفتوگو هستند. این پژوهش نشان داد تشخیص قصد و پر کردن شکاف در انگاره پیشنهادی نگارندگان در مقایسه با انگارههای سنتی از دقت بالایی برخوردار است.
در سخنرانیهای نوبت بعدازظهر، نخست از دانشگاه صنعتی شریف مقالهای با عنوان «نویسهگردانی میان تاجیکی و فارسی به کمک یادگیری عمیق» ارائه شد. سخنران با اشاره به این که مهمترین تفاوت فارسی ایرانی با فارسی تاجیکی در سیستم نوشتار است که موجب ایجاد گسست فرهنگی بزرگی میان دو ملت شده است، هدف از نگارش این مقاله را ساخت سامانهای برای تبدیل این دو نوشتار عنوان کرد. به گفته او در این خصوص طی سالهای اخیر تلاشهای بسیاری صورت گرفته است، اما نتیجه کار با خطاهای قابل توجهی همراه بوده است. در این پژوهش از روشهای مبتنی بر یادگیری عمیق بهره گرفته شده است تا سامانهای دقیق برای نویسهگردانی بین این دو زبان ایجاد شود.
پردازش بدون مرز آذری: نویسهگردانی خودکار آذری با استفاده از یادگیری عمیق
سخنران دوم این نشست از دانشگاه شریف مقاله خود را که بهصورت مشترک به نگارش درآمده بود با عنوان «پردازش بدون مرز آذری: نویسهگردانی خودکار آذری با استفاده از یادگیری عمیق» ارائه داد. وی با اشاره به پیشرفت مدلهای زبانی و تحولات چشمگیری که در زمینه تکنولوژیهای درک زبانهای طبیعی رخ داده است، یادآور شد این تکنولوژیها تنها برای تعداد محدودی از زبانها که از نظر منابع دیجیتال غنی هستند، شکل گرفته است. در این میان زبان ترکی جزو زبانهایی با منابع کم محسوب میشود. هدف از این پژوهش جمعآوری و پیشپردازش دادههای آذری با خطوط پارسی و خط لاتین است، مدل نویسهگردانی با استفاده از روش یادگیری عمیق رشته به رشته آموزش داده شد. نگارندگان با کمک این مدل به تولید منابع زبان ترکی با خط فارسی از روی خط لاتین و بالعکس پرداختند. نتایج پژوهش با توجه به منابع محدود بسیار قابل قبول بوده است.
توصیف جانشینی و همنشینی شبکه معنایی واژه «دنیا» در نهج البلاغه
آخرین نشست با عنوان پژوهش «توصیف جانشینی و همنشینی شبکه معنایی واژه «دنیا» در نهج البلاغه با استفاده از روش N-gram » از دانشگاه جهرم بود. سخنران توضیح داد: تنوع معانی واژها در نهج البلاغه از ساده تا بسیار عمیق، باعث شد که شبکه معنایی واژه «دنیا» در محتوای عربی نهج البلاغه محور پژوهش قرار گیرد. بدین ترتیب واژه دنیا در دو محور همنشینی و جانشینی مورد بررسی قرار گرفت. از روش N-Gram نیز برای احتمال وقوع واژهها در محور همنشینی استفاده شد. در کل 94 مورد استخراج شد که 29 مورد روی محور جانشینی و 65 مورد نیز در محور همنشینی قرار گرفت. همنشینیها در روش N-Gram در سه زیر مجموعه؛ سه پشته و چهار پشته و پنج پشته مورد بررسی قرار گرفت.
بازشناسی جنسیت گوینده گفتار بر پایه ضرایب کپسترال فرکانس مِل با استفاده از شبکهی عصبی مصنوعی
عنوان سخنرانی ششم و پایانی این همایش، «بازشناسی جنسیت گوینده گفتار بر پایه ضرایب کپسترال فرکانس مِل با استفاده از شبکهی عصبی مصنوعی» از پژوهشگاه مطالعات علوم شناختی بود. به گفته سخنران، گفتار بهعنوان مهمترین روش ارتباطی حاوی اطلاعات فراوانی همچون سن، حالت هیجانی و جنسیت گوینده گفتار است. هدف نگارنده در این پژوهش بازشناسی جنسیت گوینده گفتار است. وی در ادامه افزود: این پژوهش از نمونههای گفتاری موجود در پایگاه داده گفتاری برلین به عنوان داده خام استفاده کرده است. سپس 13 ضریب نخست ضرایب کپسترال فرکانس مِل برای هر نمونه محاسبه شد. در گام بعد، براساس هفت مقدار آماری شامل کمینه، بیشینه، میانگین، انحرافمعیار، میانه، چولگی و کشیدگی که برای هر یک از این 13 ضریب محاسبه شده است، بردار ویژگی برای هر نمونه گفتاری شکل گرفتهاست. این بردارها به عنوان ورودی به دستهبندیکننده مورد استفاده قرار میگیرند. این پژوهش از یک شبکه عصبی مصنوعی پیشخور با یک لایهی پنهان برای بازشناسی جنسیت گوینده گفتار استفاده کرد. در ادامه با تغییر در تعداد نورونهای لایهی پنهان، جنسیت گوینده گفتار بازشناسی و دستهبندی شد. پیادهسازی این دستهبندیکننده در نرمافزار Matlab R2021b انجام گرفت. نتایج بدست آمده از بازشناسیها با تعداد نورونهای مختلف در لایه پنهان، جنسیت گوینده گفتار را با نرخ صحت بالا بازشناسی و دستهبندی کرد. براساس نتایج حاصل شبکههای عصبی مصنوعی، روش کارآمدی برای بازشناسی جنسیت گوینده گفتار هستند.
ششمین همایش ملی زبانشناسی رایانشی با سخنرانی اختتامیه دبیران علمی پایان یافت./پایان
نظر شما :