گزارش سخنرانیهای پژوهشکده زبانشناسی در هفته پژوهش
جایگاه زبانشناسی پیکرهای در مطالعات زبانشناسی
بهمناسبت هفته پژوهش، نشست تخصصی «جایگاه زبانشناسی پیکرهای در مطالعات زبانشناسی» توسط پژوهشکده زبانشناسیِ پژوهشگاه علوم انسانی و مطالعات فرهنگی،برگزار شد. در این نشست که 22 آذرماه 1400، سخنرانان مطالب خود را به مخاطبان ارائه کردند.
به گزارش روابط عمومی پژوهشگاه علوم انسانی و مطالعات فرهنگی، در سخنرانی نخست با عنوان «نخستین تجربهها در کاربرد پیکرههای زبانی در ایران» که توسط دکتر مصطفی عاصی ارائه شد، تعریف پیکره در رویکرد نوین به پیشینه مطالعات پیکرهبنیان انجامشده برای زبان فارسی در ایران اشاره کرد و پیشینه استفاده از پیکره در مفهوم سنتی آن را به کارهای ارائهشده توسط دکتر کیا و دکتر مقدم نسبت داد و نمونه کارهای اولیه انجامشده را تدوین واژهنامههای بسامدی و چندزبانی با کمک رایانه در فرهنگستان دانست.
دکتر عاصی در ادامه به تجارب شخصی خود درخصوص استفاده از رایانه در حوزه فرهنگنگاری که مبتنی بر استفاده پیکره بود اشاره کرد و گفت: فرهنگستان زبان ایران (فرهنگستان دوم 1349-1357) را میتوان پیشگام حرکت از دوران پیکرههای سنتی به سوی پیکرههای امروزی دانست. ازآنجاکه مهمترین (و شاید گستردهترین) فعالیت در فرهنگستان واژهگزینی است، برای فراهمآوردن اطلاعات واژگانی از متون مهم و شاخص زبان فارسی بهعنوان منابع قابلاستناد، برای بررسی دقیق متنهای تاریخی زبان فارسی و استخراج واژههای آنها چندین طرح تدوین واژهنامههای بسامدی بهشیوة دستی در طول چندین سال انجام شد و برای آثاری مانند رساله رگشناسی و معیارالعقول ابنسینا، اشعار شهید بلخی و مقدمة شاهنامه ابومنصوری واژهنامة بسامدی فراهم شد. روشن است که روش دستی بسیار زمانگیر، خستهکننده و خطاپذیر است و پس از چاپ، امکان ویرایش آن نیز وجود ندارد.
وی ادامه داد: خوشبختانه با فراهم آمدن امکان بهرهگیری از مرکز رایانة سازمان برنامه و بودجه، مسیر تازهای برای اینگونه فعالیتها گشوده شد. برای برنامهریزی، ساماندهی و اجرای طرحهای رایانهای نگارنده مأموریت یافت بخش کاربریهای رایانه را در فرهنگستان ایجاد کند. وظیفة اصلی این بخش بهکارگیری رایانه در همة پژوهشهای زبانی بود و بهجزء برگزاری دورههای آموزشی برای پژوهندگان، طرحهایی بهویژه در زمینة فرهنگنگاری ارائه شد و بهاجرا درآمد. طراحی سیستم و برنامهنویسی سه طرح تدوین رایانهای فرهنگ ریشهشناسی زبان فارسی، طرح تدوین فرهنگ چندزبانه و طرح تدوین واژهنامههای بسامدی با کمک رایانه تا سال 1354 به انجام رسید، اما تنها طرح سوم بود که به مرحلة اجرا رسید.
در سالهای 1354 تا 1356 طرح فراهم آوردن واژهنامههای بسامدی با کمک رایانه اجرا گردید و برای هشت متن التفهیم لاوائل صناعه التنجیم، الابنیه عن حقائق الادویه، گرشاسپنامه، ویس و رامین، دیوان منوچهری، دیوان ناصرخسرو، داستان رستم و سهراب و داستان فرود از شاهنامة فردوسی واژهنامة رایانهای تهیه شد. البته این مرحلة آزمایشی طرح بود و دیگر با پایان کار فرهنگستان زبان ایران فرصت نشد که از این سیستم بهرهبرداری کلان شود.
استاد بازنشسته پژوهشگاه علوم انسانی تأکید کرد: در سالهای 1357 تا 1359 برای طرح پژوهشی فرهنگنگاری رایانهای خود و بربنیاد نظریة متنشناسی مقابلهایِ «هارتمن» از مجموعة هفت متن تخصصی زبانشناسی و ترجمة فارسی آنها پیکرة دوزبانة رایانهای فراهم ساختم. گرچه در آن زمان نامی از پیکرة موازی یا دوزبانه در کار نبود و در نظریة هارتمن به متنهای موازی که بهصورت دستی تحلیل میشدند اشاره شده بود. بهاین ترتیب نخستین واژهنامة تخصصی دوزبانة رایانهای پیکرهبنیاد تدوین شد (عاصی، 198۱).
دکتر عاصی در خاتمه سخنانش پیرامون پایگاه دادههای زبان فارسی شرح داد: طی سالهای 1370 تا 1372 نگارنده طرحی را برای ایجاد نخستین پایگاه دادههای زبان فارسی با کمک رایانه در پژوهشگاه علوم انسانی و مطالعات فرهنگی تهیه و به تصویب رساند و فاز (مرحله) نخست آن تا سال 1379 به بهرهبرداری محدود رسید. از سال 1379 تا 1381 فاز دوم طرح برای گسترش آن به اجرا درآمد. همزمان با معرفی پایگاه دادههای زبان فارسی بهعنوان منبعی مستند برای پژوهشهای زبانی در سومین کنفرانس زبانشناسی ایران (1374)، با ارائة مقاله، سخنرانی و برگزاری کارگاههایی به معرفی رشتة نوبنیاد زبانشناسی پیکرهای پرداخت (عاصی، 1382). فاز سوم طرح که برنامهنویسی و تولید نرمافزار گسترده پایگاه دادهها، افزایش حجم دادهها تا 60 میلیون واژه و ارائه برخط و رایگان آن برای همگان در اینترنت بود تا سال 1384به بهرهبرداری رسید. شایسته یادآوری است که این مرحله با کمک مالی شورای عالی اطلاعرسانی انجام شد. فاز چهارم نیز با تغییرات مهم و بازنویسی کامل نرمافزار پایگاه و افزودن امکانات پردازشی تازه در خردادماه ۱۳۹۸ رونمایی شد.
افراز شواهد متنی به طبقات همارز معنایی
سخنرانی دوم این نشست با عنوان «پیکره فرهنگ جامع زبان فارسی» که قرار بود توسط دکتر علیاشرف صادقی ارائه شود، بهدلیل کسالت ایشان لغو شد.
سخنرانی سوم باعنوان «افراز شودهد متنی به طبقات همارز معنایی» توسط دکتر محمود بیجنخان ارائه شد. وی در این سخنرانی نظر فرث (1957) را مرکز ایده خود قرار داد و به بررسی معنایی واژههای فارسی در چارچوب این نظریه پرداخت. برای قابل فهمشدن عنوان سخنرانی، تکتک واژههای عنوان را تعریف کرد و به چگونگی یافتن راهحل بهصورت رایانشی برای استنتاج معنای واژهها در متن پرداختند. برای یافتن طبقه همارز معنایی، روشهای چندنگاشت (چندواژهای)، ردنگاشت و واژهنما گشت را معرفی کرد.
واژگان پایه فارسی و پیکره زبان کودکان ایرانی، نسخه ۱
سخنرانی چهارم با عنوان «واژگان پایه فارسی و پیکره زبان کودکان ایرانی، نسخه ۱» توسط دکتر شهین نعمتزاده و دکتر محرم منصوریزاده ارائه شد. این سخنرانی در دو بخش مجزا طرح شد، در بخش اول دکتر نعمتزاده عنوان کرد: نظام آموزش و پرورش ایران متمرکز و کتاببنیاد است و در آن کتاب درسی اهمیت و محوریت خاصی در آموزش دارد. یکی از ابعاد کتابهای درسی، زبان این کتابهاست و بخشی از زبان و شاید مهمترین بخش، واژههای آن است. کلماتی که در کتابهای درسی به کار میروند باید از هر جهت مناسب باشند. برای رسیدن به این تناسب لازم است که واژههای آشنا و مشترک دانشآموزان شناسایی شود تا با استفاده از آنها مفاهیم تازه و واژههای ناآشنا آموخته شود. برای یافتن واژههای مشترک و آشنای دانشآموزان ابتدایی ایران طرح شناسایی واژگان پایۀ دانشآموزان ایرانی در دورۀ ابتدایی به سفارش سازمان پژوهش و برنامهریزی آموزشی وزارت آموزش و پرورش با همکاری دانشگاه الزهرا (س) اجرا شد. ابزارهای جمعآوری اطلاعات در این طرح عبارت بودند از: آزمون تولیدی واژه، آزمون ادراکی واژه و دفترچۀ واژگانی معلمان. آزمون تولیدی واژه، کتابچهای است مصور و رنگی در ۱۱۶ صفحه که محور اصلی آن ۱۴ موضوع است که این موضوعات به کمک نویسندۀ ادبیات کودک و تصویرگر کتابهای کودکان تبدیل به داستانهایی مصور شده است. در مجموع ۴۳ تصویر در کتابچه آمده است. از دانشآموزان پایۀ اول خواسته شد تا با توجه به تصاویر سخن بگویند تا صدایشان ضبط شود و از دانشآموزان پایۀ دوم تا پنجم خواسته شد تا در دفترچه بنویسند. آزمون ادراکی واژه هم کتابچهای است مصور و رنگی در ۹۳ صفحه که در آن حدود ۸۰۰ تک تصویر آورده شده است. در این آزمون از دانشآموزان خواسته شده تا واژههایی را که از زبان آزمونگر میشنوند با تصاویر تطبیق دهند. در آزمون واژگانی معلمان از معلمان خواسته شده تا دربارۀ واژههای دانشآموزن خود نظر دهند. هر سه آزمون قبل از چاپ و نهاییشدن پایلوت شدند. براساس طرح نمونهگیری ویژهای ۲۰ هزار دانشآموز ابتدایی از همۀ استانهای کشور در ۱۷۵ مدرسۀ شهری و روستایی و عشایری در ۸۷۵ کلاس، تحت پوشش طرح قرار گرفتند و برای پاسخگویی به آزمون واژگانی معلمان از همین ۱۷۵ مدرسه، ۸۷۵ معلم از پنج پایه انتخاب شدند. در مرحلۀ اجرا یک نفر دبیر اجرایی، ۴۰ نفر ناظر اجرایی و ۲۹ نفر مجری استانی و ۳۵۰ آزمونگر فعال شدند. اطلاعات مورد نیاز با هماهنگی وزارت آموزش و پرورش و نامۀ وزیر در ظرف یک هفته تا ده روز در دی ماه ۱۳۸۱ جمعآوری و با نظارت ناظران اجرایی اعزام شده، به تهران ارسال شد. نظر به حجم وسیع اطلاعات و اهمیت مدارک برای پژوهشهای آتی، آرشیو طرح سازماندهی شد و مدارک برچسبگذاری شدند و برای ورود اطلاعات نرمافزار واژههای آشنا تدوین و طراحی شد تا امکان گزارشگیریهای مختلف فراهم شود. در سال ۱۳۸۳ طرح در بخش پژوهشهای کاربردی علوم انسانی در هجدهمین جشنوارۀ بینالمللی خوارزمی برگزیده شد و جایزۀ دلاری آیسسکو (سازمان اسلامی آموزشی، علمی و فرهنگی) را در سال ۲۰۰۵ کسب کرد. در سال 1386 طرح کاربست یافتههای طرح اجرا شد و در سال 1390 کتاب واژگان پایۀ فارسی از زبان کودکان ایرانی منتشر شد. در این کتاب پربسامدترین واژهها به تفکیک 5 پایه در چهار پله و 24 موضوع سازمانبندی شدهاند.
در بخش دوم سخنرانی، دکتر منصوریزاده توضیح داد که پیکره متنی مجموعهای از اسناد متنی است که برای هدف خاص و معینی تهیه میشود. پیکرههای متنی برای سهولت توسعه و کاربری دارای ساختارهای کلی و جزئی هستند که بهمرور زمان رایج شدهاند. این ساختارها سطوح متعدد مانند مجموعهها و زیرمجموعههای اسناد، سند متنی، بندها و پارگرافها، جملات و نهایتاً واژهها را دربرمیگیرند. یعنی برخی از اطلاعات پیکره (مانند زبان) برای کل آن بهعنوان یک موجودیت واحد تعریف میشود. برخی دیگر ویژگیهای پیکره (همانند موضوع) به زیر بخشهای آن تعلق مییابند. برچسبهای زبانی جملهها و واژهها سطوح بعدی ساختارها را شامل میشوند. این برچسبها مشخصات دستوری و معنایی واژهها و اصطلاحات هستند که بهصورت دستی یا نیمهخودکار تولید میشوند. پیکره واژگان پایه در همین چارچوب و با هدف جمعآوری واژگان آشنا و مورد استفاده کودکان ایرانی تعریف و تهیه شده است. این پیکره در مطالعات زبان و فرهنگ شناسی، سنجش و آموزش و همچنین تألیف محتوای ویژه کودکان کاربردهای زیادی دارد. این پیکره پوشش جغرافیایی و جمعیتی بسیار مناسبی دارد و همهنوع تنوع جغرافیایی، فرهنگی و زبانی را دربر میگیرد. این پیکره شامل آزمون ادراکی واژه، تولیدی واژه (صوتی، پایه اول)، تولیدی واژه (متنی) و واژههای آشنا (معلمان) بوده است. پیکره کامل دارای اطلاعات جمعآوریشده 20 هزار دانشآموز و معلمان آنهاست که محصولات فراوریشده آن در قالب گزارش و جدولهای واژگانی منتشرشده است. متخصصان زبان و فرهنگ برچسبهای دستوری و معنایی واژگان پربسامد این پیکره را تعیین کرده و بر غنای محتوایی آن افزودهاند.
وی ادامه داد: آزمون تولیدی واژه با14 موضوع در 115 صفحه طراحیشده است. در نسخه اول پیکره محتوای بیش از ده هزار دفترچه آزمون تولیدی آماده شده است که برای پژوهشهای نظری و کاربردی قابلاستفاده است. علاوه بر متن اصلی نوشته دانشآموزان، این محتوا شامل اطلاعات دانشآموز مانند استان، مدرسه، پایه، زبان و ...، و مقوله معنایی هر نوشته است که بر اساس شماره صفحه قابلتشخیص است. فایلهای پیکره به سه صورت متنی، فایل اکسل و یک بسته نرم افزاری به زبان پایتون ارائه میشود که بهآسانی با نرمافزارهای عام واژهپرداز مانندWord, Excel, … و همچنین نرمافزارهای تخصصی کار با پیکره مانند Antconc قابلاستفاده است. بسته نرمافزاری پایتون این زمینه را ایجاد کرده است که بتوان به کمک زبان برنامهنویسی پایتون و کتابخانههایی مثل Nltk, parsivar, Hazm مطالعات الگوریتمی را هم روی آن انجام داد. برچسبزنی دستوری و معنایی خودکار، مدلسازی موضوعی، تعبیه و برداریسازی واژگان ازجمله این نوع مطالعات است. این پیکره، پس از کسب مجوزهای لازم از صاحبامتیاز و مجری، بهصورت آزاد و رایگان در دسترس همه علاقهمندان قرار خواهد گرفت. اطلاعات بیشتر در این زمینه در صفحه https://irlab.basu.ac.ir/vp ارائهشده است.
پایگاه داده پارسیک: نخستین پیکره برچسبگذاریشده زبان فارسی میانه
در ادامه دکتر فرزانه گشتاسب و دکتر نادیا حاجیپور سخنرانی خود را با عنوان «پایگاه داده پارسیک: نخستین پیکره برچسبگذاریشده زبان فارسی میانه» در دو بخش ارائه کردند. در بخش اول سخنرانی، دکتر گشتاسب پایگاه داده پارسیگ نخستین پیکره برچسبگذاریشده زبان فارسی میانه را معرفی و عنوان کرد که از سال 1397 کار گردآوری و برچسبگذاری دادههای آن آغاز شد و در دی ماه سال 1399 با حدود چهل هزار واژه از متون فارسی میانه زرتشتی رونمایی شد. این پایگاه در حال تکمیل است و چشمانداز آن، این است که تمام متون فارسی میانه برچسبدهی و در این پایگاه بارگذاری شود. پایگاه داده پارسیگ، با این هدف شکل گرفت که دادههای زبانی برچسبگذاری شده فارسی میانه را برای نخستین بار در دسترس محققان و پژوهشگران قرار دهد. در این پایگاه تمام واژههای متنهای فارسی میانه در نُه لایه برچسبدهی شدهاند که عبارت است از املای واژه به خط پهلوی، مانوی و ...، آوانویسی، حرفنویسی، تعیین نوع املای واژه بهصورت هزوارش یا غیرهزوارش، معنی فارسی، برچسب دستوری، بن واژه، ارجاع به فصل و بند متن، ارجاع به صفحه و سطر نسخه انتقادی. برای متون زند اوستا، برچسب دیگری شامل صورت اوستایی واژه نیز اضافه شده است. برچسبدهی دستوری واژه در دو لایه انجام شده و لایه نخست شامل مقوله اصلی واژه و مشتمل بر 11 مورد است: فعل، اسم، ضمیر، صفت، قید، حرفاضافه پیشین، حرف اضافه پسین، حرف ربط، حرف تعریف، اضافه و ادات فعلی؛ و در لایه دوم مقوله دستوری دانهریز واژهها تعیین شده است. برچسبهایی که نام برده شد، همچنین متن کتابها و ترجمه آنها در وبگاهی که برای ارائه این دادهها طراحی شده است؛ https://www.parsigdatabase.com قابل جستوجوست.از جمله اطلاعاتی که میتوان از پایگاه داده پارسیگ استخراج کرد، میتوان به استخراج اطلاعات آماری واژهها بههمراه متن، اطلاعات آماری مربوط به برچسبهای مقوله دستوری واژه، الگوهای دستوری بههمراه بسامد این الگوها، اطلاعاتی از ویژگی سبکی متون و نیز گزارشهای گوناگون واژهنما برای نشاندادن محل دقیق واژه در متن اشاره کرد.
در بخش دوم، دکتر حاجیپور سه مبحث پژوهش را با رویکرد آماری در این پایگاه بیان کرد: الف) در پژوهشی، استخراج اطلاعات آماری واژهها صورت گرفته است. توضیح اینکه 8 متن پهلوی با نام2های اندرز آذرباد مهرسپندان، اندرز پیشینیان، اندرز خسرو قبادان، اندرز دانایان به مزدیسنان، بهرام ورجاوند، گزارش شطرنج و وضع نرد، سور سخن، و یادگار بزرگمهر انتخاب شد. اطلاعات آماری استخراجشده عبارت بود از «تعداد بندهای متن»، «تعداد واژهها با تکرار متن»،«تعداد واژهها بدون تکرار متن»، «تعداد بن واژه در هر متن»، «طول متوسط هر بند»، «تعداد واژههای با بسامد 1 در هر متن»، «تعداد واژههای محتوایی در هر متن»، «تعداد واژههای دستوری در هر متن»، «تعداد هزوارشها در هر متن» و «تعداد هزوارشهایی که جزء واژههای دستوری نبوده و واژه محتوایی محسوب میشود». در این مجال کوتاه فقط به چند نتیجۀ آماری از این متون اشاره میشود. مقایسۀ تعداد بندها و واژهها نشان میدهد، «بهرام ورجاوند» کوتاهترین متن و «یادگار بزرگمهر» بلندترین متن از نظر تعداد بند و واژه در این میان 8 متن است. اگرچه متن «بهرام ورجاوند» بسیار کوتاه است ولی از نظر طول متوسط بندها و تعداد واژه، حاوی طولانیترین بندها با متوسط حدود 41 واژه در هر بند است. تنوع واژگانی آن حدود 63% است که نشان میدهد این متن پیچیده و درک آن دشوار است. در آمار کلی، در میان واژههای متون، 4717 واژه محتوایی (63/65%) و 2470 واژه دستوری (37/34%) وجود داشت.
دکتر حاجیپور شرح داد: یکی از دلایل طولانیبودن متوسط بندها، کاربرد همین واژههای دستوری است که به افزایش طول بند منجر شده و موجب پیچیده و مشکلشدن متن میشود. ب) در پژوهش دیگری «استخراج اطلاعات آماری دربارۀ هزوارشها» صورت گرفت. هزوارشها، کلماتی از اصل آرامی هستند که در متون دورۀ میانۀ زبانهای ایرانی دیده میشوند و هنگام قرائت متن، نه با تلفظ آرامی بلکه با تلفظ همان زبان ایرانی خوانده میشوند. دادههای این پژوهش شامل 31046 واژه فارسی میانه است از سه منبع الف- 31 متن از متون پهلوی مانند اندرز دانایان به مزدیسنان، شهرستانهای ایران و ...؛ ب مینوی خرد؛ پ- اندرز اوشنر دانا است. 12 مقوله دستوری برای برچسبگذاری تعریف شده: فعل، اسم، صفت، قید، عدد، ضمیر، حرف تعریف، پیشاضافه، پساضافه، حرف ربط، ادات و اضافه که همه در مورد هزوارشها بررسی شد. فراوانی کلی واژهها در این 12 مقوله به ترتیب فراوانی، شامل اسم، حرف ربط، فعل، پیشاضافه، صفت، اضافه، قید، ضمیر، حرف تعربف، عدد، پساضافه و ادات است. اما مقایسۀ واژهها از لحاظ هزوارش و املای پهلوی در 3 مقوله پربسامد نشان میدهد که واژههای اسم فقط در 15% موارد هزوارش است و بقیه با املای پهلوی نوشته شده است؛ حرف ربط 90% موارد هزوارش است؛ در مورد فعلها 234 فعل (بدون در نظر گرفتن تکرار) در این پیکره بود که از میان آنها تنها 32 فعل همواره هزوارش بود و در بقیه موارد یا به هر دو صورت هزوارش و غیر هزوارش هستند یا فقط املای پهلوی دارند. ج) مقایسه فعل مجهول گذشته ساده در دو متن گزیدههای زادسپرم و مینوی خرد، چنین نتیجهای را نشان میدهد: در گزیدههای زادسپرم 57 مورد دیده شد که 37 مورد با روش بن مضارع + īh + ist ساخته شده است. در مینوی خرد 7 مورد که 2 تای آن با روش گفتهشده ساخته شده است. این جستوجوی ساده نشان میدهد در متن گزیدهها که یک متن اسطوره است از فعل مجهول بیشتر استفاده شده و در متن اندرزی مینوی خرد، ساخت فعل مجهول کاربرد چندانی ندارد. بنابراین شاید بتوان نتیجه گرفت که در متون اسطورهای فعل مجهول کاربرد بیشتری دارد.
پیکره مستندات علمی: کاربرد فناوری اطلاعات در تهیه پیکره زبانی و رفع چالشها
سخنرانی آخر با عنوان «پیکره مستندات علمی: کاربرد فناوری اطلاعات در تهیه پیکره زبانی و رفع چالشها» مسعود قیومی ارائه شد. در این سخنرانی گزارشی از عملکرد وی در طرح اعتلای معطوف به پیشرفت کشور ارائه شد .وی همچنین به نحوه تهیه پیکره زبانی و چالشهای آن پرداخت و در انجام یک کار عملی، راهکارهای بهکارگرفتهشده برای رفع چالشها را معرفی کرد. پیکره تهیهشده از مقالات علمی متشکل شده بود که از طریق فرایند خزش گردآوری شده بود. یافتن مقالات مشابه از وبگاههای خزششده، پالایش مقالات از نظر زبان و رشته علمی و همچنین پیشپردازش دادهها ازجمله مسائلی بود که در این سخنرانی ارائه شد.
در پایان نشست نیز از صفحه مربوط به «مجموعه پیکرهها، لغتنامهها و سامانههای پژوهشکده زبانشناسی» که در پژوهشکده زبانشناسی به آدرس https://www.ihcs.ac.ir/corpora/fa تهیه شدهاست، رونمایی شد.
نظر شما :