گزارش سخنرانی‌های پژوهشکده زبان‌شناسی در هفته پژوهش

۰۷ دی ۱۴۰۰ | ۱۴:۲۲ کد : ۲۱۹۳۳ آخرین عناوین گزارش نشست‌ها

تعداد بازدید:۸۹۷

گزارش سخنرانی‌های پژوهشکده زبان‌شناسی در هفته پژوهش

جایگاه زبان‌شناسی پیکره‌ای در مطالعات زبان‌شناسی

به‌مناسبت هفته پژوهش، نشست تخصصی «جایگاه زبان‌شناسی پیکره‌ای در مطالعات زبان‌شناسی» توسط پژوهشکده زبان‌شناسیِ پژوهشگاه علوم انسانی و مطالعات فرهنگی،برگزار شد. در این نشست که 22 آذرماه 1400، سخنرانان مطالب خود را به مخاطبان ارائه کردند.

به گزارش روابط عمومی پژوهشگاه علوم انسانی و مطالعات فرهنگی، در سخنرانی نخست با عنوان «نخستین تجربه‌ها در کاربرد پیکره‌های زبانی در ایران» که توسط دکتر مصطفی عاصی ارائه شد، تعریف پیکره در رویکرد نوین به پیشینه مطالعات پیکره‌بنیان انجام‌شده برای زبان فارسی در ایران اشاره کرد و پیشینه استفاده از پیکره در مفهوم سنتی آن را به کارهای ارائه‌شده توسط دکتر کیا و دکتر مقدم نسبت داد و نمونه کارهای اولیه انجام‌شده را تدوین واژه‌نامه‌های بسامدی و چندزبانی با کمک رایانه در فرهنگستان دانست.
دکتر عاصی در ادامه به تجارب شخصی خود درخصوص استفاده از رایانه در حوزه فرهنگ‌نگاری که مبتنی بر استفاده پیکره بود اشاره کرد و گفت: فرهنگستان زبان ایران (فرهنگستان دوم 1349-1357) را می‌توان پیشگام حرکت از دوران پیکره‌های سنتی به سوی پیکره‌های امروزی دانست. ازآنجاکه مهم‌ترین (و شاید گسترده‌ترین) فعالیت در فرهنگستان واژه‌گزینی است، برای فراهم‌آوردن اطلاعات واژگانی از متون مهم و شاخص زبان فارسی به‌عنوان منابع قابل‌استناد، برای بررسی دقیق متن‌های تاریخی زبان فارسی و استخراج واژه‌های آنها چندین طرح تدوین واژه‌نامه‌های بسامدی به‌شیوة دستی در طول چندین سال انجام شد و برای آثاری مانند رساله رگ‌شناسی و معیارالعقول ابن‌سینا، اشعار شهید بلخی و مقدمة شاهنامه ابومنصوری واژه‌نامة بسامدی فراهم شد. روشن است که روش دستی بسیار زمان‌گیر، خسته‌کننده و خطاپذیر است و پس از چاپ، امکان ویرایش آن نیز وجود ندارد.
وی ادامه داد: خوشبختانه با فراهم آمدن امکان بهره‌گیری از مرکز رایانة سازمان برنامه و بودجه، مسیر تازه‌ای برای این‌گونه فعالیت‌ها گشوده شد. برای برنامه‌ریزی، سامان‌دهی و اجرای طرح‌های رایانه‌ای نگارنده مأموریت یافت بخش کاربری‌های رایانه را در فرهنگستان ایجاد کند. وظیفة اصلی این بخش به‌کارگیری رایانه در همة پژوهش‌های زبانی بود و به‌جزء برگزاری دوره‌های آموزشی برای پژوهندگان، طرح‌هایی به‌ویژه در زمینة فرهنگ‌نگاری ارائه شد و به‌اجرا درآمد. طراحی سیستم و برنامه‌نویسی سه طرح تدوین رایانه‌ای فرهنگ ریشه‌شناسی زبان فارسی، طرح تدوین فرهنگ چندزبانه و طرح تدوین واژه‌نامه‌های بسامدی با کمک رایانه تا سال 1354 به انجام رسید، اما تنها طرح سوم بود که به مرحلة اجرا رسید.
در سال‌های 1354 تا 1356 طرح فراهم آوردن واژه‌نامه‌های بسامدی با کمک رایانه اجرا گردید و برای هشت متن التفهیم لاوائل صناعه التنجیم، الابنیه عن حقائق الادویه، گرشاسپ‌نامه، ویس و رامین، دیوان منوچهری، دیوان ناصرخسرو، داستان رستم و سهراب و داستان فرود از شاهنامة فردوسی واژه‌نامة رایانه‌ای تهیه شد. البته این مرحلة آزمایشی طرح بود و دیگر با پایان کار فرهنگستان زبان ایران فرصت نشد که از این سیستم بهره‌برداری کلان شود.
استاد بازنشسته پژوهشگاه علوم انسانی تأکید کرد: در سال‌های 1357 تا 1359 برای طرح پژوهشی فرهنگ‌نگاری رایانه‌ای خود و بربنیاد نظریة متن‌شناسی مقابله‌ایِ «هارتمن» از مجموعة هفت متن تخصصی زبان‌شناسی و ترجمة فارسی آنها پیکرة دوزبانة رایانه‌ای فراهم ساختم. گرچه در آن زمان نامی از پیکرة موازی یا دوزبانه در کار نبود و در نظریة هارتمن به متن‌های موازی که به‌صورت دستی تحلیل می‌شدند اشاره شده بود. به‌این ترتیب نخستین واژه‌نامة تخصصی دوزبانة رایانه‌ای پیکره‌بنیاد تدوین شد (عاصی، 198۱).
دکتر عاصی در خاتمه سخنانش پیرامون پایگاه داده‌های زبان فارسی شرح داد: طی سال‌های 1370 تا 1372 نگارنده طرحی را برای ایجاد نخستین پایگاه داده‌های زبان فارسی با کمک رایانه در پژوهشگاه علوم انسانی و مطالعات فرهنگی تهیه و به تصویب رساند و فاز (مرحله) نخست آن تا سال 1379 به بهره‌برداری محدود رسید. از سال‌ 1379 تا 1381 فاز دوم طرح برای گسترش آن به اجرا درآمد. هم‌زمان با معرفی پایگاه داده‌های زبان فارسی به‌عنوان منبعی مستند برای پژوهش‌های زبانی در سومین کنفرانس زبان‌شناسی ایران (1374)، با ارائة مقاله، سخنرانی و برگزاری کارگاه‌هایی به معرفی رشتة نوبنیاد زبان‌شناسی پیکره‌ای پرداخت (عاصی، 1382). فاز سوم طرح که برنامه‌نویسی و تولید نرم‌افزار گسترده پایگاه داده‌ها، افزایش حجم داده‌ها تا 60 میلیون واژه و ارائه برخط و رایگان آن برای همگان در اینترنت بود تا سال 1384به بهره‌برداری رسید. شایسته یادآوری است که این مرحله با کمک مالی شورای عالی اطلاع‌رسانی انجام شد. فاز چهارم نیز با تغییرات مهم و بازنویسی کامل نرم‌افزار پایگاه و افزودن امکانات پردازشی تازه در خردادماه ۱۳۹۸ رونمایی شد.

افراز شواهد متنی به طبقات هم‌ارز معنایی
سخنرانی دوم این نشست با عنوان «پیکره فرهنگ جامع زبان فارسی» که قرار بود توسط دکتر علی‌اشرف صادقی ارائه شود، به‌دلیل کسالت ایشان لغو شد.
سخنرانی سوم باعنوان «افراز شودهد متنی به طبقات هم‌ارز معنایی» توسط دکتر محمود بی‌جن‌خان ارائه شد. وی در این سخنرانی نظر فرث (1957) را مرکز ایده خود قرار داد و به بررسی معنایی واژه‌های فارسی در چارچوب این نظریه پرداخت. برای قابل فهم‌شدن عنوان سخنرانی، تک‌تک واژه‌های عنوان را تعریف کرد و به چگونگی یافتن راه‌حل به‌صورت رایانشی برای استنتاج معنای واژه‌ها در متن پرداختند. برای یافتن طبقه هم‌ارز معنایی، روش‌های چندنگاشت (چندواژه‌ای)، ردنگاشت و واژه‌نما گشت را معرفی کرد.

واژگان پایه فارسی و پیکره زبان کودکان ایرانی، نسخه ۱
سخنرانی چهارم با عنوان «واژگان پایه فارسی و پیکره زبان کودکان ایرانی، نسخه ۱» توسط دکتر شهین نعمت‌زاده و دکتر محرم منصوری‌زاده ارائه شد. این سخنرانی در دو بخش مجزا طرح شد، در بخش اول دکتر نعمت‌زاده عنوان کرد: نظام آموزش و پرورش ایران متمرکز و کتاب‏‌بنیاد است و در آن کتاب درسی اهمیت و محوریت خاصی در آموزش دارد. یکی از ابعاد کتاب‌‏های درسی، زبان این کتاب‏‌هاست و بخشی از زبان و شاید مهمترین بخش، واژه‌‏های آن است. کلماتی که در کتاب‏های درسی به کار ‏می‏‌روند باید از هر جهت مناسب باشند. برای رسیدن به این تناسب لازم است که واژه‌های آشنا و مشترک دانش‌‏آموزان شناسایی شود تا با استفاده از آن‏ها مفاهیم تازه و واژه‌‏های ناآشنا آموخته شود. برای یافتن واژه‌‏های مشترک و آشنای دانش‌‏آموزان ابتدایی ایران طرح شناسایی واژگان پایۀ دانش‌‏آموزان ایرانی در دورۀ ابتدایی به سفارش سازمان پژوهش و برنامه‌‏ریزی آموزشی وزارت آموزش و پرورش با همکاری دانشگاه الزهرا (س) اجرا شد. ابزارهای جمع‌‏آوری اطلاعات در این طرح عبارت بودند از: آزمون تولیدی واژه، آزمون ادراکی واژه و دفترچۀ واژگانی معلمان. آزمون تولیدی واژه، کتابچه‌‏ای است مصور و رنگی در ۱۱۶ صفحه که محور اصلی آن ۱۴ موضوع است که این موضوعات به کمک نویسندۀ ادبیات کودک و تصویرگر کتاب‌‏های کودکان تبدیل به داستان‏‌هایی مصور شده است. در مجموع ۴۳ تصویر در کتابچه آمده است. از دانش‏‌آموزان پایۀ اول خواسته شد تا با توجه به تصاویر سخن بگویند تا صدایشان ضبط شود و از دانش‌‏آموزان پایۀ دوم تا پنجم خواسته شد تا در دفترچه بنویسند. آزمون ادراکی واژه هم کتابچه‏‌ای است مصور و رنگی در ۹۳ صفحه که در آن حدود ۸۰۰ تک تصویر آورده شده است. در این آزمون از دانش‌‏آموزان خواسته شده تا واژه‏‌هایی را که از زبان آزمون‌گر ‏می‏‌شنوند با تصاویر تطبیق دهند. در آزمون واژگانی معلمان از معلمان خواسته شده تا دربارۀ واژه‌‏های دانش‏‌آموزن خود نظر دهند. هر سه آزمون قبل از چاپ و نهایی‌شدن پایلوت شدند. براساس طرح نمونه‏‌گیری ویژه‌‏ای ۲۰ هزار دانش‌‏آموز ابتدایی از همۀ استان‏‌های کشور در ۱۷۵ مدرسۀ شهری و روستایی و عشایری در ۸۷۵ کلاس، تحت پوشش طرح قرار گرفتند و برای پاسخ‌گویی به آزمون واژگانی معلمان از همین ۱۷۵ مدرسه، ۸۷۵ معلم از پنج پایه انتخاب شدند. در مرحلۀ اجرا یک نفر دبیر اجرایی، ۴۰ نفر ناظر اجرایی و ۲۹ نفر مجری استانی و ۳۵۰ آزمون‌گر فعال شدند. اطلاعات مورد نیاز با هماهنگی وزارت آموزش و پرورش و نامۀ وزیر در ظرف یک هفته تا ده روز در دی ماه ۱۳۸۱ جمع‏آوری و با نظارت ناظران اجرایی اعزام شده، به تهران ارسال شد. نظر به حجم وسیع اطلاعات و اهمیت مدارک برای پژوهش‏‌های آتی، آرشیو طرح سازماندهی شد و مدارک برچسب‏‌گذاری شدند و برای ورود اطلاعات نرم‌‏افزار واژه‌‏های آشنا تدوین و طراحی شد تا امکان گزارش‏‌گیری‏‌های مختلف فراهم شود. در سال ۱۳۸۳ طرح در بخش پژوهش‌‏های کاربردی علوم انسانی در هجدهمین جشنوارۀ بین‏‌المللی خوارزمی برگزیده شد و جایزۀ دلاری آیسسکو (سازمان اسلامی آموزشی، علمی و فرهنگی) را در سال ۲۰۰۵ کسب کرد. در سال 1386 طرح کاربست یافته‌‏های طرح اجرا شد و در سال 1390 کتاب واژگان پایۀ فارسی از زبان کودکان ایرانی منتشر شد. در این کتاب پربسامدترین واژه‌‏ها به تفکیک 5 پایه در چهار پله و 24 موضوع سازمان‌‏بندی شده‌‏اند.

در بخش دوم سخنرانی، دکتر منصوری‌زاده توضیح داد که پیکره متنی مجموعه‌ای از اسناد متنی است که برای هدف خاص و معینی تهیه می‌شود. پیکره‌های متنی برای سهولت توسعه و کاربری دارای ساختارهای کلی و جزئی هستند که به‌مرور زمان رایج شده‌اند. این ساختارها سطوح متعدد مانند مجموعه‌ها و زیرمجموعه‌های اسناد، سند متنی، بندها و پارگراف‌ها، جملات و نهایتاً واژه‌ها را دربرمی‌گیرند. یعنی برخی از اطلاعات پیکره (مانند زبان) برای کل آن به‌عنوان یک موجودیت واحد تعریف می‌شود. برخی دیگر ویژگی‌های پیکره (همانند موضوع) به زیر بخش‌های آن تعلق می‌یابند. برچسب‌های زبانی جمله‌ها و واژه‌ها سطوح بعدی ساختارها را شامل می‌شوند. این برچسب‌ها مشخصات دستوری و معنایی واژه‌ها و اصطلاحات هستند که به‌صورت دستی یا نیمه‌خودکار تولید می‌شوند. پیکره واژگان پایه در همین چارچوب و با هدف جمع‌آوری واژگان آشنا و مورد استفاده کودکان ایرانی تعریف و تهیه شده است. این پیکره در مطالعات زبان و فرهنگ شناسی، سنجش و آموزش و همچنین تألیف محتوای ویژه کودکان کاربردهای زیادی دارد. این پیکره پوشش جغرافیایی و جمعیتی بسیار مناسبی دارد و همه‌نوع تنوع جغرافیایی، فرهنگی و زبانی را دربر می‌گیرد. این پیکره شامل آزمون ادراکی واژه، تولیدی واژه (صوتی، پایه اول)، تولیدی واژه (متنی) و واژه‌های آشنا (معلمان) بوده است. پیکره کامل دارای اطلاعات جمع‌آوری‌شده 20 هزار دانش‌آموز و معلمان آن‌هاست که محصولات فراوری‌شده آن در قالب گزارش و جدول‌های واژگانی منتشرشده است. متخصصان زبان و فرهنگ برچسب‌های دستوری و معنایی واژگان پربسامد این پیکره را تعیین کرده و بر غنای محتوایی آن افزوده‌اند.
وی ادامه داد: آزمون تولیدی واژه با14 موضوع در 115 صفحه طراحی‌شده است. در نسخه اول پیکره محتوای بیش از ده هزار دفترچه آزمون تولیدی آماده شده است که برای پژوهش‌های نظری و کاربردی قابل‌استفاده است. علاوه بر متن اصلی نوشته دانش‌آموزان، این محتوا شامل اطلاعات دانش‌آموز مانند استان، مدرسه، پایه، زبان و ...، و مقوله معنایی هر نوشته است که بر اساس شماره صفحه قابل‌تشخیص است. فایل‌های پیکره به سه صورت متنی، فایل اکسل و یک بسته نرم افزاری به زبان پایتون ارائه می‌شود که به‌آسانی با نرم‌افزارهای عام واژه‌پرداز مانندWord, Excel, … و همچنین نرم‌افزارهای تخصصی کار با پیکره مانند Antconc قابل‌استفاده است. بسته نرم‌افزاری پایتون این زمینه را ایجاد کرده است که بتوان به کمک زبان برنامه‌نویسی پایتون و کتابخانه‌هایی مثل Nltk, parsivar, Hazm مطالعات الگوریتمی را هم روی آن انجام داد. برچسب‌زنی دستوری و معنایی خودکار، مدل‌سازی موضوعی، تعبیه و برداری‌سازی واژگان ازجمله این نوع مطالعات است. این پیکره، پس از کسب مجوزهای لازم از صاحب‌امتیاز و مجری، به‌صورت آزاد و رایگان در دسترس همه علاقه‌مندان قرار خواهد گرفت. اطلاعات بیشتر در این زمینه در صفحه https://irlab.basu.ac.ir/vp ارائه‌شده است.

پایگاه داده پارسیک: نخستین پیکره برچسب‌گذاری‌شده زبان فارسی میانه
در ادامه دکتر فرزانه گشتاسب و دکتر نادیا حاجی‌پور سخنرانی خود را با عنوان «پایگاه داده پارسیک: نخستین پیکره برچسب‌گذاری‌شده زبان فارسی میانه» در دو بخش ارائه کردند. در بخش اول سخنرانی، دکتر گشتاسب پایگاه داده پارسیگ نخستین پیکره برچسب‌گذاری‌شده زبان فارسی میانه را معرفی و عنوان کرد که از سال 1397 کار گردآوری و برچسب‌گذاری داده‌های آن آغاز شد و در دی ماه سال 1399 با حدود چهل هزار واژه از متون فارسی میانه زرتشتی رونمایی شد. این پایگاه در حال تکمیل است و چشم‌انداز آن، این است که تمام متون فارسی میانه برچسب‌دهی و در این پایگاه بارگذاری شود. پایگاه داده پارسیگ، با این هدف شکل گرفت که داده‌های زبانی برچسب‌گذاری شده فارسی میانه را برای نخستین بار در دسترس محققان و پژوهشگران قرار دهد. در این پایگاه تمام واژه‌های متن‌های فارسی میانه در نُه لایه برچسب‎دهی شده‌اند که عبارت است از املای واژه به خط پهلوی، مانوی و ...، آوانویسی، حرف‌نویسی، تعیین نوع املای واژه به‌صورت هزوارش یا غیرهزوارش، معنی فارسی، برچسب دستوری، بن واژه، ارجاع به فصل و بند متن، ارجاع به صفحه و سطر نسخه انتقادی. برای متون زند اوستا، برچسب دیگری شامل صورت اوستایی واژه نیز اضافه شده است. برچسب‌دهی دستوری واژه در دو لایه انجام شده و لایه نخست شامل مقوله اصلی واژه و مشتمل بر 11 مورد است: فعل، اسم، ضمیر، صفت، قید، حرف‌اضافه پیشین، حرف اضافه پسین، حرف ربط، حرف تعریف، اضافه و ادات فعلی؛ و در لایه دوم مقوله دستوری دانه‎ریز واژه‌ها تعیین شده است. برچسب‌هایی که نام برده شد، همچنین متن کتاب‌ها و ترجمه‌ آنها در وبگاهی که برای ارائه این داده‌ها طراحی شده است؛ https://www.parsigdatabase.com قابل جست‌وجوست.از جمله اطلاعاتی که می‌توان از پایگاه داده پارسیگ استخراج کرد، می‌توان به استخراج اطلاعات آماری واژه‌ها به‌همراه متن، اطلاعات آماری مربوط به برچسب‌های مقوله دستوری واژه، الگوهای دستوری به‌همراه بسامد این الگوها، اطلاعاتی از ویژگی سبکی متون و نیز گزارش‌های گوناگون واژه‌نما برای نشان‌دادن محل دقیق واژه در متن اشاره کرد.

در بخش دوم، دکتر حاجی‌پور سه مبحث پژوهش را با رویکرد آماری در این پایگاه بیان کرد: الف) در پژوهشی، استخراج اطلاعات آماری واژه‌ها صورت گرفته است. توضیح اینکه 8 متن پهلوی با نام2های اندرز آذرباد مهرسپندان، اندرز پیشینیان، اندرز خسرو قبادان، اندرز دانایان به مزدیسنان، بهرام ورجاوند، گزارش شطرنج و وضع نرد، سور سخن، و یادگار بزرگمهر انتخاب شد. اطلاعات آماری استخراج‌شده عبارت بود از «تعداد بندهای متن»، «تعداد واژه‌ها با تکرار متن»،«تعداد واژه‌ها بدون تکرار متن»، «تعداد بن واژه در هر متن»، «طول متوسط هر بند»، «تعداد واژه‌های با بسامد 1 در هر متن»، «تعداد واژه‌های محتوایی در هر متن»، «تعداد واژه‌های دستوری در هر متن»، «تعداد هزوارشها در هر متن» و «تعداد هزوارش‌هایی که جزء واژه‌های دستوری نبوده و واژه محتوایی محسوب می‌شود». در این مجال کوتاه فقط به چند نتیجۀ آماری از این متون اشاره می‌شود. مقایسۀ تعداد بندها و واژه‌ها نشان میدهد، «بهرام ورجاوند» کوتاه‌ترین متن و «یادگار بزرگمهر» بلندترین متن از نظر تعداد بند و واژه در این میان 8 متن است. اگرچه متن «بهرام ورجاوند» بسیار کوتاه است ولی از نظر طول متوسط بندها و تعداد واژه، حاوی طولانی‌ترین بند‌ها با متوسط حدود 41 واژه در هر بند است. تنوع واژگانی آن حدود 63% است که نشان میدهد این متن پیچیده و درک آن دشوار است. در آمار کلی، در میان واژه‎های متون، 4717 واژه محتوایی (63/65%) و 2470 واژه دستوری (37/34%) وجود داشت.

دکتر حاجی‌پور شرح داد: یکی ‏از دلایل طولانی‌بودن متوسط بندها، کاربرد همین واژه‏‌های دستوری است که به افزایش طول بند منجر شده و موجب پیچیده و مشکل‌شدن متن میشود. ب) در پژوهش دیگری «استخراج اطلاعات آماری دربارۀ هزوارشها» صورت گرفت. هزوارش‌ها، کلماتی از اصل آرامی هستند که در متون دورۀ میانۀ زبان‌های ایرانی دیده می‌شوند و هنگام قرائت متن، نه با تلفظ آرامی بلکه با تلفظ همان زبان ایرانی خوانده می‌شوند. دادههای این پژوهش شامل 31046 واژه فارسی میانه است از سه منبع الف- 31 متن از متون پهلوی مانند اندرز دانایان به مزدیسنان، شهرستان‌های ایران و ...؛ ب مینوی خرد؛ پ- اندرز اوشنر دانا است. 12 مقوله دستوری برای برچسب‌گذاری تعریف شده: فعل، اسم، صفت، قید، عدد، ضمیر، حرف تعریف، پیش‌اضافه، پس‌اضافه، حرف ربط، ادات و اضافه که همه در مورد هزوارشها بررسی شد. فراوانی کلی واژه‌ها در این 12 مقوله به ترتیب فراوانی، شامل اسم، حرف ربط، فعل، پیش‌اضافه، صفت، اضافه، قید، ضمیر، حرف تعربف، عدد، پس‌اضافه و ادات است. اما مقایسۀ واژه‌ها از لحاظ هزوارش و املای پهلوی در 3 مقوله پربسامد نشان می‌دهد که واژه‌های اسم فقط در 15% موارد هزوارش است و بقیه با املای پهلوی نوشته شده است؛ حرف ربط 90% موارد هزوارش است؛ در مورد فعل‌ها 234 فعل (بدون در نظر گرفتن تکرار) در این پیکره بود که از میان آنها تنها 32 فعل همواره هزوارش بود و در بقیه موارد یا به هر دو صورت هزوارش و غیر هزوارش هستند یا فقط املای پهلوی دارند. ج) مقایسه فعل مجهول گذشته ساده در دو متن گزیده‌های زادسپرم و مینوی خرد، چنین نتیجه‌ای را نشان می‌دهد: در گزیده‌های زادسپرم 57 مورد دیده شد که 37 مورد با روش بن مضارع + īh + ist ساخته شده است. در مینوی خرد 7 مورد که 2 تای آن با روش گفتهشده ساخته شده است. این جست‌وجوی ساده نشان می‌دهد در متن گزیده‌ها که یک متن اسطوره است از فعل مجهول بیشتر استفاده شده و در متن اندرزی مینوی خرد، ساخت فعل مجهول کاربرد چندانی ندارد. بنابراین شاید بتوان نتیجه گرفت که در متون اسطورهای فعل مجهول کاربرد بیشتری دارد.

پیکره مستندات علمی: کاربرد فناوری اطلاعات در تهیه پیکره زبانی و رفع چالش‌ها
سخنرانی آخر با عنوان «پیکره مستندات علمی: کاربرد فناوری اطلاعات در تهیه پیکره زبانی و رفع چالش‌ها» مسعود قیومی ارائه شد. در این سخنرانی گزارشی از عملکرد وی در طرح اعتلای معطوف به پیشرفت کشور ارائه شد .وی همچنین به نحوه تهیه پیکره زبانی و چالش‌های آن پرداخت و در انجام یک کار عملی، راهکارهای به‌کارگرفته‌شده برای رفع چالش‌ها را معرفی کرد. پیکره تهیه‌شده از مقالات علمی متشکل شده بود که از طریق فرایند خزش گردآوری شده بود. یافتن مقالات مشابه از وبگاه‌های خزش‌شده، پالایش مقالات از نظر زبان و رشته علمی و همچنین پیش‌پردازش داده‌ها ازجمله مسائلی بود که در این سخنرانی ارائه شد.
در پایان نشست نیز از صفحه مربوط به «مجموعه پیکره‌ها، لغت‌نامه‌ها و سامانه‌های پژوهشکده زبان‌شناسی» که در پژوهشکده زبان‌شناسی به آدرس https://www.ihcs.ac.ir/corpora/fa تهیه شده‌است، رونمایی شد.

گزارش سخنرانی‌های پژوهشکده زبان‌شناسی در هفته پژوهش

نظر شما :