گزارش نشست «کاربرد پیکرههای زبان فارسی و اهمیت آن در پژوهشهای ایرانشناسی و جهان ایرانی»
نشست «کاربرد پیکرههای زبان فارسی و اهمیت آن در پژوهشهای ایرانشناسی و جهان ایرانی» به همت پژوهشکده زبانشناسی پژوهشگاه علوم انسانی و مطالعات فرهنگی، برگزار شد. در این نشست که 28 آذر ماه 1402 برگزار شد، چهار سخنران حضور داشتند که با موضوع «تهیه پیکره زبان فارسی و اهمیت آن در ایرانشناسی» نظرات و ایدههای خود را ارائه کردند. دکتر مصطفی عاصی، دکتر مسعود قیومی، دکتر آتوسا رستمبیک و دکتر نادیا حاجیپور سخنرانان این نشست بودند ضمن اینکه مدیریت جلسه نیز برعهدۀ دکتر فرزانه گشتاسب بود.
تهیه پیکره زبان فارسی و اهمیت آن در ایرانشناسی
نخستین سخنران دکتر عاصی بود که در آغاز سخنانش گفت: با نگاهی به پیشینة پیدایش زبانشناسی نوین بهعنوان یکی از تأثیرگذارترین علوم امروزین که تنها در یکصد سال گذشته مجهز بهنظریههای عام و تخصصی زبانی، روششناسی و ابزارهای نوین علمی، رشتههای دانشگاهی در همة مقاطع، مجامع و انجمنهای علمی تخصصی، نشریههای معتبر علمی و نوشتگان بسیار زیاد شده است، درمییابیم که شاخههای کاربردی و میانرشتهایهای گوناگون آن و نیز بهعنوان رکن اصلی رایاسپهر و هوش مصنوعی کموبیش در همة عرصههای زندگی حضور یافته است.
وی ادامه داد: در ایران نیز همگام و همزمان با پیشرفتهای زبانشناسی در جهان، دانشگاهها، پژوهشگاهها، فرهنگستانها، بنیادها و سازمانهای علمی، فرهنگی و فناوری بسیاری با همکاری استادان، دانشوران، پژوهشگران و متخصصان پرشماری دانش زبانشناسی را بهپیش میبرند. یکی از شاخههای بسیار جدید زبانشناسی کاربردی که میانرشتهایِ رایانشی نیز بهشمار میآید، زبانشناسی پیکرهای است که خوشبختانه در ایران بهخوبی آغاز شده و همگام با پیشرفتهای جهانی بهپیش میرود.
دکتر عاصی ادامه داد: پس از تعریفهای کوتاهی از پیکره و زبانشناسی پیکرهای به مهمترین حوزههای کاربرد آن اشارهای میشود و آنگاه به یکی از این زمینهها یعنی فرهنگنگاری با بررسی یک نمونة انجام یافته میپردازیم.
دو رویکرد پیکرهای: بررسیهای پیکرهبنیاد (corpus-based) و پیکرهمحور (corpus-driven)
کاربردهای پیکره و زبانشناسی پیکرهای
۱- میتوان گفت که امروز دیگر در همة شاخههای نظری و کاربردی زبانشناسی با بهرهگیری از روشها و ابزارهای زبانشناسی پیکرهای، پژوهش با دقت و سرعت بسیار بیشتری انجام میگیرد.
۲- با ورود سه عامل زبانشناسی، رایانه و پیکره، دوران فرهنگنگاری نوین فرارسیده است.
۳- نقش پیکرهها در آموزش زبان و تدوین منابع آموزشی آن بسیار اهمیت یافته است.
۴- کاربرد پیکرههای زبانی در اصطلاحشناسی و واژهگزینی نیز آغاز شده است.
۵- امروز بررسیهای گویشی و تدوین اطلسهای زبانها و گویشها با فراهم آوردن پیکرههای بزرگ گویشی و ایجاد بانکهای دادگان گویشی بسیار کارآمدتر و سریعتر شده است.
۶- با مطرحشدن کاربرد پیکرههای موازی در طرحهای ترجمه ماشینی، یکباره تحول و جهشی بزرگ در این رشته بوجود آمد.
۷- بررسیهای ادبی و سبکشناختی، تصحیح متون و تحلیل محتوا نیز با کمک زبانشناسی پیکرهای وارد دوران تازهای شده است.
فرهنگنگاری نوین
* فرهنگنگاری و فنّاوری اطلاعات (IT)
* فرهنگنگاری رایانشی
* فرهنگنگاری و زبانشناسی پیکرهای
* فرهنگهای پیکرهبنیاد
یک نمونه از فرهنگهای پیکرهبنیاد: فرهنگ زبانآموز پیشرفتة فارسی
ویژگیها و نوآوریهای فرهنگ زبانآموز فارسی در یک نگاه:
* نخستین فرهنگ پیکرهبنیاد زبانآموز پیشرفتة فارسی
* بیش از 31000 سرواژه و مدخل اصلی
* نشانههای تصویری نمایندة بسامد نسبی سرواژهها
* نزدیک به 6000 عبارت اصطلاحی
* نزدیک به 2000 نکتة کاربردی
* 896 صفحة بزرگ (قطع رحلی)
* بیش از 15600 شاهد مثال از کاربرد واقعی زبان برگرفته از پیکرة 50 میلیون واژهای پایگاه دادگان زبان فارسی
* تعریف ساده و روشن سرواژهها با واژگان محدود تعریف 2800 واژه¬ای
* آوانگاری تلفظ رسمی و گفتاری سرواژهها
* بیش از 600 تصویر درون متن و 17 صفحه تصویرهای رنگی جداگانه برای روشنتر کردن معنی
* دستور زبان و قواعد ساختواژی فشردة فارسی در پیشگفتار
* پیوستها و فهرستهای موضوعی گوناگون»
کاربرد پیکرۀ زبانی در ارتباطات بین فرهنگی
دومین سخنرانی توسط دکتر مسعود قیومی انجام شد که عنوان آن «کاربرد پیکرۀ زبانی در ارتباطات بین فرهنگی» بود. دکتر قیومی گفت: ارتباطات بین فرهنگی به مطالعۀ ارتباطات میان فرهنگها و گروههای اجتماعی مختلف یا چگونگی تأثیر فرهنگ بر ارتباطات و همچنین چگونگی ارتباط مردم متعلق به کشورها و فرهنگهای گوناگون با یکدیگر و درک از جهان پیرامون خود میپردازد. این موضوع ذیل موضوعات انسانشناسی، مطالعات فرهنگی، زبانشناسی، روانشناسی و ارتباطات مطرح و اساساً یک موضوع بینرشتهای تلقی میشود. موضوعاتی از قبیل هویت و فرهنگ در چارچوب رشتۀ ارتباطات برای تحلیل چگونگی تأثیر جهانیشدن بر شیوۀ تفکر، اعتقادات و ارزشها مطرح میشود که خارج از موضوع بحث این سطور است.
دکتر قیومی ادامه داد: در حوزۀ ارتباطات بین فرهنگی، دو موضوع فرهنگ و ارتباطات در تعامل با یکدیگر است. هدف از این تعامل تلاش بر تعیین چارچوب و تئوریزهسازی فرهنگ و ارتباطات است. ازآنجاکه فرهنگ و ارتباطات به موازات تغییرات اجتماعی دچار تحول میشود و فرهنگ سنجشپذیر نیست و خصلت جهانی ندارد، نظریهها باید تحولات دائمی و جنبههای مختلف یک جامعه مشخص را در نظر بگیرد و از تلقین دیدگاههایی که از مطالعۀ یک جامعه بهدست میآورد بر جامعۀ دیگر پرهیز کند. توجه به این نکته موجب توجه به ویژگی پویایی در نظریهپردازی میشود.
زبان یک ابزار و مؤلفه فرهنگی مهم برای برقراری ارتباط و تعامل میان افراد یک جامعه و همچنین گویشوران دیگر زبانها است. براساس نظریۀ جبر زبانی معرفیشده توسط ساپیر و وورف (اوتنهایمر، 2009: 33-34)، زبان تفکر را شکل میدهد و بر شناخت افراد تأثیرگذار است؛ بنابراین، افراد با فرهنگهای مختلف بهدلیل تفاوت در زبانهایشان متفاوت فکر میکنند. براساس همین رویکرد، «نظریه معنای معانی» (گریفین، 2000) در حوزۀ سوءتفاهم میان افراد با فرهنگهای مختلف مطرح میشود. هدف از پژوهش حاضر یافتن راهکاری برای مطالعۀ ارتباطات بین فرهنگی از دریچۀ زبان با کمک فناوریهای روز ازجمله پیکرۀ زبانی، زبانشناسی رایانشی و هوش مصنوعی است.
قیومی تأکید کرد: یافتن درک متقابل و ایجاد تفاهم زبانی در مطالعات ارتباطات بین فرهنگی در کشورهای مختلف از اهمیت بهسزایی برخوردار است. بهدلیل محدودیتهای زمانی و مکانی، امکان دسترسی به دادههای زبانی زنده درجوامع دیگر وجود ندارد. بنابراین، رویکرد دادهمحور یا پیکرهمحور در مطالعات مربوط به ارتباطات بین فرهنگی مورد توجه قرار میگیرد و این امر موجب گردآوری دادههای زبانی در قالب پیکرۀ زبانی و تحلیل آنها برای فهم زبانی در جوامع مختلف میشود.
ویژگی ارتباطی زبان سبب شدهاست مطالعات معناشناسی از اهمیت شایانی برخوردار گردد. مفهوم یک عبارت یا جمله از کنارهمقرارگرفتن معانی واژههای تشکیلدهندۀ آن عبارت یا جمله در محور همنشینی درک میشود. گاهی ممکن است بهدلیل ساخت زبانی یا ویژگی چندمعنایی واژهها، مفهوم درکشده توسط شنونده از مقصود گوینده متفاوت باشد. در این صورت با پدیدهای بهنام ابهام مواجه میشویم. ابهام عامل متمایزکننده میان زبان طبیعی و زبانهای برنامهنویسی و صوری است. به عبارتی دیگر، ابهام بیانگر وجود تردید ناخواسته در معنا است که میتواند برخواسته از ساخت زبانی یا ویژگی معنایی خود واژه باشد. استعاره یک پدیدۀ دیگر زبانی است که میتواند ذیل ابهام مطرح گردد. تفاوت ابهام و استعاره در این است که استعاره بیانگر وجود یک روش خلاقانه ایجاد تردید آگاهانه و هدفمند در ابهام واژگانی است (گیلز، 1991). سوءتفاهم تعبیری است که از ابهام یا استعاره ناشی میشود و خود عامل سوءبرداشت نیست، بلکه نتیجۀ آن است.
دکتر قیومی در خاتمه سخنانش یادآور شد: محدودیت زمانی و مکانی سبب تهیه پیکرههای زبانی و مطالعۀ شواهد متعلق به یک زبانی توسط افراد خبره در جوامع دیگر برای مطالعۀ یک جامعه شدهاست. استفاده از فناوری میتواند مطالعات بین فرهنگی را دستخوش تغییر کند و ضمن افزایش سرعت و دقت و همچنین کاهش زمان در تحلیل دادهها و رسیدن به جمعبندی، به دستیابی به اطلاعات جدیدی منجر شود که پیش از آن با صرف زمان زیادی میسر بود. امروزه میتوان از توانمندیهای زبانشناسی رایانشی و هوش مصنوعی در حوزۀ پردازش معنایی واژهها استفاده نمود و از نتایج آن برای اهداف مورد نظر در مطالعات ارتباطات بین فرهنگی بهره برد. در این راستا به دو شیوه میتوان عمل کرد. یک شیوه، تعیین معانی یک واژه بهصورت استنتاجی استقرایی با استفاده از الگوریتمهای یادگیری ماشینی بینظارت و پیکرۀ زبانی عاری از هرگونه نشانهگذاری است. شیوۀ دوم، ابهامزدایی معنایی واژه است که در این حوزه باید با کمک الگوریتمهای یادگیری ماشینی با نظارت و پیکرۀ برچسبگذاریشدۀ معنایی واژهها، معنای واژهها را براساس بافت زبانی از یک جدول مشخص معانی متعلق به واژۀ هدف تعیین کرد.
پیکرههای زبانی و بازنمایی و انتقال فرهنگ
سومین سخنران نشست دکتر آتوسا رستمبیک مطالبش را با عنوان «پیکرههای زبانی و بازنمایی و انتقال فرهنگ» ارائه کرد و گفت: یکی از شاخههای نسبتاً تازه بنیاد در رشته زبانشناسی که متأثر از پیشرفت تکنولوژی شکل گرفت و همراستا با آن متحول میشود، زبانشناسی پیکرهای است. دیجیتالیشدن داده زبانی امکان گردآوری و نگهداری حجم زیادی از داده را فراهم آورد. دادهای که همان ابزارهای رایاناشی و دیجیتالی امکان تحلیلش در زمان اندک را نیز فراهم میآورد. با گسترده شدن ابعاد کاربردی زبانشناسی پیکرهای، انواع پیکرههای زبانی تعریف و گردآوری شدند. کاربرد و نقش این پیکرههای زبانی، جدا از کاربرد و نقش خود زبان نیست. همانگونه که یکی از کارکردهای زبان انعکاس شخصیت فرد و تاریخچۀ فرهنگی او و نیز انتقال فرهنگ است، پیکرههای زبانی نیز در بازنمایی و انتقال فرهنگی نقش مهمی دارند؛ بهویژه با این نقش با توجه به کاربردشان در سه حوزه زبانشناسی فرهنگی، آموزش زبان و ترجمه برجستهترمیشود. پیکرههای زبانی یکی از ابزارهایی است که در زبانشناسی فرهنگی که به رابطۀ بین مفهومسازی فرهنگی و زبان میپردازد، کاربرد دارد و میتواند مسیر ما را در دستیابی به طرحوارهها، مقولهها و استعارههای فرهنگی جوامع هموار سازد. پیکرههای زبانی در یادگیری و آموزش زبان نیز نقش بهسزایی دارند و در تدوین فرهنگهای لغت، دستور زبان، آزمونسازی، طراحی درسی و تدوین کتابهای درسی بهکار میروند. علاوه بر این، پیکرههای زبانی در ترجمه نیز کاربرد بسیار دارند. انواع پیکرههای زبانی موازی، دو یا چندزبانه و قابل مقایسه به مترجم در آموزش ترجمه یا انجام پژوهشهایی در حوزه ترجمه یا دستیابی به معادل اصطلاحات خاص کمک میکنند. در ایران، با وجود اینکه در سالهای اخیر، تهیه پیکرههای زبانی مورد توجه قرار گرفته است، همچنان خلاء پیکرههای زبانی تخصصی احساس میشود.»
دربارۀ پایگاه دادگان پارسیک
چهارمین سخنرانی نشت توسط دکتر نادیا حاجیپور با عنوان «دربارۀ پایگاه دادگان پارسیک (آدرس: parsigdatabase.com) و چند نمونه از پژوهشهای آماری» ارائه شد.
دکتر حاجیپور سخنانش را دربارۀ پایگاه دادههای زبان فارسی میانه آغز کرد و گفت: این پایگاه شامل تمام متون فارسی میانه خواهد بود. واژههای این پایگاه برچسبدهی شده است که شامل املای پهلوی واژه، آوانویسی، حرفنویسی، معنای فارسی، بنواژه، برچسب دستوری، ارجاع به فصل و بند کتاب و ارجاع به نسخه انتقادی است. چهار نوع جستوجو در این پایگاه امکانپذیر است، جستوجوی متن، واژه، برچسب دستوری، باهمایی. در جستوجوی متن، نتیجه جستوجو شامل دو بخش است: الف) آوانویسی و ترجمه یا ترجمههای متن همراه با یادداشتهایی است که گاه بر متن نوشته شده است؛ ب) نمایش متن پهلوی (شامل متن انتقادی و دستنویسهای که در دسترس داشتیم). در جستوجوی واژه، پنج روش وجود دارد: واژه به پهلوی، آوانویسی واژه، حرفنویسی واژه، معنای آن و بن واژه. نتیجه جستوجو در این بخش در دو خروجی دارد: «فهرست واژگان» که شامل همه واژههای مورد جستوجو است و «تنوع و بسامد واژه» که فقط شامل خود واژه است. در هر یک از انواع جستوجوی واژه میتوان متن مورد نظر و فصل آن را انتخاب کرد. در جستوجوی برچسب دستوری نخست مقوله اصلی انتخاب، سپس مقولات ریزتر ظاهر انتخاب میشود.
2- تحلیلهای صورت گرفته در این پایگاه عبارت است از: الف- تهیه اطلاعات آماری؛ ب- تحلیل آماری هزوارش در چند متن فارسی میانه؛ ج- تحلیل آماری افعال جعلی در متون فارسی میانه.
الف- تهیه اطلاعات آماری
در پژوهش نخست، هشت متن با حدود 7000 واژه درنظر گرفته شد. اطلاعات شامل تعداد بندها، واژه تکراری، واژه بدون تکرار، بن واژه، واژه با بسامد 1، تعداد واژه محتوایی و دستوری، تعداد هزوارش و تعداد هزوارش محتوایی بود. برخی از نتایج عبارت است از: بهطورکلی، نسبت واژههای بدون تکرار به واژههای با تکرار که تنوع واژگانی (غنای واژگانی) نامیده میشود 40/38 درصد است. «بهرام ورجاوند» غنای واژگانی نسبتاً بالایی با 46/63 درصد را دارد. این تنوع واژگانی موجب دشواری درک مطلب میشود. واژههای محتوایی عبارت است از فعل، اسم، صفت، قید، ضمیر و شبه جمله؛ و واژههای نقشی عبارت است از حرف ربط، حرف اضافه و حرف تعریف. از میان واژههای متون، 4717 واژه محتوایی است که 63/65 درصد کل واژه را شامل میشود. تعداد کل هزوارشها در دادههای تحلیلشده 3968 واژه است که این تعداد بیانگر این است که 21/55 درصد از کل واژهها هزوارش است.
ب- تحلیل آماری هزوارش در چند متن فارسی میانه
در برچسبگذاری دستوری واژهها، 12 مقوله دستوری اصلی تعریف شده است که شامل فعل، اسم، صفت، قید، عدد، ضمیر، حرف تعریف، پیشاضافه، پساضافه، حرف ربط، ادات و اضافه است. در مقالهای وجود هزوارش، بسامد آن و چگونگی کاربرد آن در هر واژه بر اساس این 12 مقوله استخراج و مورد بررسی قرار گرفت. دادههای این پژوهش شامل 31046 واژۀ فارسی میانه است که از سه منبع گردآوری شدهاست. 1- 31 متن کوتاه و بلند ازکتاب متون پهلوی (Pahlavi Texts)است، 2- مینوی خرد، و 3- اندرز اوشنر دانا. شمارش هزوارشها در این متون نشان میدهد که حدود 53 درصد از این واژهها بهصورت هزوارش و حدود 47 درصد بهصورت پهلوی نوشته شدهاند. نگارش حدود نیمی از یک متن پهلوی با هزوارش بهخوبی نقش این نوع نگارش خاص واژههای پهلوی را نشان میدهد. بیش از 90 درصد واژههای دستوری بهصورت هزوارش نوشته میشوند. در واژههای محتوایی، نقش هزوارش در اسم، صفت، قید و عدد بسیار کمتر از فعل و ضمیر است. ضمایر فارسی میانه نیز مانند واژههای دستوری تقریباً همیشه بهصورت هزوارش نوشته میشوند. در فعلها نیز هزوارشنویسی نقش مهمی دارد، حدود 16 درصد افعال با هر دو املای هزوارش و پهلوی، حدود 13 درصد فقط هزوارش و حدود 71 درصد فقط پهلوی نوشته شدهاند.
ج- تحلیل آماری افعال جعلی در متون فارسی میانه
فعل جعلی فعلی است که بر پایه اسم، صفت، قید، حروف اضافه و غیره ساخته میشوند. پیکرۀ این مقاله مشتمل بر 46570 واژه است. افعال جعلی را از نظر ساخت، صرف و بسامد آنها در متون گوناگون بررسی شده است. پیکره این پژوهش شامل گزیدههای زادسپرم، زند بهمن یسن، شهرستانهای ایران، مینوی خرد، و 8 متن کوتاه و بلند اندرزی. در فارسی میانه ساخت فعل جعلی دو صورت متعدی و لازم دارد. برای ساخت فعل متعدی پسوند -ēn و برای ساخت فعل لازم پسوند -īh به انتهای اسم، صفت، قید و... اضافه میشود. در پیکره این پژوهش تعداد 50 ستاک فعل جعلی فهرست شد که در مجموع 137 بار در صرفها و ساختهای مختلف به کار رفته است. این50 فعل شامل 32 فعل متعدی و 18 فعل لازم است. پایۀ ساخت آنها، اسم، صفت، ضمیر و قید بوده است. بیشترین ساختی که در مجموع از افعال جعلی در این متون به کار رفته است، 66 فعل از 137 فعل ساخت ماضی، 39 فعل مضارع، 16 مصدر و 16 مشتق (همگی از افعال متعدی) به کار رفتهاند. بیشترین تعداد افعال جعلی در متن گزیدههای زادسپرم به کار رفته است. از 137 فعل جعلی صرفشده، 97 مورد در گزیدههای زادسپرم، 26 مورد در مینوی خرد به کار رفته است و تعداد افعال جعلی بقیه متون 3 مورد یا کمتر است. نسبت ستاکهای افعال جعلی (50 فعل)، نسبت به کل ستاک افعال شمارششده در پیکره این پژوهش که 408 مورد است، 13 درصد است که نسبت قابلتوجهی است. بالاترین نسبت در متن گزیدههای زادسپرم مشاهده میشود که از 303 ستاک فعلی که در این متن به کار رفته 38 فعل جعلی است یعنی 5/12 درصد است. این تفاوت واضح در تعداد ساخت و کاربرد افعال جعلی نشاندهنده ویژگی زبانی متن گزیدههای زادسپرم است که از متون تالیفشده بر اساس زند اوستا است و محتوای اصلی آن اساطیر و حوادث آغاز و پایان جهان است./پایان
تنظیم گزارش نادیا حاجیپور
کارشناس پژوهشی پژوهشکده زبانشناسی
نظر شما :