بررسی اثرگذاری متغیرهای مؤثر بر بردار معنایی واژه‌ها در بازنمایی معنایی مبتنی‌بر فضای برداری

۰۸ آبان ۱۴۰۲ | ۱۳:۵۹ کد : ۲۴۴۳۴ اخبار معاونت
تعداد بازدید:۱۷۵

واژه یک واحد زبانی است که جایگاه ویژه‌ای در بررسی‌های زبان‌شناسی دارد. هر واژه حاوی اطلاعات بسیار مهم مربوط به ویژگی‌های صرفی، نحوی، و معنایی است. معنی دقیق واژه باتوجه‌به کاربرد آن در بافت زبانی مشخص می‌گردد. یکی از وجوه واژه که جنبۀ انتزاعی دارد معناست. ویژگی مطالعات معنایی این است که قالب بررسی آن تا حد بسیار زیادی فارغ از زبان است. بنابراین در بررسی ویژگی‌های معنایی می‌توان با اتخاذ یک چارچوب نظری، بیش از یک زبان را مطالعه نمود.

در این طرح پژوهشی تلاش می‌کنیم ضمن بررسی نحوۀ استفاده از روش‌های محاسباتی برای بازنمایی معنایی واژه‌ها و یافتن تشابه معنایی بین آنها، متغیرهای مؤثر بر بردار معنایی واژه‌ها که به بازنمایی معنایی مبتنی‌بر فضای برداری می‌پردازد را بررسی نماییم. روش‌ محاسباتی اصلی که در این پژوهش به‌کار گرفته خواهد شد استفاده از روش‌های درونه‌یابی واژه برای تبدیل یک واژه به بردار است. برای استفاده از این روش، چندین متغییر وجود دارد که می‌توان اثرگذاری هر یک در درونه‌یابی واژه را مورد بررسی قرار داد. در این پژوهش این متغیرها را به پنج دسته تقسیم کرده و بررسی می‌کنیم. دستۀ اول متغیرها مربوط به نوع پیکرۀ زبانی ورودی به الگوریتم بردارسازی است که می‌تواند یک پیکرۀ تک‌زبانۀ غیرموازی یا پیکرۀ دوزبانۀ موازی بوده و بر نحوۀ بردارسازی مؤثر باشد. برای این منظور نیاز است از پیکرۀ تک‌زبانۀ غیرموازی و پیکرۀ موازی استفاده نماییم. در روش‌هایی که پیکرۀ موازی در فرایند بردارسازی دخالت ندارد از نگاشت بین زبانی و استفاده از یک فهرست واژگانی دوزبانه بهره برده می‌شود. در بازنمایی معنایی بین زبانی، واژه‌های موجود در دو زبان مختلف که شباهت معنایی به یکدیگر دارد در یک فضای برداری مشترک در کنار یکدیگر قرار می‌گیرد و این متغیرها بر تشکیل این فضای برداری بسیار تأثیرگذار است. دستۀ دوم متغیرها مربوط به دامنۀ دادۀ ورودی است. هرچه دامنۀ پیکره به هدف یا دادۀ آزمون مورد نظر نزدیکتر باشد به نتیجۀ بهتری می‌توان دست یافت. دستۀ سوم متغیرها مربوط به حجم داده است. هرچه حجم دادۀ ورودی برای ساخت فضای برداری بیشتر باشد، به‌دلیل وجود تنوع بافتی برای واژه‌ها، اطلاعات بافتی متنوع‌تری در بردارها کدگذاری شده و بردارهای ساخته‌شده از کیفیت بهتری برخوردار است. دستۀ چهارم متغیرها مربوط به بافت جایگاهی است که در ساخت بردار واژۀ هدف دخیل است. شاید به نظر برسد هرقدر بافت جایگاهی بزرگتری برای واژۀ هدف استفاده شود اطلاعات بیشتری در ساخت بردار کدگذاری می‌شود ولی الزاماً بافت جایگاهی بزرگتر به نتیجۀ بهتر منجر نمی‌شود؛ بنابراین اندازۀ بهینۀ این بافت جایگاهی باید به‌صورت تجربی مشخص گردد. متغیر پنجم انتخاب زبان اول یا دوم و نگاشت زبان اول بر دوم یا برعکس در بردارسازی بین زبانی است. بنابراین انتخاب زبان اول نیز ممکن است بر بردار واژه تأثیرگذار باشد.

در انجام این پژوهش از سه پیکره استفاده خواهد شد: یک پیکرۀ تک‌زبانۀ غیرموازی فارسی، یک پیکرۀ تک‌زبانۀ غیرموازی انگلیسی و یک پیکرۀ موازی فارسی‌ـ‌انگلیسی. یافتن متغیرهای اثرگذار بر ساخت بردار معنایی واژه در فرایند درونه‌یابی واژه می‌تواند یک مدل مناسبی از مدل فضای برداری واژه‌ها را فراهم آورد. رسیدن به هدف این پژوهش می‌تواند در حوزۀ معناشناسی رایانشی که با ترجمۀ ماشینی، بازیابی اطلاعات بین زبانی، استنتاج استقرایی معنایی و ابهام‌زدایی معنایی واژه مرتبط است ‌مورد استفاده قرار گیرد. برای ارزیابی این متغیرها از سه مجموعۀ دادۀ قیاس گوگل و تشابه واژگانی تک‌زبانه و دوزبانه استفاده می‌گردد و نتایج حاصل از مدل‌ها براساس معیارهای آماری ضریب همبستگی پیرسون و اسپیرمن سنجیده می‌شود. زبان معیار برای فارسی و انگلیسی که در این پژوهش بررسی می‌شود زبان نوشتاری معیاری است که در نوشتار رسمی هر یک از دو این زبان به کار می‌رود. نتایج حاصل از بررسی متغیرها در یک فعالیت کاربردی در حوزۀ پردازش زبان طبیعی که بازیابی سؤال به‌عنوان یکی‌از بخش‌های بازیابی اطلاعات است مورد ارزیابی قرار می‌گیرد.


نظر شما :