بررسی اثرگذاری متغیرهای مؤثر بر بردار معنایی واژهها در بازنمایی معنایی مبتنیبر فضای برداری
واژه یک واحد زبانی است که جایگاه ویژهای در بررسیهای زبانشناسی دارد. هر واژه حاوی اطلاعات بسیار مهم مربوط به ویژگیهای صرفی، نحوی، و معنایی است. معنی دقیق واژه باتوجهبه کاربرد آن در بافت زبانی مشخص میگردد. یکی از وجوه واژه که جنبۀ انتزاعی دارد معناست. ویژگی مطالعات معنایی این است که قالب بررسی آن تا حد بسیار زیادی فارغ از زبان است. بنابراین در بررسی ویژگیهای معنایی میتوان با اتخاذ یک چارچوب نظری، بیش از یک زبان را مطالعه نمود.
در این طرح پژوهشی تلاش میکنیم ضمن بررسی نحوۀ استفاده از روشهای محاسباتی برای بازنمایی معنایی واژهها و یافتن تشابه معنایی بین آنها، متغیرهای مؤثر بر بردار معنایی واژهها که به بازنمایی معنایی مبتنیبر فضای برداری میپردازد را بررسی نماییم. روش محاسباتی اصلی که در این پژوهش بهکار گرفته خواهد شد استفاده از روشهای درونهیابی واژه برای تبدیل یک واژه به بردار است. برای استفاده از این روش، چندین متغییر وجود دارد که میتوان اثرگذاری هر یک در درونهیابی واژه را مورد بررسی قرار داد. در این پژوهش این متغیرها را به پنج دسته تقسیم کرده و بررسی میکنیم. دستۀ اول متغیرها مربوط به نوع پیکرۀ زبانی ورودی به الگوریتم بردارسازی است که میتواند یک پیکرۀ تکزبانۀ غیرموازی یا پیکرۀ دوزبانۀ موازی بوده و بر نحوۀ بردارسازی مؤثر باشد. برای این منظور نیاز است از پیکرۀ تکزبانۀ غیرموازی و پیکرۀ موازی استفاده نماییم. در روشهایی که پیکرۀ موازی در فرایند بردارسازی دخالت ندارد از نگاشت بین زبانی و استفاده از یک فهرست واژگانی دوزبانه بهره برده میشود. در بازنمایی معنایی بین زبانی، واژههای موجود در دو زبان مختلف که شباهت معنایی به یکدیگر دارد در یک فضای برداری مشترک در کنار یکدیگر قرار میگیرد و این متغیرها بر تشکیل این فضای برداری بسیار تأثیرگذار است. دستۀ دوم متغیرها مربوط به دامنۀ دادۀ ورودی است. هرچه دامنۀ پیکره به هدف یا دادۀ آزمون مورد نظر نزدیکتر باشد به نتیجۀ بهتری میتوان دست یافت. دستۀ سوم متغیرها مربوط به حجم داده است. هرچه حجم دادۀ ورودی برای ساخت فضای برداری بیشتر باشد، بهدلیل وجود تنوع بافتی برای واژهها، اطلاعات بافتی متنوعتری در بردارها کدگذاری شده و بردارهای ساختهشده از کیفیت بهتری برخوردار است. دستۀ چهارم متغیرها مربوط به بافت جایگاهی است که در ساخت بردار واژۀ هدف دخیل است. شاید به نظر برسد هرقدر بافت جایگاهی بزرگتری برای واژۀ هدف استفاده شود اطلاعات بیشتری در ساخت بردار کدگذاری میشود ولی الزاماً بافت جایگاهی بزرگتر به نتیجۀ بهتر منجر نمیشود؛ بنابراین اندازۀ بهینۀ این بافت جایگاهی باید بهصورت تجربی مشخص گردد. متغیر پنجم انتخاب زبان اول یا دوم و نگاشت زبان اول بر دوم یا برعکس در بردارسازی بین زبانی است. بنابراین انتخاب زبان اول نیز ممکن است بر بردار واژه تأثیرگذار باشد.
در انجام این پژوهش از سه پیکره استفاده خواهد شد: یک پیکرۀ تکزبانۀ غیرموازی فارسی، یک پیکرۀ تکزبانۀ غیرموازی انگلیسی و یک پیکرۀ موازی فارسیـانگلیسی. یافتن متغیرهای اثرگذار بر ساخت بردار معنایی واژه در فرایند درونهیابی واژه میتواند یک مدل مناسبی از مدل فضای برداری واژهها را فراهم آورد. رسیدن به هدف این پژوهش میتواند در حوزۀ معناشناسی رایانشی که با ترجمۀ ماشینی، بازیابی اطلاعات بین زبانی، استنتاج استقرایی معنایی و ابهامزدایی معنایی واژه مرتبط است مورد استفاده قرار گیرد. برای ارزیابی این متغیرها از سه مجموعۀ دادۀ قیاس گوگل و تشابه واژگانی تکزبانه و دوزبانه استفاده میگردد و نتایج حاصل از مدلها براساس معیارهای آماری ضریب همبستگی پیرسون و اسپیرمن سنجیده میشود. زبان معیار برای فارسی و انگلیسی که در این پژوهش بررسی میشود زبان نوشتاری معیاری است که در نوشتار رسمی هر یک از دو این زبان به کار میرود. نتایج حاصل از بررسی متغیرها در یک فعالیت کاربردی در حوزۀ پردازش زبان طبیعی که بازیابی سؤال بهعنوان یکیاز بخشهای بازیابی اطلاعات است مورد ارزیابی قرار میگیرد.
نظر شما :