سخنرانی ایوانف با عنوان «پژوهشهای بینرشتهای زیرساخت الکترونیکی برای زبان، میراث تاریخی و فرهنگی»
پژوهشهای بین رشتهای زیرساخت الکترونیکی برای زبان، میراث تاریخی و فرهنگی: یک مطالعه موردی برای زبان بلغاری
Interdisciplinary Research E-Infrastructure for Language, Historical and Cultural Heritage: A Case Study for Bulgarian
Prof. Dr. Kiril Ivanov Simov
کیریل ایوانف سیموف
تاریخ:May 9, 2021
یکشنبه،19 اردیبهشت 1400
ساعت: 11الی 13 به وقت تهران
لینک ورود رایگان:
https://webinar.ihcs.ac.ir/b/ihc-vcm-rav-5yo
چکیدهی سخنرانی:
در این سخنرانی گامهای اولیه در اجرای زیرساختهای تحقیقاتی برای حمایت از پژوهشهای علوم اجتماعی و انسانی (SSH) ارائه خواهد شد. نیاز است مدیریت حجم زیادی از اطلاعات متنوع حاصل از پژوهشها ازجمله انواع مختلف متون (ژانرهای مختلف، دامنههای متنها، و دورههای زمانی)، مدلسازیهای انجامشده، نمایش و توصیف شاهکارهای هنری و غیره انجام پذیرد. اصلیترین عامل وحدت این دادهها فرادادههای مربوط به آنها است، ولی از این طریق اطلاعات معمولی بسیار کمی را میتوان بازنمایی کرد. از سویی دیگر، دادهها و ابزارهای بسیار خاص و ویژه برای مدیریت آن نیاز است مانند ایجاد این دادهها و ابزارها (دیجیتال سازی) ، بازنمایی، تعمیم، جستجو و غیره.
ما کار شناسایی اطلاعات مورد نظر و مشاهده همزمان آن در همان بافت که بافتسازی اطلاعات در مجموعه دادههای مختلف نامیدهایم را بهعنوان یکی از مراحل پژوهش در حوزه علوم اجتماعی و انسانی در نظر گرفتهایم. این بافتسازی در قالب گراف دانش اجرا میشود که توصیف افراد، وقایع، موجودیتهای جغرافیایی، اشیا، اسناد، نویسندگان، نظرات و غیره را به یکدیگر پیوند میزند که شامل این اطلاعات است:
(1) افراد شامل دادههای بیوگرافی - وقایع در زندگی آنها، نقش آنها؛
(2) موجودیتهای جغرافیایی شامل تاریخچه شهرها و غیره؛
(3) اشیا شامل ایجاد، مواد، شکل، کشف؛
(4) رویدادها شامل مکان، زمان، شرکتکنندگان، ارتباط با سایر رویدادها؛
(5) اسناد شامل نویسندگان، محتوا، نظرات درباره مردم، رویدادها.
ایجاد این گراف دانش به ادغام منابع و فن آوریهای مختلفی نیاز است ازجمله هستیشناسی، گرافهای دانش موجود، منابع زبانی (مانند پیکرههای حاوی نشانهگذاری معنایی، واژگان معنایی (مانند وردنت)، فهرست اصطلاحات، فنآوریهای زبان)، ترتیب فرایندهای ابهام زدایی معنایی واژهها، بازشناسایی و تعیین موجودیتهای نامدار و استخراج دانش از متن. در این سخنرانی ما در مورد مشکلات ادغام منابع موجود و طراحی منابع جدید مورنیاز بحث خواهیم کرد. در پایان، به اجمال ابزاری که برای تهیه گراف دانش و فرایند زبانی نمایهسازی اسناد کاربرد دارد را نمایش خواهیم داد.
The lecture will present the first steps in implementation of a research infrastructure to support the research within Social Sciences and Humanities (SSH). It is needed to provide management of information of a huge variety of research objects including different kinds of texts (various genres, domains, time periods), artefacts models, art masterpieces representations and descriptions, etc. The top unification of these data is the metadata, but very little common information can be represented in this way. On the other end of the scale are the very specific data and tools for its management like creation (digitization), representation, generalization, search, etc.
We consider, as one of the steps of doing research within SSH, the identification of information of interest and its simultaneous observation within the same context, called contextualization of the information in different datasets. The contextualization is implemented as a knowledge graph which interlinks the descriptions of people, events, geographical entities, objects, documents, authors, opinions, etc as follows:
(1) People: biographical data – events in their life, their roles;
(2) Geographical entities: history of cities, etc;
(3) Objects: creation, materials, form, discovery;
(4) Events: place, time, participants, connection to other events;
(5) Documents: authors, contents, opinion about peoples, events.
The creation of such a knowledge graph requires integration of various resources and technologies including ontologies and existing knowledge graphs, language resources – semantically annotated corpora, semantic lexicons (WordNets), terminological lexicons, language technologies – language pipelines for word sense disambiguation, Named Entities Recognition and Identification, extraction of knowledge from text.
In this talk we will discuss the problems with the integration of the existing resources, and the design of new necessary resources. At the end, we will present briefly a tool for usage of the knowledge graph and the language pipeline for indexing of documents.
نظر شما :