پیکره بزرگ متنی فارسی

تعداد بازدید:۹۱۱

معرفی: 

پیکره بزرگ متنی فارسی یک پیکره زبانی حاصل از خزش 24 وبگاه خبری است که قابلیت روزآیندشدگی خودکار دارد. این پیکره می‌تواند در پژوهش‎های علوم انسانی مبتنی بر داده مورد استفاده قرار گیرد. در این مدل خزش، اخبار به‎صورت روزانه از وبگاه‎های خبری خزش شده و به داده‌‏های قبلی  افزوده می‌‏شود؛ بنابراین یک فرایند پیوستار و پویا در فرایند جمع‎آوری داده وجود دارد و مقطعی نیست. نتیجۀ این عملکرد می‎تواند ضمن به‌روزرسانی روزانه داده‌ها در پایگاه پیکره، از این اطلاعات برای رصد تغییرات زبانی و یافتن نوواژه‌های واردشده به زبان کمک گرفت. همچنین می‌توان از این پیکره برای بررسی تحولات رویدادهای سیاسی، اقتصادی، اجتماعی و مانند آن در جامعه ایران به‌صورت روزانه پرداخت. این پیکره شامل داده‌های خبری از 1368 تا کنون می‌باشد و فرایند خزش روزانه 6 بار از وبگاه‌های خبری همچنان ادامه دارد و به پایگاه داده پیکره اضافه می‌گردد.

براساس گزارش استخراج‌شده از پایگاه داده پیکره در تاریخ 1401/2/21، تعداد اسناد خزش‎شده موجود، در بازه زمانی 1368/4/1 تا 1401/2/21، بالغ‏‎بر 44 میلیون خبر است که این حجم داده بیش‎از 14 میلیارد واژه را شامل شده‌است. جزئیات مربوط به هر وبگاه خبری در این بازه زمانی در جدول زیر گزارش شده‌است:

 

تاریخ شروع

تعداد زبان

تعداد واژه‌ها

تعداد اسناد خبری

وبگاه خبری

1368/4/1

فارسی، انگلیسی، عربی،

ترکی، اسپانیایی، اردو،

روسی، آلمانی، فرانسه، چینی

2354544250

7489837

ایرنا

1382/4/11

فارسی، انگلیسی، عربی، اردو، ترکی، کردی

1952762093

5807704

مهرنیوز

1378/1/22

فارسی، انگلیسی، عربی، فرانسه

2383281438

6236163

ایسنا

1390/2/4

فارسی، انگلیسی، عربی

943587261

6296115

خبرگزاری جوان

1391/8/20

فارسی، انگلیسی، عربی

1212158757

2891036

تسنیم نیوز

1390/12/9

فارسی، انگلیسی، عربی

573517733

2247573

خبرگزاری صداوسیما

1389/1/22

فارسی

493883016

1200147

مشرق نیوز

1383/1/11

فارسی، عربی

464762568

1078786

تابناک

1387/5/25

فارسی، انگلیسی، عربی

390167979

1017022

خبرآنلاین

1394/10/24

فارسی، انگلیسی، عربی، ترکی، اسپانیایی، اردو، فرانسه

103001221

944935

شفقنا

1385/1/1

فارسی

360696091

852083

همشهری آنلاین

1385/4/13

فارسی، عربی

466134741

1190446

عصرایران

1381/4/11

فارسی، انگلیسی، عربی، ترکی

1400335445

3997183

فارس نیوز

1391/6/5

فارسی

56915923

600615

نامه نیوز

1387/11/26

فارسی

165910331

529617

شفاف

1391/6/14

فارسی

196141353

461474

روزنو

1390/2/27

فارسی

145323209

456408

ایران اکونومیست

1387/2/7

فارسی

138945530

252701

رجانیوز

1392/2/17

فارسی

110428565

263984

صبحانه آنلاین

1390/10/20

فارسی

75588424

442971

شبکه خبر

1390/10/14

فارسی

64522322

176980

اخبار بانک

1392/2/23

فارسی

28486933

107161

تیترنیوز

1392/8/26

فارسی، انگلیسی

12384577

18547

وزارت بهداشت

1392/3/4

فارسی

3159571

9969

سازمان مدیریت بحران کشور

از 1368/4/1

تا 21/2/1401

11 زبان

14096639331

44569457

جمع کل

 

اطلاعات ارجاع

قیومی، مسعود (1400) تأسیس پرتال کرونا از منظر علوم انسانی و اجتماعی: ابعاد دانش در گردآوری روشمند و مدل‌سازی داده‌های متنی، گزارش فنی، پژوهشکده زبان‌شناسی، پژوهشگاه علوم انسانی و مطالعات فرهنگی، تهران، ایران.

 

سایر مستندات: 

قیومی، مسعود (1401) ارزیابی ساختار هرم وارونه در پیکرۀ بزرگ خبری فارسی: تحلیل گفتمان خبری براساس همبستگی میان عنوان و محتوای خبر. مجله زبان و زبان‌شناسی، 18(35): 21-45.

آخرین ویرایش۱۶ مهر ۱۴۰۲