پیکره بزرگ متنی فارسی
معرفی:
پیکره بزرگ متنی فارسی یک پیکره زبانی حاصل از خزش 24 وبگاه خبری است که قابلیت روزآیندشدگی خودکار دارد. این پیکره میتواند در پژوهشهای علوم انسانی مبتنی بر داده مورد استفاده قرار گیرد. در این مدل خزش، اخبار بهصورت روزانه از وبگاههای خبری خزش شده و به دادههای قبلی افزوده میشود؛ بنابراین یک فرایند پیوستار و پویا در فرایند جمعآوری داده وجود دارد و مقطعی نیست. نتیجۀ این عملکرد میتواند ضمن بهروزرسانی روزانه دادهها در پایگاه پیکره، از این اطلاعات برای رصد تغییرات زبانی و یافتن نوواژههای واردشده به زبان کمک گرفت. همچنین میتوان از این پیکره برای بررسی تحولات رویدادهای سیاسی، اقتصادی، اجتماعی و مانند آن در جامعه ایران بهصورت روزانه پرداخت. این پیکره شامل دادههای خبری از 1368 تا کنون میباشد و فرایند خزش روزانه 6 بار از وبگاههای خبری همچنان ادامه دارد و به پایگاه داده پیکره اضافه میگردد.
براساس گزارش استخراجشده از پایگاه داده پیکره در تاریخ 1401/2/21، تعداد اسناد خزششده موجود، در بازه زمانی 1368/4/1 تا 1401/2/21، بالغبر 44 میلیون خبر است که این حجم داده بیشاز 14 میلیارد واژه را شامل شدهاست. جزئیات مربوط به هر وبگاه خبری در این بازه زمانی در جدول زیر گزارش شدهاست:
تاریخ شروع |
تعداد زبان |
تعداد واژهها |
تعداد اسناد خبری |
وبگاه خبری |
1368/4/1 |
فارسی، انگلیسی، عربی، ترکی، اسپانیایی، اردو، روسی، آلمانی، فرانسه، چینی |
2354544250 |
7489837 |
ایرنا |
1382/4/11 |
فارسی، انگلیسی، عربی، اردو، ترکی، کردی |
1952762093 |
5807704 |
مهرنیوز |
1378/1/22 |
فارسی، انگلیسی، عربی، فرانسه |
2383281438 |
6236163 |
ایسنا |
1390/2/4 |
فارسی، انگلیسی، عربی |
943587261 |
6296115 |
خبرگزاری جوان |
1391/8/20 |
فارسی، انگلیسی، عربی |
1212158757 |
2891036 |
تسنیم نیوز |
1390/12/9 |
فارسی، انگلیسی، عربی |
573517733 |
2247573 |
خبرگزاری صداوسیما |
1389/1/22 |
فارسی |
493883016 |
1200147 |
مشرق نیوز |
1383/1/11 |
فارسی، عربی |
464762568 |
1078786 |
تابناک |
1387/5/25 |
فارسی، انگلیسی، عربی |
390167979 |
1017022 |
خبرآنلاین |
1394/10/24 |
فارسی، انگلیسی، عربی، ترکی، اسپانیایی، اردو، فرانسه |
103001221 |
944935 |
شفقنا |
1385/1/1 |
فارسی |
360696091 |
852083 |
همشهری آنلاین |
1385/4/13 |
فارسی، عربی |
466134741 |
1190446 |
عصرایران |
1381/4/11 |
فارسی، انگلیسی، عربی، ترکی |
1400335445 |
3997183 |
فارس نیوز |
1391/6/5 |
فارسی |
56915923 |
600615 |
نامه نیوز |
1387/11/26 |
فارسی |
165910331 |
529617 |
شفاف |
1391/6/14 |
فارسی |
196141353 |
461474 |
روزنو |
1390/2/27 |
فارسی |
145323209 |
456408 |
ایران اکونومیست |
1387/2/7 |
فارسی |
138945530 |
252701 |
رجانیوز |
1392/2/17 |
فارسی |
110428565 |
263984 |
صبحانه آنلاین |
1390/10/20 |
فارسی |
75588424 |
442971 |
شبکه خبر |
1390/10/14 |
فارسی |
64522322 |
176980 |
اخبار بانک |
1392/2/23 |
فارسی |
28486933 |
107161 |
تیترنیوز |
1392/8/26 |
فارسی، انگلیسی |
12384577 |
18547 |
وزارت بهداشت |
1392/3/4 |
فارسی |
3159571 |
9969 |
سازمان مدیریت بحران کشور |
از 1368/4/1 تا 21/2/1401 |
11 زبان |
14096639331 |
44569457 |
جمع کل |
اطلاعات ارجاع:
قیومی، مسعود (1400) تأسیس پرتال کرونا از منظر علوم انسانی و اجتماعی: ابعاد دانش در گردآوری روشمند و مدلسازی دادههای متنی، گزارش فنی، پژوهشکده زبانشناسی، پژوهشگاه علوم انسانی و مطالعات فرهنگی، تهران، ایران.
سایر مستندات:
قیومی، مسعود (1401) ارزیابی ساختار هرم وارونه در پیکرۀ بزرگ خبری فارسی: تحلیل گفتمان خبری براساس همبستگی میان عنوان و محتوای خبر. مجله زبان و زبانشناسی، 18(35): 21-45.