پرسیکا (پیکره متون خبری)

پرسیکا پیکره‌ای است حاوی متون خبری برگرفته از خبرگزاری ایسنا. متون این پیکره در یازده طبقه موضوعی شامل ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی، بهداشت طبقه‌بندی شده‌اند و پیش‌پردازش‌هایی به منظور قابل استفاده بودن در کاربردهای مختلف پردازش زبان طبیعی و داده‌کاوی بر روی آن‌ها انجام گرفته است.

مالکیت معنوی:

شرایط استفاده:

- استفاده از این داده برای اهداف غیر تجاری آزاد است.

اطلاعات ارجاع:

- Eghbalzadeh, H., Hosseini, B., Khadivi, S., & Khodabakhsh, A. (2012, November). Persica: A Persian corpus for multi-purpose text mining and Natural language processing. In Telecommunications (IST), 2012 Sixth International Symposium on (pp. 1207-1214). IEEE. (دریافت)

سایر مستندات:

پژوهش‌های مرتبط:

- http://scholar.google.com/scholar?q=related:xMNm7X8l-fYJ:scholar.google.com/&hl=en&as_sdt=0,5

کاربردها:

متن‌کاوی، طبقه‌بندی متون، پردازش زبان طبیعی، زبان‌شناسی رایانشی

اطلاعات تکمیلی:

- http://sourceforge.net/projects/persica

- این مجموعه در دو قالب SQL و CVS برای دانلود موجود است.

مشاهده نمونه

دیتاست dataset

محمد نمازی شنبه 11 دی 1395 ساعت 09:27

TDC : Text Document Clustring

TDC : Text Document Clustring