TDC : Text Document Clustring

Text Document Clustring

TDC : Text Document Clustring

Text Document Clustring

پرسیکا (پیکره متون خبری)

پرسیکا پیکره‌ای است حاوی متون خبری برگرفته از خبرگزاری ایسنا. متون این پیکره در یازده طبقه موضوعی شامل ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی، بهداشت طبقه‌بندی شده‌اند و پیش‌پردازش‌هایی به منظور قابل استفاده بودن در کاربردهای مختلف پردازش زبان طبیعی و داده‌کاوی بر روی آن‌ها انجام گرفته است.


 

 

مالکیت معنوی: 
 -
شرایط استفاده: 

 

- استفاده از این داده برای اهداف غیر تجاری آزاد است.

اطلاعات ارجاع: 

 

- Eghbalzadeh, H., Hosseini, B., Khadivi, S., & Khodabakhsh, A. (2012, November). Persica: A Persian corpus for multi-purpose text mining and Natural language processing. In Telecommunications (IST), 2012 Sixth International Symposium on (pp. 1207-1214). IEEE. (دریافت)

سایر مستندات: 

 

کاربردها: 
 متن‌کاوی، طبقه‌بندی متون، پردازش زبان طبیعی، زبان‌شناسی رایانشی
اطلاعات تکمیلی: 

 

http://sourceforge.net/projects/persica

 

- این مجموعه در دو قالب SQL و CVS برای دانلود موجود است.


مشاهده نمونه

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد