TDC : Text Document Clustring

Text Document Clustring

TDC : Text Document Clustring

Text Document Clustring

دیتاست همشهری نسخه 2

مجموعه همشهری پیکره‌ای است حاوی ۳۱۸ هزار سند مربوط به اخبار سال‌های ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وب‌سایت همشهری و چندین مرحله پیش‌پردازش و برچسب‌گذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب «Cat» هستند که نشان می‌دهد هر سند در چه رده‌ای است (اقتصادی، سیاسی و...). نسخۀ دو پیکره همشهری توسط گروه تحقیقاتی پایگاه داده دانشگاه تهران و با حمایت مرکز تحقیقات مخابرات ایران تهیه شده است.

 

  

مالکیت معنوی: 
 مرکز تحقیقات مخابرات ایران
شرایط استفاده: 

استفاده از مجموعه و ابزار‌های جنبی برای کاربرد‌های تحقیقاتی و غیر تجاری با ذکر منبع بلامانع است.

اطلاعات ارجاع: 

 

- Abolfazl AleAhmad, Hadi Amiri, Ehsan Darrudi, Masoud Rahgozar, & Farhad Oroumchian. (2009). Hamshahri: A Standard Persian Text Collection. Knowledge-Based Systems, 22(5), 382–387. (دریافت)

سایر مستندات: 

 

- Ehsan Darrudi, Mohamad R. Hejazi, & Farhad Oroumchian. (2004). Assessment of a Modern Farsi Corpus. Proceedings of the 2nd Workshop on Information Technology & its Disciplines (WITID).
پژوهش‌های مرتبط: 

 

http://ece.ut.ac.ir/dbrg/hamshahri/fapublications.html

 

http://scholar.google.com/scholar?q=related:ZHhxN8laPhMJ:scholar.google.com/&hl=en&as_sdt=0,5

 

لینک دانلود : دانلود

کاربردها: 

 خوشه‌بندی متون، مدل‌سازی زبانی، پردازش زبان طبیعی، زبان‌شناسی رایانشی، زبان‌شناسی پیکره‌ای

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد