TDC : Text Document Clustring

دیتاست PASCAL VOC

دیتاست PASCAL VOC [46] شامل 10000 تصویر است و 20 کلاس مختلف دارد. این دیتاست شامل کلاس­های (aeroplan، bicycle، boat، bottle، bus، bird، car، cat، cow، chair، dining، dog، horse، person، sheep، motorbike، train، potted plant، soft و tv/monitor) می­باشد. در این دیتاست در ابتدا نمونه­های آموزشی انتخاب می­شوند و عمل آموزش به منظور تشخیص بهتر نمونه­ها انجام می­گیرد.

دیتاست MIT-Indoor

دیتاست MIT-Indoor [45] شامل 67 کلاس از تصاوویر خانگی است و در مجموع شامل 15620 تصاویر است. معمولاً تحقیقاتی که با استفاده از این دیتاست انجام شده بیانگر این است که در بیشتر موارد 80% تصاویر را برای مرحله آموزش انتخاب می­کنند. در این مرحله مدل برمبنای تصاویر آموزشی ساخته می­شود و سپس برای ارزیابی مدل از مرحله تست استفاده می­شود. در مرحله تست تصاویر، ارزیابی و نوع آنها تشخیص داده می­شود.

دیتاست Scene-15

دیتاست Scene-15 [44] شامل 15 کلاس است. کلاس­های این دیتاست شامل store، office، tallbuilding، street، opencountry، mountain، insidecity، highway، forest، coast، livingroom، kitchen، industrial، suburb و bedroom می­باشد.  این دیتاست شامل 200 تا 400 تصویر برای هر کلاس می­باشد.

دیتاست UIUC

دیتاست UIUC

دیتاست UIUC شامل 8 کلاس بشرح زیر است: کلاس­ها شامل badminton، bocce، croquet، polo، rock climbing، rowing، sailing، و snow boarding می­باشند. تعداد کل تصاویر برابر با 1792 تصویر است که هر کلاس در بین محدوده 137 تا 250 تصویر می­باشد. در هر کلاس برای یک شی، چندین تصویر در مدل­های مختلف وجود دارد که همه آنها به شئ مورد نظر اشاره می­کنند. برای مثال در کلاس sailing انواع مدل مختلف قایق بادبانی وجود دارد که اگر در کوئری به کلمه کلیدی sailing اشاره شود باید همه آنها بازیابی شوند.

پرسیکا (پیکره متون خبری)

پرسیکا پیکره‌ای است حاوی متون خبری برگرفته از خبرگزاری ایسنا. متون این پیکره در یازده طبقه موضوعی شامل ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی، بهداشت طبقه‌بندی شده‌اند و پیش‌پردازش‌هایی به منظور قابل استفاده بودن در کاربردهای مختلف پردازش زبان طبیعی و داده‌کاوی بر روی آن‌ها انجام گرفته است.


 

ادامه مطلب
1 2 >>