دیتاست PASCAL VOC [46] شامل 10000 تصویر است و 20 کلاس مختلف دارد. این دیتاست شامل کلاسهای (aeroplan، bicycle، boat، bottle، bus، bird، car، cat، cow، chair، dining، dog، horse، person، sheep، motorbike، train، potted plant، soft و tv/monitor) میباشد. در این دیتاست در ابتدا نمونههای آموزشی انتخاب میشوند و عمل آموزش به منظور تشخیص بهتر نمونهها انجام میگیرد.
دیتاست MIT-Indoor [45] شامل 67 کلاس از تصاوویر خانگی است و در مجموع شامل 15620 تصاویر است. معمولاً تحقیقاتی که با استفاده از این دیتاست انجام شده بیانگر این است که در بیشتر موارد 80% تصاویر را برای مرحله آموزش انتخاب میکنند. در این مرحله مدل برمبنای تصاویر آموزشی ساخته میشود و سپس برای ارزیابی مدل از مرحله تست استفاده میشود. در مرحله تست تصاویر، ارزیابی و نوع آنها تشخیص داده میشود.
دیتاست Scene-15 [44] شامل 15 کلاس است. کلاسهای این دیتاست شامل store، office، tallbuilding، street، opencountry، mountain، insidecity، highway، forest، coast، livingroom، kitchen، industrial، suburb و bedroom میباشد. این دیتاست شامل 200 تا 400 تصویر برای هر کلاس میباشد.
دیتاست UIUC
دیتاست UIUC شامل 8 کلاس بشرح زیر است: کلاسها شامل badminton، bocce، croquet، polo، rock climbing، rowing، sailing، و snow boarding میباشند. تعداد کل تصاویر برابر با 1792 تصویر است که هر کلاس در بین محدوده 137 تا 250 تصویر میباشد. در هر کلاس برای یک شی، چندین تصویر در مدلهای مختلف وجود دارد که همه آنها به شئ مورد نظر اشاره میکنند. برای مثال در کلاس sailing انواع مدل مختلف قایق بادبانی وجود دارد که اگر در کوئری به کلمه کلیدی sailing اشاره شود باید همه آنها بازیابی شوند.
پرسیکا پیکرهای است حاوی متون خبری برگرفته از خبرگزاری ایسنا. متون این پیکره در یازده طبقه موضوعی شامل ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی، بهداشت طبقهبندی شدهاند و پیشپردازشهایی به منظور قابل استفاده بودن در کاربردهای مختلف پردازش زبان طبیعی و دادهکاوی بر روی آنها انجام گرفته است.
ادامه مطلب ...