TDC : Text Document Clustring

دیتاست Scene-15

دیتاست Scene-15 [44] شامل 15 کلاس است. کلاسهای این دیتاست شامل store، office، tallbuilding، street، opencountry، mountain، insidecity، highway، forest، coast، livingroom، kitchen، industrial، suburb و bedroom میباشد. این دیتاست شامل 200 تا 400 تصویر برای هر کلاس میباشد.

محمد نمازی سه‌شنبه 12 دی 1396 ساعت 09:09

0 نظر

دیتاست UIUC

دیتاست UIUC شامل 8 کلاس بشرح زیر است: کلاسها شامل badminton، bocce، croquet، polo، rock climbing، rowing، sailing، و snow boarding میباشند. تعداد کل تصاویر برابر با 1792 تصویر است که هر کلاس در بین محدوده 137 تا 250 تصویر میباشد. در هر کلاس برای یک شی، چندین تصویر در مدلهای مختلف وجود دارد که همه آنها به شئ مورد نظر اشاره میکنند. برای مثال در کلاس sailing انواع مدل مختلف قایق بادبانی وجود دارد که اگر در کوئری به کلمه کلیدی sailing اشاره شود باید همه آنها بازیابی شوند.

محمد نمازی یکشنبه 10 دی 1396 ساعت 09:34

0 نظر

معیارهای ارزیابی

معیارهای ارزیابی

دقت و بازیابی دو معیار مهمی هستند که در ارزیابی عملکرد مدل پیشنهادی استفاده کردیم. دقت و بازیابی بصورت معادله(4-1) و (4-2) تعریف میشوند .

معادله(4-1)، نرخ تشخیص را نشان میدهد و در واقع نسبت تشخیص درست موارد بازیابی به کل موارد تصاویر را نشان می‌دهد. این شاخص می‌تواند کارایی مدل پیشنهادی در تشخیص تعداد موارد بازیابی را بر اساس درصد بیان کند. معادله(4-2)، نسبت موارد صحیح نمونهها به تعداد موارد کل تصاویر مرتبط در دیتاست را بیان میکند.

پارامتر TN بیانگر تعداد نمونههایی است که دسته واقعی آن‌ها منفی بوده و الگوریتم تشخیص دهنده نیز دسته آن‌ها را به ‌درستی منفی تشخیص داده است.TP بیانگر تعداد نمونههایی است که دسته واقعی آن‌ها مثبت بوده و الگوریتم تشخیص دهنده نیز دسته آن‌ها را به ‌درستی مثبت تشخیص داده است.FP بیانگر تعداد نمونههایی است که دسته واقعی آن‌ها منفی بوده و الگوریتم تشخیص دهنده دسته آن‌ها را به ‌اشتباه مثبت تشخیص داده است.FN بیانگر تعداد نمونههایی است که دسته واقعی آن‌ها مثبت بوده و الگوریتم تشخیص دهنده دسته آن‌ها را به ‌اشتباه منفی تشخیص داده است. معیار Precision شامل پارامترهای TP و FP است. در این معیار نمونههای نادرست مثبت هم به عنوان مثبت درست در دقت تشخیص تاثیرگذار هستند. معیار Recall شامل پارامترهای TP و FN است. در این معیار نمونههای نادرست منفی هم در دقت تاثیرگذار هستند. معیار F-Measure به منظور ارزیابی کلی معیارهای Precision و Recall استفاده میشود. و معیار Accuracy معیار اصلی برای دقت تشخیص است.

محمد نمازی چهارشنبه 6 دی 1396 ساعت 12:10

0 نظر

مقایسه عملکرد الگوریتم K-Means و K-Means ++

الگوریتم K-Means

خوشهبندی که به آن یادگیری بدون ناظر نیز گفته میشود تعداد خوشهها در آن مشخص نیست. خوشهبندی در واقع یک عملیات غیرنظارتی میباشد. این عملیات هنگامی استفاده میشود که ما به دنبال یافتن گروههایی از دادههای مشابه میباشیم بدون اینکه از قبل یک پیشبینی در مورد شباهتهای موجود داشته باشیم. هر خوشه شامل مجموعهای از اشیاء دادهای است که به هم شبیه هستند اما با اشیاء خارج از آن متفاوت میباشند. یکی از روش‌های معروف در زمینه خوشهبندی، الگوریتم K-Means می‌باشد [5]. الگوریتم K-Means علی‌رغم آنکه ساده است یک روش پایه برای بسیاری از روش‌های خوشه‌بندی محسوب می‌شود. برای این الگوریتم شکلهای مختلفی بیان شده است. ولی همه آنها دارای روالی تکراری هستند که برای تعدادی ثابت از خوشه‌ها سعی در تخمین موارد زیر دارند [5]:

· بدست آوردن نقاطی به عنوان مراکز خوشه‌ها. این نقاط در واقع همان میانگین نقاط متعلق به هر خوشه هستند.

· نسبت دادن هر نمونه داده به یک خوشه که آن داده کمترین فاصله تا مرکز آن خوشه را دارا باشد.

الگوریتم K-Means ابتدا K عضو(که K تعداد خوشهها است) را به صورت تصادفی از میان N عضو انتخاب مینماید و آنها را به عنوان مراکز خوشهها در نظر میگیرد. سپس N-K عضو باقیمانده به نزدیکترین خوشه تخصیص مییابند. بعد از تخصیص همه اعضا مجدداً مراکز خوشهها محاسبه شده و اعضا با توجه به میزان نزدیکی (شباهت) به یکی از خوشه‌ها تخصیص مییابند و این کار تا زمانی که مراکز خوشهها ثابت بمانند، ادامه مییابد. با تکرار همین روال می‌توان در هر تکرار با میانگین‌گیری از داده‌ها مراکز جدیدی برای آنها محاسبه کرد و مجدداً داده‌ها را به خوشه‌های جدید نسبت داد.

الگوریتم K-Meansیکی از روشهای رایج خوشهبندی میباشد که علیرغم مزایای بسیار از جمله سرعت بالا و سهولت پیادهسازی، در دام بهینه محلی قرار نمیگیرد و میتواند جواب بهینه برای مسئه مورد نظر را تولید ذنماید. تابع هدف در الگوریتم K-Means طبق معادله(2-3) تعریف شده است.

ادامه مطلب ...

محمد نمازی چهارشنبه 6 دی 1396 ساعت 12:04

1 نظر

TDC : Text Document Clustring

پیوندها

دسته‌ها

جدیدترین یادداشت‌ها

بایگانی

جستجو

دیتاست Scene-15

دیتاست UIUC

معیارهای ارزیابی

مقایسه عملکرد الگوریتم K-Means و K-Means ++