TDC : Text Document Clustring

Text Document Clustring

TDC : Text Document Clustring

Text Document Clustring

دیتاست Scene-15

دیتاست Scene-15 [44] شامل 15 کلاس است. کلاس­های این دیتاست شامل store، office، tallbuilding، street، opencountry، mountain، insidecity، highway، forest، coast، livingroom، kitchen، industrial، suburb و bedroom می­باشد.  این دیتاست شامل 200 تا 400 تصویر برای هر کلاس می­باشد.

دیتاست UIUC

دیتاست UIUC

دیتاست UIUC شامل 8 کلاس بشرح زیر است: کلاس­ها شامل badminton، bocce، croquet، polo، rock climbing، rowing، sailing، و snow boarding می­باشند. تعداد کل تصاویر برابر با 1792 تصویر است که هر کلاس در بین محدوده 137 تا 250 تصویر می­باشد. در هر کلاس برای یک شی، چندین تصویر در مدل­های مختلف وجود دارد که همه آنها به شئ مورد نظر اشاره می­کنند. برای مثال در کلاس sailing انواع مدل مختلف قایق بادبانی وجود دارد که اگر در کوئری به کلمه کلیدی sailing اشاره شود باید همه آنها بازیابی شوند.

معیارهای ارزیابی

معیارهای ارزیابی

دقت و بازیابی دو معیار مهمی هستند که در ارزیابی عملکرد مدل پیشنهادی استفاده کردیم. دقت و بازیابی بصورت معادله(4-1) و (4-2) تعریف می­شوند .

معادله(4-1)، نرخ تشخیص را نشان می­دهد و در واقع نسبت تشخیص درست موارد بازیابی به کل موارد تصاویر را نشان می‌دهد. این شاخص می‌تواند کارایی مدل پیشنهادی در تشخیص تعداد موارد بازیابی را بر اساس درصد بیان کند. معادله(4-2)، نسبت موارد صحیح نمونه­ها به تعداد موارد کل تصاویر مرتبط در دیتاست را بیان می­کند.

پارامتر TN بیانگر تعداد نمونه­هایی است که دسته واقعی آن‌ها منفی بوده و الگوریتم تشخیص دهنده نیز دسته آن‌ها را به ‌درستی منفی تشخیص داده است.TP بیانگر تعداد نمونه­هایی است که دسته واقعی آن‌ها مثبت بوده و الگوریتم تشخیص دهنده نیز دسته آن‌ها را به ‌درستی مثبت تشخیص داده است.FP بیانگر تعداد نمونه­هایی است که دسته واقعی آن‌ها منفی بوده و الگوریتم تشخیص دهنده دسته آن‌ها را به ‌اشتباه مثبت تشخیص داده است.FN بیانگر تعداد نمونه­هایی است که دسته واقعی آن‌ها مثبت بوده و الگوریتم تشخیص دهنده دسته آن‌ها را به ‌اشتباه منفی تشخیص داده است. معیار Precision شامل پارامترهای TP و FP است. در این معیار نمونه­های نادرست مثبت هم به عنوان مثبت درست در دقت تشخیص تاثیرگذار هستند. معیار Recall شامل پارامترهای TP و FN است. در این معیار نمونه­های نادرست منفی هم در دقت تاثیرگذار هستند. معیار F-Measure به منظور ارزیابی کلی معیارهای Precision و Recall استفاده می­شود. و معیار Accuracy معیار اصلی برای دقت تشخیص است.

مقایسه عملکرد الگوریتم K-Means و K-Means ++

الگوریتم K-Means

خوشه­بندی که به آن یادگیری بدون ناظر نیز گفته می­شود تعداد خوشه­ها در آن مشخص نیست. خوشه­بندی در واقع یک عملیات غیرنظارتی می­باشد. این عملیات هنگامی استفاده می­شود که ما به دنبال یافتن گروه­هایی از داده­های مشابه می­باشیم بدون اینکه از قبل یک پیش­بینی در مورد شباهت­های موجود داشته باشیم. هر خوشه شامل مجموعه­ای از اشیاء داده­ای است که به هم شبیه هستند اما با اشیاء خارج از آن متفاوت می­باشند. یکی از روش‌های معروف در زمینه خوشه­بندی، الگوریتم K-Means می‌باشد [5]. الگوریتم K-Means علی‌رغم آنکه ساده است یک روش پایه برای بسیاری از روش‌های خوشه‌بندی محسوب می‌شود. برای این الگوریتم شکل­های مختلفی بیان شده است. ولی همه آنها دارای روالی تکراری هستند که برای تعدادی ثابت از خوشه‌ها سعی در تخمین موارد زیر دارند [5]:

·       بدست آوردن نقاطی به عنوان مراکز خوشه‌ها. این نقاط در واقع همان میانگین نقاط متعلق به هر خوشه هستند.

·       نسبت دادن هر نمونه داده به یک خوشه که آن داده کمترین فاصله تا مرکز آن خوشه را دارا باشد.

الگوریتم K-Means ابتدا K عضو(که K تعداد خوشه­ها است) را به صورت تصادفی از میان N عضو انتخاب می­نماید و آنها را به عنوان مراکز خوشه­ها در نظر می­گیرد. سپس N-K عضو باقیمانده به نزدیکترین خوشه تخصیص می­یابند. بعد از تخصیص همه اعضا مجدداً مراکز خوشه­ها محاسبه شده و اعضا با توجه به میزان نزدیکی (شباهت) به یکی از خوشه‌ها تخصیص می­یابند و این کار تا زمانی که مراکز خوشه­ها ثابت بمانند، ادامه می­یابد. با تکرار همین روال می‌توان در هر تکرار با میانگین‌گیری از داده‌ها مراکز جدیدی برای آنها محاسبه کرد و مجدداً داده‌ها را به خوشه‌های جدید نسبت داد.

الگوریتم  K-Meansیکی از روش­های رایج خوشه­بندی می­باشد که علیرغم مزایای بسیار از جمله سرعت بالا و سهولت پیاده­سازی، در دام بهینه محلی قرار نمی­گیرد و می­تواند جواب بهینه برای مسئه مورد نظر را تولید ذنماید. تابع هدف در الگوریتم K-Means طبق معادله(2-3) تعریف شده است.

 
 
ادامه مطلب ...