TDC : Text Document Clustring

Text Document Clustring

TDC : Text Document Clustring

Text Document Clustring

مفاهیم اولیه کلاسترینگ یا دسته بندی(Clustering)

کلاسترینگ به معنای کلاس بندی بدون نظارت است که کلاسها از قبل تعیین شده نیستند و یا به عبارت دیگر برچسب کلاس الگوهای آموزشی در دسترس نیست. بنابراین اکنون هدف اصلی ما سازماندهی الگوها به گروهای sensible است. که به ما اجازه می دهند که شباهت و تفاوت بین الگوها را کشف کنیم و نتایج مفید را درباره آنها استنتاج نماییم. این ایده در زمینه های مختلف دیده می شود. مثال زیر از زیست شناسی الهام گرفته شده است و صورت مسئله را برای ما واضح می سازد.

 

  

به حیوانات زیر توجه کنید: گوسفند،سگ و گربه (پستاندار)، گنجشک و بلبل (پرنده)، ماهی قرمز، شاه ماهی (ماهی)، افعی و مارمولک(خزنده) و غوک(دوزیست). به منظور مرتب کردن این حیوانات در داخل کلاسترها نیاز داریم که یک ملاک دسته بندی تعریف کنیم. اگر وجود شش ها را بررسی کنیم، ماهی قرمز و شاه ماهی در یک کلاستر و بقیه در یک کلاستر دیگر قرار می گیرند(شکل(الف)). اگر ملاک دسته بندی را محیطی که حیوانات زندگی می کنند قرار دهیم آنگاه گوسفند، سگ، گربه، گنجشک، بلبل،افعی و مارمولک (حیواناتی که بیرون آب زندگی می کنند) کلاستر اول و ماهی قرمز و شاه ماهی (حیواناتی که در آب زندگی می کنند) کلاستر دوم را تشکیل می دهند و غوک که می تواند هم در آب و هم در خشکی زندگی کند کلاستر سوم را تشکیل می دهد (شکل (ب)). اگر وجود ستون فقرات را ملاک دسته بندی باشد تمام حیوانات در یک دسته قرار می گیرند. ما می توانیم از ملاک دسته بندی مرکب استفاده کنیم. برای مثال اگر ملاک دسته بندی نحوه بدنیا آوردن فرزندان و وجود شش ها باشد ما سه نوع کلاستر داریم که در شکل (ج) آورده شده است.


این مثال نشان می دهد که فرایند نسبت دادن اشیا به کلاسترها ممکن است به نتایج بسیار متفاوتی منجر شود. کلاسترینگ یکی از ابتدایی ترین فعالیت های ذهنی است که برای کنترل کردن مقادیر زیاد اطلاعات دریافت شده هر روزی استفاده می شود. پردازش هر بخش از اطلاعات به عنوان یک موجودیت تک امکان پذیر نیست. بنابراین انسانها به دسته بندی موجودیت ها (حوادث، انسانها، اشیا و غیره ) در کلاسترها روی می آورند. هر کلاستر توسط خصوصیات مشترک موجودیت هایی که درون آن قرار می گیرند تعریف می شود. کلاستر، یک مجموعه از داده هاست بطوریکه:

· داده های موجود در یک کلاستر شبیه یکدیگر هستند.

· داده های موجود در کلاسترهای مختلف به یکدیگر شبیه نیستند


انواع کلاسترها


کلاستر ها انواع مختلفی دارند که در به زیر تعدادی از آنها اشاره شده است:

- کلاسترهای بخوبی جدا شده 

مجموعه نقاط داخل این کلاستر نسبت به نقاط خارج آن به یکدیگر بسیار شبیهند

- کلاسترهای مبتنی به مرکز:
مجموعه نقاط داخل این کلاستر به مرکز کلاستر نسبت به مراکز کلاسترهای دیگر بسیار نزدیکترند.

- کلاسترهای مبتنی بر مجاورت و نزدیکی:
مجموعه نقاط داخل این کلاستر به یک یا تعداد بیشتری از نقاط داخل کلاستر نسبت به نقاط خارج آن شبیهند.


گامهای اساسی در انجام کلاسترینگ:
به منظور ایجاد کلاستر ها (انجام عمل کلاسترینگ) اعمال زیر باید انجام شوند:

1. انتخاب ویژگی: خصوصیات باید به طور مناسبی انتخاب شوند تا اکثر اطلاعات را کدگذاری کنند.

2. مقیاس نزدیکی: معیاری است که میزان شباهت و یا عدم شباهت دو بردار خصوصیت را مشخص می کند. تمام خصوصیات انتخاب شده باید در محاسبه این معیار شرکت کنند و هیچ خصوصیتی نباید بر بقیه غلبه کند. به عنوان مثال فاصله اقلیدسی یا فاصله منهتن.

3. ملاک دسته بندی: که در قسمتهای بالا در مورد آن صحبت شده است.

4. الگوریتم کلاسترینگ: پس از اینکه ملاک دسته بندی و مقیاس نزدیکی انتخاب شدند در این گام یک الگوریتم خاص جهت روشن کردن ساختار دسته بندی مجموعه داده انتخاب می شود.

5. اعتبار نتایج: زمانیکه نتایج کلاسترینگ بدست آمد باید صحت و درستی آنها بررسی شوند. این کار معمولا بوسیله تست های مناسبی انجام می شود.

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد