TDC : Text Document Clustring

Text Document Clustring

TDC : Text Document Clustring

Text Document Clustring

مقاله، خوشه بندی اسناد، مبتنی بر آنتولوژی و رویکرد فازی

در این مقاله روش جدیدی برای نمایش آنتولوژیکال و مفهومی اسناد بصورت سلسله مراتبی ارائه شده است . باتوجه به آنتولوژی یک گراف مفهومی از اسناد ایجاد می شود که این گراف فاصله و شباهت بین اسناد را مشخص می کند.

موتورهای جستجو ی وب هزاران صفحه را در پاسخ به یک پرس و جو برمی گردانند و کاربر را برای پیداکردن اطلاعات مرتبط سرگردان می کند . خوشه بندی اسناد می تواند گروه بندی خودکار اسناد بازیابی شده به گروه های با معنی استفاده شود.  

 مدل های نمایش اسناد و معیارهای شباهت :

روش های بازیابی اطلاعات به دو دسته ی روش های آماری و روشهای معنایی تقسیم بندی می شوند.

در روش های معنایی تا حدی آنالیز معنایی و نحوی انجام می شود به این معنی که متون طبیعی که کاربر فراهم کرده تاحدی قابل فهم باشد. روش های آماری به چند دسته ی دودویی، دودویی بسط یافته، فضای بردار و احتمالاتی تقسیم می شود.روش های آماری اسناد را به جندین کلمه تجزیه می کنند.کلمات جمعیتی هستند که شمرده می شوند و بصورت آماری اندازه گیری می شوند.این کلمات معمولا باید عملیات پیش پردازش روی آنها صورت گیرد. معمولا برای استخراج ریه، ریشه یابی می شوند که هدف آن حذف تغییراتی است که بدلیل رخداد حالات مختلف دستوری در یک کلمه انجام می شود. روش دیگر پیش پردازش حذف کلمات مشترک است که توانایی آن برای جداسازی اسناد مرتبط و غیر مرتبط کم است . در دو پیش پردازش فوق معمولا وزنی عددی به کلمات موجود در اسناد و پرس و جوها نسبت داده می شود که نشان دهنده ی میزان اهمیت آن را برای محاسبه ی شباهت بین اسناد را مشخص می کند .

روش دیگر نمایش اسناد، نمایش آنها به صورت مجموعه ای از نشانه ها است . پایه ترین روش استفاده شده برای نمایش منابع متنی، مدل فضای بردار ( VSM ) است. در این مدل هر سند با یک بردار مشخص می شود. هر درایه از بردار نشان دهنده ی یک مفهوم خاص است و مقدار هر عنصر اهمیت آن نشانه در نمایش معنایی آن سند است . به عنوان مثال پایگاه داده ای شامل d سند است که با t ترم توصیف شده است بنابراین بصورت یک ماتریس d*t نمایش داده می شود. ستون های ماتریس بردار اسناد هستند و سطرهای آن نشانه ها می باشند. مضمون معنایی پایگاه داده در فضای ستون های ماتریس قرار دارد به این معنی که بردارهای اسناد آن مضمون را ایجاد کرده اند. در این فضا میتوان هر سند را بصورت نقطه ای نشان داد که شباهت ها و تفاوت های بین اسناد را میتوان فاصله ی بین نقاط تعیین نمود.

استفاده از آنتولوژی در داده کاوی برای خوشه بندی و دسته بندی اسناد و یادگیری الکترونیک است. شکل 1 آنتولوژی مردم را نشان می دهد که شامل مفاهیم، نمونه ها، روابط مابین آنهاست.


لینکهای دانلود :


دانلود خلاصه ی کامل مقاله


لینک دانلود مقاله ی اصلی


منابع استفاده شده :


مریم امیری،خوشه بندی اسناد، مبتنی بر آنتولوژی و رویکرد فازی، فصلنامه - علمی پژوهشی فناوری اطلاعات و ارتباطات ایران، شماره 17 و 18، صفحه 73


نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد