در این مقاله روش جدیدی برای نمایش آنتولوژیکال و مفهومی اسناد بصورت سلسله مراتبی ارائه شده است . باتوجه به آنتولوژی یک گراف مفهومی از اسناد ایجاد می شود که این گراف فاصله و شباهت بین اسناد را مشخص می کند.
موتورهای جستجو ی وب هزاران صفحه را در پاسخ به یک پرس و جو برمی گردانند و کاربر را برای پیداکردن اطلاعات مرتبط سرگردان می کند . خوشه بندی اسناد می تواند گروه بندی خودکار اسناد بازیابی شده به گروه های با معنی استفاده شود. ادامه مطلب ...
پرسیکا پیکرهای است حاوی متون خبری برگرفته از خبرگزاری ایسنا. متون این پیکره در یازده طبقه موضوعی شامل ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی، بهداشت طبقهبندی شدهاند و پیشپردازشهایی به منظور قابل استفاده بودن در کاربردهای مختلف پردازش زبان طبیعی و دادهکاوی بر روی آنها انجام گرفته است.
ادامه مطلب ...
مجموعه همشهری پیکرهای است حاوی ۳۱۸ هزار سند مربوط به اخبار سالهای ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وبسایت همشهری و چندین مرحله پیشپردازش و برچسبگذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب «Cat» هستند که نشان میدهد هر سند در چه ردهای است (اقتصادی، سیاسی و...). نسخۀ دو پیکره همشهری توسط گروه تحقیقاتی پایگاه داده دانشگاه تهران و با حمایت مرکز تحقیقات مخابرات ایران تهیه شده است.
این روش علیرغم سادگی آن یک روش پایه برای بسیاری از روشهای خوشهبندی دیگر (مانند خوشهبندی فازی) محسوب میشود. این روش روشی انحصاری و مسطح محسوب میشود.[1] برای این الگوریتم شکلهای مختلفی بیان شده است. ولی همة آنها دارای روالی تکراری هستند که برای تعدادی ثابت از خوشهها سعی در تخمین موارد زیر دارند:
· بدست آوردن نقاطی به عنوان مراکز خوشهها این نقاط در واقع همان میانگین نقاط متعلق به هر خوشه هستند.
· نسبت دادن هر نمونه داده به یک خوشه که آن داده کمترین فاصله تا مرکز آن خوشه را دارا باشد.
ما در
جها نی پر از داده زند گی می کنیم. هر روزه انسانها با حجم وسیعی از اطلاعات روبه
رو هستند که باید آنها را ذخیره ساز ی یا نمایش دهند. یکی از روشها ی حیاتی کنترل
و مد یریت این داده ها، کلاس بند ی یا گروه بند ی داده های با خواص مشابه، درون
مجموعه ای از دسته ها یا خوشه ها می باشد.