TDC : Text Document Clustring

Text Document Clustring

TDC : Text Document Clustring

Text Document Clustring

مفهوم خوشه بندی متن

خوشه‌بندی به فرآیند تبدیل حجم عظیمی از داده‌ها به گروه‌های داده‌ای مشابه گفته می‌شود. به همین صورت خوشه‌بندی متون عبارت است از تبدیل حجم عظیمی از اسناد متنی به گروه‌هایی از متن‌های مشابه؛ که به هر کدام از این گروه‌ها یک خوشه گفته می‌شود. پس مسئله خوشه‌بندی اسناد متنی را می‌توان به صورت ساده‌تر، مسئله پیدا کردن اسناد مشابه و قرار دادن آن‌ها کنار هم تعریف کرد.

برای خوشه‌بندی اسناد متنی روش‌های متنوعی وجود دارد که در این پژوهش انتظار می‌رود روش‌های متداول برای خوشه‌بندی معرفی شده و یکی از آن‌ها برای خوشه‌بندی متون فارسی پیاده‌سازی شود.

  
ادامه مطلب ...

مفهوم پیش پردازش متن

.فیلتر کردن:

در این مرحله کاراکترهای خاصی که به نظر می رسد در مدل فضای بردار نمی تواند اطلاعات مفیدی را در
اختیار قرار دهند حذف می شوند. همچنین این مرحله برای سندهای دارای ساختار خاص مانند صفحات وب
بسیاری حیاتی می باشد زیرا باید تگ های اضافی حذف شده و یا شناخته شده و با توجه به مقدارشان
وزنشان مشخص شود.

 
ادامه مطلب ...

مقاله، خوشه بندی اسناد، مبتنی بر آنتولوژی و رویکرد فازی

در این مقاله روش جدیدی برای نمایش آنتولوژیکال و مفهومی اسناد بصورت سلسله مراتبی ارائه شده است . باتوجه به آنتولوژی یک گراف مفهومی از اسناد ایجاد می شود که این گراف فاصله و شباهت بین اسناد را مشخص می کند.

موتورهای جستجو ی وب هزاران صفحه را در پاسخ به یک پرس و جو برمی گردانند و کاربر را برای پیداکردن اطلاعات مرتبط سرگردان می کند . خوشه بندی اسناد می تواند گروه بندی خودکار اسناد بازیابی شده به گروه های با معنی استفاده شود.  ادامه مطلب ...

پرسیکا (پیکره متون خبری)

پرسیکا پیکره‌ای است حاوی متون خبری برگرفته از خبرگزاری ایسنا. متون این پیکره در یازده طبقه موضوعی شامل ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی، بهداشت طبقه‌بندی شده‌اند و پیش‌پردازش‌هایی به منظور قابل استفاده بودن در کاربردهای مختلف پردازش زبان طبیعی و داده‌کاوی بر روی آن‌ها انجام گرفته است.


 

ادامه مطلب ...

دیتاست همشهری نسخه 2

مجموعه همشهری پیکره‌ای است حاوی ۳۱۸ هزار سند مربوط به اخبار سال‌های ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وب‌سایت همشهری و چندین مرحله پیش‌پردازش و برچسب‌گذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب «Cat» هستند که نشان می‌دهد هر سند در چه رده‌ای است (اقتصادی، سیاسی و...). نسخۀ دو پیکره همشهری توسط گروه تحقیقاتی پایگاه داده دانشگاه تهران و با حمایت مرکز تحقیقات مخابرات ایران تهیه شده است.

 

 
ادامه مطلب ...