TDC : Text Document Clustring

Text Document Clustring

TDC : Text Document Clustring

Text Document Clustring

مقاله، بهبود دقت سیستم دسته بندی خودکار اسناد فارسی به کمک هستان شناسی فارس نت

تمرکز این مقاله بر ایجاد بردار مشخصه ی معنایی بر اساس مفاهیم استخراج شده از آنتولوژی فارس نت است و همچنین در این مقاله رویکردی جدید در حین استفاده از روش اولین مفهوم به منظور رفع ابهام از مفاهیم استخراج شده  معرفی می شود که کارایی این روش را بهبود می بخشد. در این مقاله الگوریتم x2 در بخش انتخاب مشخصه و روش وزن دهی ویژگی نرمال شده TFIDF در بخش وزن دهی بکار گرفته می شود.

سیستم های دسته بندی خودکار اسناد با افزایش دسترسی به اسناد الکترونیکی و رشد سریع فضای وب، به رویکردی کلیدی به منظور مدیریت اطلاعات و دانش تبدیل گشته اند.در دهه های اخیر روش های بسیاری به منظور دسته بندی متون لغات پیشنهاد شده است که اکثر آنان بر اساس مدل کیسه ی لغات هستند. در این مدل هر عبارت و یا ریشه عبارت یک مشخص ی مستقل در نظر گرفته می شود.  مدل نمایش کیسه ی لغات دارای محدودیت هایی است :

  • نادیده گرفتن روابط میان لغات که منجر به محدود شدن الگوریتم یادگیری به شناسایی الگوهای ظاهری کلمات می شود.
  • بعد بسیار بالای فضای نمایش متون 
ادامه مطلب ...

مقاله، خوشه بندی اسناد، مبتنی بر آنتولوژی و رویکرد فازی

در این مقاله روش جدیدی برای نمایش آنتولوژیکال و مفهومی اسناد بصورت سلسله مراتبی ارائه شده است . باتوجه به آنتولوژی یک گراف مفهومی از اسناد ایجاد می شود که این گراف فاصله و شباهت بین اسناد را مشخص می کند.

موتورهای جستجو ی وب هزاران صفحه را در پاسخ به یک پرس و جو برمی گردانند و کاربر را برای پیداکردن اطلاعات مرتبط سرگردان می کند . خوشه بندی اسناد می تواند گروه بندی خودکار اسناد بازیابی شده به گروه های با معنی استفاده شود.  ادامه مطلب ...