TDC : Text Document Clustring

Text Document Clustring

TDC : Text Document Clustring

Text Document Clustring

مقاله، بهبود دقت سیستم دسته بندی خودکار اسناد فارسی به کمک هستان شناسی فارس نت

تمرکز این مقاله بر ایجاد بردار مشخصه ی معنایی بر اساس مفاهیم استخراج شده از آنتولوژی فارس نت است و همچنین در این مقاله رویکردی جدید در حین استفاده از روش اولین مفهوم به منظور رفع ابهام از مفاهیم استخراج شده  معرفی می شود که کارایی این روش را بهبود می بخشد. در این مقاله الگوریتم x2 در بخش انتخاب مشخصه و روش وزن دهی ویژگی نرمال شده TFIDF در بخش وزن دهی بکار گرفته می شود.

سیستم های دسته بندی خودکار اسناد با افزایش دسترسی به اسناد الکترونیکی و رشد سریع فضای وب، به رویکردی کلیدی به منظور مدیریت اطلاعات و دانش تبدیل گشته اند.در دهه های اخیر روش های بسیاری به منظور دسته بندی متون لغات پیشنهاد شده است که اکثر آنان بر اساس مدل کیسه ی لغات هستند. در این مدل هر عبارت و یا ریشه عبارت یک مشخص ی مستقل در نظر گرفته می شود.  مدل نمایش کیسه ی لغات دارای محدودیت هایی است :

  • نادیده گرفتن روابط میان لغات که منجر به محدود شدن الگوریتم یادگیری به شناسایی الگوهای ظاهری کلمات می شود.
  • بعد بسیار بالای فضای نمایش متون 
 
دانش دامنه براساس بردارهای مشخصه ی معنایی شکل می گیرد. در هر بردار مشخصه ی معنایی کلمات کلیدی به همراه مفاهیم مربوط به هر یک موجود است. هدف از این کار استخراج عبارات به هم وابسته و کاهش فضای مشخصه است. همچنین با استفاده از متد چند متغیره x2 بعد فضای نمایش سند کاهش یافته و برای هر دسته یک بردار مشخصات ایجاد می شود.


ایده اصلی این رویکرد بر اساس ترکیب کلمات کلیدی با مفاهیم استخراج شده ی مربوط به آنها از آنتولوژی لغوی است. این عمل منجر به ساده سازی مستندات و نیز همگون سازی مسنتداتی می گردد که دارای مضمون مشابهی هستند. در این مقاله کلمات کلیدی از فضای لغات به فضای مفاهیم نگاشت پیدا می کنند. این نگاشت افزایش دقت دسته بندی و کاهش بعد فضای مشخصه را در پی دارد.

1.     

کارهای مرتبط :

در زبان انگلیسی استخراج دانش دامنه ی متون به کمک آنتولوژی سابقه ی بسیاری دارد و اکثر مراجع از آنتولوژی لغی وردنت استفاده می کنند. وردنت معروف ترین واژه نامه معنایی در زبان انگلیسی و در واقع یک پایگاه داده واژگان براساس اصول روانشناسی زبان است. در وردنت اسامی، صفات، افعال و قیود به مجموعه ای از لغاتت مترادف بنام SynSet دسته بندی شده است بطوریکه هر دسته یک مفهوم مجزا را بیان می کند. وردنت شامل 114648 لغت و 79689 ساین ست است و انواع متفاوتی از ارتباطات معنایی در میان ساین ست ها نگهداری می شود.

 

در مرجع 5، ابتدا عبارات بهم وابسته و هم رویداد استخراج شده و سپس با استفاده از وردنت این عبارات به مفاهیم تبدیل شده و مدل فضای بردار با اوزان جدید بروز می شود.

در مرجع 4، معنای هردسته با مفاهیم وابسته به عبارات ظاهر شده در برچسب هر دسته توسط وردنت تفسیر می شود و وزن هر عبارت توسط شباهت معنایی آن عبارت به برچسب دسته ها محاسبه می شود.

مرجع 3، 6 طرح به منظور دسته بندی اسناد به کمک آنتولوژی وردنت پیشنهاد می دهد که در این طرح ها از گسترش کلمات توسط وردنت با روابط "هم معنی" و شباهت معنایی Part Of Speech استفاده شده است.

در مرجع 8، از فارس نت به منظور خوشه بندی اسناد اشتفاده شده است. در این مقاله از تکنیک فاکتور گیری نامنفی ماتریس برای تخمین داده ای و کاهش فضای بردار و نیز از روش نمونه برداری لایه ای جهت غلبه بر محدودیت های فیزیکی و زمانی بهره گرفته شده است.

پیش پردازش متنی :

در پیش پردازش متن ابتدا واحدهای پایه ای معنا دار که همان کلمات هستند، شناسایی و از متن جدا می شوند [11]. کلمات اضافی نظیر حروف اضافه، قیدها و صفات، بعضی از افعال، حرف ربط که عموما در مضمون کلی متن تاثیری ندارند حذف می گردند [2]. این کلمات که در متن زیاد تکرار شده اند وزن بالایی به خود گرفته و اثر وزن کلمات دیگر که در دسته بندی، مهم ولی پربسامد نیستند را کم می کنند.
در مرحله ی بعد، عملیات ریشه یابی با هدف برگرداندن کلمات به ریشه ی خود انجام می شود که منجر به کاهش فضای مشخصه می گردد [12

لینکهای دانلود :


دانلود خلاصه ی کامل مقاله


لینک دانلود مقاله ی اصلی


منابع استفاده شده :


حمید حسن پور، صبا سادات مدنی،بهبود دقت سیستم دسته بندی خودکار اسناد فارسی به کمک هستان شناسی فارس نت، مجله ی علمی پژوهشی، رایانش نرم و فناوری اطلاعات، جلد 3، شماره 1، سال 1393


نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد