X
تبلیغات
کالج کارآفرینی تیوان

TDC : Text Document Clustring

معرفی پایان نامه "شناسایی کپی با استفاده از دسته بندی اسناد و هستان شناسی"

یکی از مهم‌ترین موضوعات در پردازش زبان طبیعی و بازیابی اطلاعات، یافتن ریشه کلمات است [31].
ریشه ­یابی عبارتست از بدست آوردن ریشه کلمات با حذف پسوندها و پیشوندها بطوری که کلمات با ریشه یکسان دارای شکل یکسان گردند [31].

دسته­ بندی

دسته­بندی متن شامل نسبت دادن اسناد به یکی از چند گروه از پیش تعیین شده است [31]. برای نایل شدن به این هدف اسناد ورودی توسط یک مجموعه از مشخصه­ها که معمولاً خصوصیات نامیده می­شود توصیف می­شوند. برخلاف خوشه­بندی که شامل آموزش بدون نظارت است، در دسته­بندی یک مجموعه آموزشی از داده­ها با برچسب­گذاری قبلی نیاز است (یادگیری نظارتی). هدف دسته­بندی تحلیل داده­های ورودی و ایجاد یک مدل دقیق برای هر دسته با استفاده از این خصوصیات است. اسناد جدید در داخل یکی از این دسته­ها دسته­بندی می­شوند.

در مسأله دسته­بندی متن، ویژگی­ها کلماتی هستند که درون اسناد متنی قرار دارند. در بسیاری از موارد قبل از یادگیری ماشین انتخاب ویژگی صورت می­گیرد تا فضای ویژگی­ها را کاهش دهد. در دسته­بندی هدف بدست آوردن یک تابع نگاشت بین اسناد و مجموعه کلاس­ها یا گروه­ها به وسیله یک سری سند که به آنها مجموعه آموزشی می­گویند، می­باشد. که از این تابع نگاشت برای تعیین خودکار گروه سند جدید استفاده می­شود. توجه شود که در هنگام تولید تابع نگاشت مجموعه اسناد برچسب خورده هستند یعنی گروه هر یک از اسناد مشخص شده است و به وسیله این اسناد برای هر گروه یک سری ویژگی وصفات منحصر به فرد استخراج می­کنیم.

مراحل مختلف دسته­بندی بصورت زیر است [31]:

1) پردازش مجموعه داده­ها: در این مرحله اسناد بررسی شده، قابلیت­ها استخراج وکلمات غیرضروری حذف می­شوند. یک بردار برای نمایش متن ایجاد و مقدار دهی می­شود. در این مرحله داده­ها ممکن است به دو قسمت تقسیم شوند.  مجموعه آموزشی: این قسمت از داده­ها برای ایجاد یک مدل بکار می­رود. مجموعه آزمایشی: این قسمت برای تست مدل بکار می­رود.

2) ساختن مدل: این مرحله را آموزش واقعی می­گویند که از یک الگوریتم یادگیری استفاده می­کند. این مرحله خود ممکن است چندین تکرار و چندین زیر مرحله داشته باشد.

·       انتخاب خصوصیت

·       اجرای یک الگوریتم یادگیری

·       اعتبار سنجی مدل

3) بکار بردن مدل برای مشخص کردن کلاس یک سند جدید.

در یک مسئله دسته­بندی ابتدا باید هر سند موجود در مجموعه آموزشی داده شده را در متغیر مناسبی ذخیره کرد و نام دسته آن سند را که با مشخصه­ای خاص، مثلا نام سند بدست آورد و سپس تمام توکن­های سند استخراج و در محل مناسبی ذخیره گردد [31].