روش TF-IDF : در این روش میزان تکرار یک کلمه در یک مستند را در مقابل تعداد تکرا آن در مجموعه کلیه مستندات در نظر می گیریم.
در روش TF-IDF وزن دهی کلمات تابعی از توزیع کلمات مختلف در مستندات است.
برای پیاده سازی این روش ابتدا یک مجموعه اسناد (برای مثال مجموعه اسناد همشهری) را در نظر می گیریم. به ازای تمام کلماتی که در پیکره وجود دارد ، بررسی می کنیم که هر کلمه در چه تعداد از سندها تکرار شده است و آن را ذخیره می کنیم .
سپس یک سند به عنوان ورودی دریافت می شود. هدف یافتن کلمات کلیدیِ سند دریافت شده است.
برای این منظور ابتدا بررسی می کنیم که هر یک از کلمات سند ورودی ، چند بار در همان سند استفاده شده است.
سپس به ازای تمام کلمات سند ورودی بررسی می کنیم که هر کلمه در چه تعداد از اسناد پیکره اصلی (برای مثال همشهری) وجود دارد.
دسته بندی
دستهبندی متن شامل نسبت دادن اسناد به یکی از چند گروه از پیش تعیین شده است [31]. برای نایل شدن به این هدف اسناد ورودی توسط یک مجموعه از مشخصهها که معمولاً خصوصیات نامیده میشود توصیف میشوند. برخلاف خوشهبندی که شامل آموزش بدون نظارت است، در دستهبندی یک مجموعه آموزشی از دادهها با برچسبگذاری قبلی نیاز است (یادگیری نظارتی). هدف دستهبندی تحلیل دادههای ورودی و ایجاد یک مدل دقیق برای هر دسته با استفاده از این خصوصیات است. اسناد جدید در داخل یکی از این دستهها دستهبندی میشوند.
در مسأله دستهبندی متن، ویژگیها کلماتی هستند که درون اسناد متنی قرار دارند. در بسیاری از موارد قبل از یادگیری ماشین انتخاب ویژگی صورت میگیرد تا فضای ویژگیها را کاهش دهد. در دستهبندی هدف بدست آوردن یک تابع نگاشت بین اسناد و مجموعه کلاسها یا گروهها به وسیله یک سری سند که به آنها مجموعه آموزشی میگویند، میباشد. که از این تابع نگاشت برای تعیین خودکار گروه سند جدید استفاده میشود. توجه شود که در هنگام تولید تابع نگاشت مجموعه اسناد برچسب خورده هستند یعنی گروه هر یک از اسناد مشخص شده است و به وسیله این اسناد برای هر گروه یک سری ویژگی وصفات منحصر به فرد استخراج میکنیم.
مراحل مختلف دستهبندی بصورت زیر است [31]:
1) پردازش مجموعه دادهها: در این مرحله اسناد بررسی شده، قابلیتها استخراج وکلمات غیرضروری حذف میشوند. یک بردار برای نمایش متن ایجاد و مقدار دهی میشود. در این مرحله دادهها ممکن است به دو قسمت تقسیم شوند. مجموعه آموزشی: این قسمت از دادهها برای ایجاد یک مدل بکار میرود. مجموعه آزمایشی: این قسمت برای تست مدل بکار میرود.
2) ساختن مدل: این مرحله را آموزش واقعی میگویند که از یک الگوریتم یادگیری استفاده میکند. این مرحله خود ممکن است چندین تکرار و چندین زیر مرحله داشته باشد.
· انتخاب خصوصیت
· اجرای یک الگوریتم یادگیری
· اعتبار سنجی مدل
3) بکار بردن مدل برای مشخص کردن کلاس یک سند جدید.
در یک مسئله دستهبندی ابتدا باید هر سند موجود در مجموعه آموزشی داده شده را در متغیر مناسبی ذخیره کرد و نام دسته آن سند را که با مشخصهای خاص، مثلا نام سند بدست آورد و سپس تمام توکنهای سند استخراج و در محل مناسبی ذخیره گردد [31].تمرکز این مقاله بر ایجاد بردار مشخصه ی معنایی بر اساس مفاهیم استخراج شده از آنتولوژی فارس نت است و همچنین در این مقاله رویکردی جدید در حین استفاده از روش اولین مفهوم به منظور رفع ابهام از مفاهیم استخراج شده معرفی می شود که کارایی این روش را بهبود می بخشد. در این مقاله الگوریتم x2 در بخش انتخاب مشخصه و روش وزن دهی ویژگی نرمال شده TFIDF در بخش وزن دهی بکار گرفته می شود.
سیستم های دسته بندی خودکار اسناد با افزایش دسترسی به اسناد الکترونیکی و رشد سریع فضای وب، به رویکردی کلیدی به منظور مدیریت اطلاعات و دانش تبدیل گشته اند.در دهه های اخیر روش های بسیاری به منظور دسته بندی متون لغات پیشنهاد شده است که اکثر آنان بر اساس مدل کیسه ی لغات هستند. در این مدل هر عبارت و یا ریشه عبارت یک مشخص ی مستقل در نظر گرفته می شود. مدل نمایش کیسه ی لغات دارای محدودیت هایی است :
خوشهبندی به فرآیند تبدیل حجم عظیمی از دادهها به گروههای دادهای مشابه گفته میشود. به همین صورت خوشهبندی متون عبارت است از تبدیل حجم عظیمی از اسناد متنی به گروههایی از متنهای مشابه؛ که به هر کدام از این گروهها یک خوشه گفته میشود. پس مسئله خوشهبندی اسناد متنی را میتوان به صورت سادهتر، مسئله پیدا کردن اسناد مشابه و قرار دادن آنها کنار هم تعریف کرد.
برای خوشهبندی اسناد متنی روشهای متنوعی وجود دارد که در این پژوهش انتظار میرود روشهای متداول برای خوشهبندی معرفی شده و یکی از آنها برای خوشهبندی متون فارسی پیادهسازی شود.
.فیلتر کردن: