در این بخش، به معرفی برخی از روشهای ارزیابی دقت که در مقالات مختلف ارائه شده است، خواهیم پرداخت.
معیارهای ارزیابی
دقت و بازیابی دو معیار مهمی هستند که در ارزیابی عملکرد مدل پیشنهادی استفاده کردیم. دقت و بازیابی بصورت معادله(4-1) و (4-2) تعریف میشوند .
پارامتر TN بیانگر تعداد نمونههایی است که دسته واقعی آنها منفی بوده و الگوریتم تشخیص دهنده نیز دسته آنها را به درستی منفی تشخیص داده است.TP بیانگر تعداد نمونههایی است که دسته واقعی آنها مثبت بوده و الگوریتم تشخیص دهنده نیز دسته آنها را به درستی مثبت تشخیص داده است.FP بیانگر تعداد نمونههایی است که دسته واقعی آنها منفی بوده و الگوریتم تشخیص دهنده دسته آنها را به اشتباه مثبت تشخیص داده است.FN بیانگر تعداد نمونههایی است که دسته واقعی آنها مثبت بوده و الگوریتم تشخیص دهنده دسته آنها را به اشتباه منفی تشخیص داده است. معیار Precision شامل پارامترهای TP و FP است. در این معیار نمونههای نادرست مثبت هم به عنوان مثبت درست در دقت تشخیص تاثیرگذار هستند. معیار Recall شامل پارامترهای TP و FN است. در این معیار نمونههای نادرست منفی هم در دقت تاثیرگذار هستند. معیار F-Measure به منظور ارزیابی کلی معیارهای Precision و Recall استفاده میشود. و معیار Accuracy معیار اصلی برای دقت تشخیص است.
الگوریتم K-Means
خوشهبندی که به آن یادگیری بدون ناظر نیز گفته میشود تعداد خوشهها در آن مشخص نیست. خوشهبندی در واقع یک عملیات غیرنظارتی میباشد. این عملیات هنگامی استفاده میشود که ما به دنبال یافتن گروههایی از دادههای مشابه میباشیم بدون اینکه از قبل یک پیشبینی در مورد شباهتهای موجود داشته باشیم. هر خوشه شامل مجموعهای از اشیاء دادهای است که به هم شبیه هستند اما با اشیاء خارج از آن متفاوت میباشند. یکی از روشهای معروف در زمینه خوشهبندی، الگوریتم K-Means میباشد [5]. الگوریتم K-Means علیرغم آنکه ساده است یک روش پایه برای بسیاری از روشهای خوشهبندی محسوب میشود. برای این الگوریتم شکلهای مختلفی بیان شده است. ولی همه آنها دارای روالی تکراری هستند که برای تعدادی ثابت از خوشهها سعی در تخمین موارد زیر دارند [5]:
· بدست آوردن نقاطی به عنوان مراکز خوشهها. این نقاط در واقع همان میانگین نقاط متعلق به هر خوشه هستند.
· نسبت دادن هر نمونه داده به یک خوشه که آن داده کمترین فاصله تا مرکز آن خوشه را دارا باشد.
الگوریتم K-Means ابتدا K عضو(که K تعداد خوشهها است) را به صورت تصادفی از میان N عضو انتخاب مینماید و آنها را به عنوان مراکز خوشهها در نظر میگیرد. سپس N-K عضو باقیمانده به نزدیکترین خوشه تخصیص مییابند. بعد از تخصیص همه اعضا مجدداً مراکز خوشهها محاسبه شده و اعضا با توجه به میزان نزدیکی (شباهت) به یکی از خوشهها تخصیص مییابند و این کار تا زمانی که مراکز خوشهها ثابت بمانند، ادامه مییابد. با تکرار همین روال میتوان در هر تکرار با میانگینگیری از دادهها مراکز جدیدی برای آنها محاسبه کرد و مجدداً دادهها را به خوشههای جدید نسبت داد.
الگوریتم K-Meansیکی از روشهای رایج خوشهبندی میباشد که علیرغم مزایای بسیار از جمله سرعت بالا و سهولت پیادهسازی، در دام بهینه محلی قرار نمیگیرد و میتواند جواب بهینه برای مسئه مورد نظر را تولید ذنماید. تابع هدف در الگوریتم K-Means طبق معادله(2-3) تعریف شده است.
روش TF-IDF : در این روش میزان تکرار یک کلمه در یک مستند را در مقابل تعداد تکرا آن در مجموعه کلیه مستندات در نظر می گیریم.
در روش TF-IDF وزن دهی کلمات تابعی از توزیع کلمات مختلف در مستندات است.
برای پیاده سازی این روش ابتدا یک مجموعه اسناد (برای مثال مجموعه اسناد همشهری) را در نظر می گیریم. به ازای تمام کلماتی که در پیکره وجود دارد ، بررسی می کنیم که هر کلمه در چه تعداد از سندها تکرار شده است و آن را ذخیره می کنیم .
سپس یک سند به عنوان ورودی دریافت می شود. هدف یافتن کلمات کلیدیِ سند دریافت شده است.
برای این منظور ابتدا بررسی می کنیم که هر یک از کلمات سند ورودی ، چند بار در همان سند استفاده شده است.
سپس به ازای تمام کلمات سند ورودی بررسی می کنیم که هر کلمه در چه تعداد از اسناد پیکره اصلی (برای مثال همشهری) وجود دارد.
خوشهبندی به فرآیند تبدیل حجم عظیمی از دادهها به گروههای دادهای مشابه گفته میشود. به همین صورت خوشهبندی متون عبارت است از تبدیل حجم عظیمی از اسناد متنی به گروههایی از متنهای مشابه؛ که به هر کدام از این گروهها یک خوشه گفته میشود. پس مسئله خوشهبندی اسناد متنی را میتوان به صورت سادهتر، مسئله پیدا کردن اسناد مشابه و قرار دادن آنها کنار هم تعریف کرد.
برای خوشهبندی اسناد متنی روشهای متنوعی وجود دارد که در این پژوهش انتظار میرود روشهای متداول برای خوشهبندی معرفی شده و یکی از آنها برای خوشهبندی متون فارسی پیادهسازی شود.