TDC : Text Document Clustring

Text Document Clustring

TDC : Text Document Clustring

Text Document Clustring

TFIDF چیست ؟

روش TF-IDF : در این روش میزان تکرار یک کلمه در یک مستند را در مقابل تعداد تکرا آن در مجموعه کلیه مستندات در نظر می گیریم.

در روش TF-IDF وزن دهی کلمات تابعی از توزیع کلمات مختلف در مستندات است.

برای پیاده سازی این روش ابتدا یک مجموعه اسناد (برای مثال مجموعه اسناد همشهری) را در نظر می گیریم. به ازای تمام کلماتی که در پیکره وجود دارد ، بررسی می کنیم که هر کلمه در چه تعداد از سندها تکرار شده است و آن را ذخیره می کنیم .

سپس یک سند به عنوان ورودی دریافت می شود. هدف یافتن کلمات کلیدیِ سند دریافت شده است.
برای این منظور ابتدا بررسی می کنیم که هر یک از کلمات سند ورودی ، چند بار در همان سند استفاده شده است.
سپس به ازای تمام کلمات سند ورودی بررسی می کنیم که هر کلمه در چه تعداد از اسناد پیکره اصلی (برای مثال همشهری) وجود دارد.

 
ادامه مطلب ...

معرفی پایان نامه "شناسایی کپی با استفاده از دسته بندی اسناد و هستان شناسی"

یکی از مهم‌ترین موضوعات در پردازش زبان طبیعی و بازیابی اطلاعات، یافتن ریشه کلمات است [31].
ریشه ­یابی عبارتست از بدست آوردن ریشه کلمات با حذف پسوندها و پیشوندها بطوری که کلمات با ریشه یکسان دارای شکل یکسان گردند [31].

دسته­ بندی

دسته­بندی متن شامل نسبت دادن اسناد به یکی از چند گروه از پیش تعیین شده است [31]. برای نایل شدن به این هدف اسناد ورودی توسط یک مجموعه از مشخصه­ها که معمولاً خصوصیات نامیده می­شود توصیف می­شوند. برخلاف خوشه­بندی که شامل آموزش بدون نظارت است، در دسته­بندی یک مجموعه آموزشی از داده­ها با برچسب­گذاری قبلی نیاز است (یادگیری نظارتی). هدف دسته­بندی تحلیل داده­های ورودی و ایجاد یک مدل دقیق برای هر دسته با استفاده از این خصوصیات است. اسناد جدید در داخل یکی از این دسته­ها دسته­بندی می­شوند.

در مسأله دسته­بندی متن، ویژگی­ها کلماتی هستند که درون اسناد متنی قرار دارند. در بسیاری از موارد قبل از یادگیری ماشین انتخاب ویژگی صورت می­گیرد تا فضای ویژگی­ها را کاهش دهد. در دسته­بندی هدف بدست آوردن یک تابع نگاشت بین اسناد و مجموعه کلاس­ها یا گروه­ها به وسیله یک سری سند که به آنها مجموعه آموزشی می­گویند، می­باشد. که از این تابع نگاشت برای تعیین خودکار گروه سند جدید استفاده می­شود. توجه شود که در هنگام تولید تابع نگاشت مجموعه اسناد برچسب خورده هستند یعنی گروه هر یک از اسناد مشخص شده است و به وسیله این اسناد برای هر گروه یک سری ویژگی وصفات منحصر به فرد استخراج می­کنیم.

مراحل مختلف دسته­بندی بصورت زیر است [31]:

1) پردازش مجموعه داده­ها: در این مرحله اسناد بررسی شده، قابلیت­ها استخراج وکلمات غیرضروری حذف می­شوند. یک بردار برای نمایش متن ایجاد و مقدار دهی می­شود. در این مرحله داده­ها ممکن است به دو قسمت تقسیم شوند.  مجموعه آموزشی: این قسمت از داده­ها برای ایجاد یک مدل بکار می­رود. مجموعه آزمایشی: این قسمت برای تست مدل بکار می­رود.

2) ساختن مدل: این مرحله را آموزش واقعی می­گویند که از یک الگوریتم یادگیری استفاده می­کند. این مرحله خود ممکن است چندین تکرار و چندین زیر مرحله داشته باشد.

·       انتخاب خصوصیت

·       اجرای یک الگوریتم یادگیری

·       اعتبار سنجی مدل

3) بکار بردن مدل برای مشخص کردن کلاس یک سند جدید.

در یک مسئله دسته­بندی ابتدا باید هر سند موجود در مجموعه آموزشی داده شده را در متغیر مناسبی ذخیره کرد و نام دسته آن سند را که با مشخصه­ای خاص، مثلا نام سند بدست آورد و سپس تمام توکن­های سند استخراج و در محل مناسبی ذخیره گردد [31].

مقاله، بهبود دقت سیستم دسته بندی خودکار اسناد فارسی به کمک هستان شناسی فارس نت

تمرکز این مقاله بر ایجاد بردار مشخصه ی معنایی بر اساس مفاهیم استخراج شده از آنتولوژی فارس نت است و همچنین در این مقاله رویکردی جدید در حین استفاده از روش اولین مفهوم به منظور رفع ابهام از مفاهیم استخراج شده  معرفی می شود که کارایی این روش را بهبود می بخشد. در این مقاله الگوریتم x2 در بخش انتخاب مشخصه و روش وزن دهی ویژگی نرمال شده TFIDF در بخش وزن دهی بکار گرفته می شود.

سیستم های دسته بندی خودکار اسناد با افزایش دسترسی به اسناد الکترونیکی و رشد سریع فضای وب، به رویکردی کلیدی به منظور مدیریت اطلاعات و دانش تبدیل گشته اند.در دهه های اخیر روش های بسیاری به منظور دسته بندی متون لغات پیشنهاد شده است که اکثر آنان بر اساس مدل کیسه ی لغات هستند. در این مدل هر عبارت و یا ریشه عبارت یک مشخص ی مستقل در نظر گرفته می شود.  مدل نمایش کیسه ی لغات دارای محدودیت هایی است :

  • نادیده گرفتن روابط میان لغات که منجر به محدود شدن الگوریتم یادگیری به شناسایی الگوهای ظاهری کلمات می شود.
  • بعد بسیار بالای فضای نمایش متون 
ادامه مطلب ...

مفهوم خوشه بندی متن

خوشه‌بندی به فرآیند تبدیل حجم عظیمی از داده‌ها به گروه‌های داده‌ای مشابه گفته می‌شود. به همین صورت خوشه‌بندی متون عبارت است از تبدیل حجم عظیمی از اسناد متنی به گروه‌هایی از متن‌های مشابه؛ که به هر کدام از این گروه‌ها یک خوشه گفته می‌شود. پس مسئله خوشه‌بندی اسناد متنی را می‌توان به صورت ساده‌تر، مسئله پیدا کردن اسناد مشابه و قرار دادن آن‌ها کنار هم تعریف کرد.

برای خوشه‌بندی اسناد متنی روش‌های متنوعی وجود دارد که در این پژوهش انتظار می‌رود روش‌های متداول برای خوشه‌بندی معرفی شده و یکی از آن‌ها برای خوشه‌بندی متون فارسی پیاده‌سازی شود.

  
ادامه مطلب ...

مفهوم پیش پردازش متن

.فیلتر کردن:

در این مرحله کاراکترهای خاصی که به نظر می رسد در مدل فضای بردار نمی تواند اطلاعات مفیدی را در
اختیار قرار دهند حذف می شوند. همچنین این مرحله برای سندهای دارای ساختار خاص مانند صفحات وب
بسیاری حیاتی می باشد زیرا باید تگ های اضافی حذف شده و یا شناخته شده و با توجه به مقدارشان
وزنشان مشخص شود.

 
ادامه مطلب ...