مفهوم پیش پردازش متن

.فیلتر کردن:

در این مرحله کاراکترهای خاصی که به نظر می رسد در مدل فضای بردار نمی تواند اطلاعات مفیدی را در

اختیار قرار دهند حذف می شوند. همچنین این مرحله برای سندهای دارای ساختار خاص مانند صفحات وب

بسیاری حیاتی می باشد زیرا باید تگ های اضافی حذف شده و یا شناخته شده و با توجه به مقدارشان

وزنشان مشخص شود.

برای پیاده سازی این قسمت،لیستی از کلمات خاص که در مدل فضای بردار نمی تواند اطلاعات مفیدی در اختیار ما قرار دهد (برای مثال حروف اضافه و حروف ربط و برخی صفت هاو... در زبان فارسی)را در لیستی با نام literals ذخیره کرده و آنها را از سند های ورودی حذف می کنیم.

نرمال سازی و اصلاح نویسه ها:

یکی از مشکلات زبان فارسی وجود چند نمونه ی مختلف از یک نویسه است، که کار جستجو در متون فارسی

را مشکل می کند. در این مرحله کاراکترهای غیر استاندارد با کاراکترهای استاندارد جایگزین می شوند و

کاراکترهای اضافی نیز بسته به نوع پردازش از بین می روند تا واژه های یکسان در تمامی متن به یک صورت

نوشته شده باشند

برای پیاده سازی این بخش تابعی به نام doc_normalizer نوشته شده
که در آن از کلاس word_tokenize موجود در کتابخانه ی هضم (به انگلیسی hazm ) استفاده شده.

.تکه تکه کردن:

در این مرحله جملات تکه تکه شده و به صورت مجموعه ای از کلمات در می آید. روش های پیچیده تکه تکه

کردن متن از پردازش زبان طبیعی برای این کار بهره می گیرد، به این صورت که از تجزیه ساختار گرامری

متن برای به دست آوردن کلمات پرمعناتر از قبیل اسم ها استفاده می کنند

.ریشه یابی:

پروسه ریشه یابی کلمات را به صورت عبارت پایه آن در می آورد. برای مثال، کلمه "روش هایم"، "روشی"،

Porter "روشمند" هر سه از ریشه روش هستند. روش های ریشه یابی اغلب مبتنی بر زبان هستن. الگوریتم

یک الگوریتم ریشه یاب استاندارد برای زبان انگلیسی است.

برای پیاده سازی این قسمت تابعی به نام doc_stemmer نوشته شده که در آن
از کلاس stemmer موجود در کتابخانه ی هضم (به انگلیسی hazm ) استفاده شده.

.حذف کلمات توقف:

کلمه ایست به کلمه ای گفته می شود که به تنهایی معنای خاصی را نمی رساند و در واقع به عنوان یک

عنصر از مدل فضای بردار اطلاعات مفیدی در بر ندارد. یک روش ابتدایی برای حذف کلمات توقف مقایسه

هر کلمه با مجموعه ای از کلمات توقف شناخته شده است. روش دیگر این است که ابتدا عملیات برچسب

زنی اجزای سخن 47 صورت گرفته و سپس تمامی تکه هایی که اسم، فعل و یا صفت نیستند را حذف کرد

.هرس کردن:

در این مرحله کلماتی که تکرار آن ها در پیکره اسناد بسیار نادر است را حذف می کنیم. پیش فرض انجام این

عملیات این است که این کلمات، حتی اگر قدرت تمایز زیادی داشته باشند، تنها تعداد به ساخت تعداد

بسیار اندکی از خوشه ها کمک می کنند. برای میزان تکرار معمولاً از یک حد از قبل تعیین شده، درصد کمی

از تعداد کل کلمات موجود در پیکره اسناد، استفاده می شود. بعضی اوقات کلماتی هم که تکرار بسیار زیادی

دارند (مثلاً 40 درصد و بیشتر از سندها) حذف می شوند

•کاهش ابعاد

داده های با ابعاد زیاد باعث پیچیدگی محاسبات خواهند شد. در طول خوشه بندی N سند ممکن است M خصوصیت مختلف را در نظر بگیریم در حالی کهM>>N .اما مسئله اینجاست که آیا واقعا نیازی به بررسی این تعداد خصوصیت هست؟ممکن است که بررسی همه ی این خصوصیات لازم نباشد؟جواب این سوال موجب ارائه ی راهکارهایی با عنوان کاهش ابعاد می شود.

در صورتی که کاهش ابعاد در یک فرآیند با ناظر انجام پذیرد،به آن انتخاب خصوصیات گوییم.در این فرآیند ناظر خصوصیاتی که معیار های مشخصی داشته باشند انتخاب می کند.

در حالت دیگر می توانیم با استفاده از یک فرآیند بدون ناظر ویژگی ها را استخراج کنیم تا معیار بهینه سازی حاصل شود.به این فرآیند استخراج خصوصیات گفته می شود.استخراج خصوصیات طی یک تبدیل از فضای M-بعدی به یک فضای K-بعدی صورت می پذیرد که k<M .این تبدیل می تواند هم به صورت خطی و هم به صورت غیر خطی انجام شود.

محمد نمازی چهارشنبه 29 دی 1395 ساعت 21:45

TDC : Text Document Clustring

TDC : Text Document Clustring