X
تبلیغات
رایتل

TDC : Text Document Clustring

لیست یادداشت‌ها rss

  • نمونه هایی از کاربردهای بازیابی تصاویر در وب (جمعه 22 دی 1396 11:41)
    امور پزشکی : تصویر به عنوان یکی از منابع اطلاعاتی غیرمتنی بهخصوص در حوزهی پزشکی نقش مهمی دارد، از آنجاییکه حوزه ی سلامت ارتباط مستقیمی با کیفیت زندگی انسان دارد، بهکارگیری تصویر در بهبود عملکرد متخصصان پزشکی مؤثر است. این مطالعه باهدف بررسی بازیابی اطلاعات تصویری حوزهی سلامت در وب از دیدگاه متخصصان علوم پزشکی انجام...
  • معیارهای ارزیابی (شنبه 16 دی 1396 12:30)
    در این بخش، به معرفی برخی از روش‌های ارزیابی دقت که در مقالات مختلف ارائه شده است، خواهیم پرداخت. 1-نسبت‌گیری روش‌های مختلفی برای اندازه‌گیری دقت وجود دارد که از جمله ساده‌ترین آن‌ها، نسبت‌گیری [1] است که در مقالات زیادی استفاده شده است. این نسبت معمولا با توجه به شکل بالا به صورت زیر تعریف می‌شود: accuracy =...
  • دیتاست PASCAL VOC (سه‌شنبه 12 دی 1396 09:10)
    دیتاست PASCAL VOC [46] شامل 10000 تصویر است و 20 کلاس مختلف دارد. این دیتاست شامل کلاس­های ( aeroplan ، bicycle ، boat ، bottle ، bus ، bird ، car ، cat ، cow ، chair ، dining ، dog ، horse ، person ، sheep ، motorbike ، train ، potted plant ، soft و tv/monitor ) می­باشد. در این دیتاست در ابتدا نمونه­های آموزشی انتخاب...
  • دیتاست MIT-Indoor (سه‌شنبه 12 دی 1396 09:09)
    دیتاست MIT-Indoor [45] شامل 67 کلاس از تصاوویر خانگی است و در مجموع شامل 15620 تصاویر است. معمولاً تحقیقاتی که با استفاده از این دیتاست انجام شده بیانگر این است که در بیشتر موارد 80% تصاویر را برای مرحله آموزش انتخاب می­کنند. در این مرحله مدل برمبنای تصاویر آموزشی ساخته می­شود و سپس برای ارزیابی مدل از مرحله تست...
  • دیتاست Scene-15 (سه‌شنبه 12 دی 1396 09:09)
    دیتاست Scene-15 [44] شامل 15 کلاس است. کلاس­های این دیتاست شامل store ، office ، tallbuilding ، street ، opencountry ، mountain ، insidecity ، highway ، forest ، coast ، livingroom ، kitchen ، industrial ، suburb و bedroom می­باشد. این دیتاست شامل 200 تا 400 تصویر برای هر کلاس می­باشد.
  • دیتاست UIUC (یکشنبه 10 دی 1396 09:34)
    دیتاست UIUC دیتاست UIUC شامل 8 کلاس بشرح زیر است: کلاس­ها شامل badminton ، bocce ، croquet ، polo ، rock climbing ، rowing ، sailing ، و snow boarding می­باشند. تعداد کل تصاویر برابر با 1792 تصویر است که هر کلاس در بین محدوده 137 تا 250 تصویر می­باشد. در هر کلاس برای یک شی، چندین تصویر در مدل­های مختلف وجود دارد که...
  • معیارهای ارزیابی (چهارشنبه 6 دی 1396 12:10)
    معیارهای ارزیابی دقت و بازیابی دو معیار مهمی هستند که در ارزیابی عملکرد مدل پیشنهادی استفاده کردیم. دقت و بازیابی بصورت معادله(4-1) و (4-2) تعریف می­شوند . معادله(4-1)، نرخ تشخیص را نشان می­دهد و در واقع نسبت تشخیص درست موارد بازیابی به کل موارد تصاویر را نشان می‌دهد. این شاخص می‌تواند کارایی مدل پیشنهادی در تشخیص...
  • مقایسه عملکرد الگوریتم K-Means و K-Means ++ (چهارشنبه 6 دی 1396 12:04)
    الگوریتم K-Means خوشه­بندی که به آن یادگیری بدون ناظر نیز گفته می­شود تعداد خوشه­ها در آن مشخص نیست. خوشه­بندی در واقع یک عملیات غیرنظارتی می­باشد. این عملیات هنگامی استفاده می­شود که ما به دنبال یافتن گروه­هایی از داده­های مشابه می­باشیم بدون اینکه از قبل یک پیش­بینی در مورد شباهت­های موجود داشته باشیم. هر خوشه شامل...
  • Image Crawler (چهارشنبه 29 آذر 1396 08:20)
    Image Crawler نرم افزاری است که توسط Danny Kunz ساخته شده است. این نرم افزار با دریافت لینک وب سایت مورد نظر، تمامی تصاویری که در آن وب سایت موجود است را به کاربر نمایش می دهد. لینک منبع
  • TFIDF چیست ؟ (سه‌شنبه 28 آذر 1396 10:01)
    روش TF-IDF : در این روش میزان تکرار یک کلمه در یک مستند را در مقابل تعداد تکرا آن در مجموعه کلیه مستندات در نظر می گیریم. در روش TF-IDF وزن دهی کلمات تابعی از توزیع کلمات مختلف در مستندات است. برای پیاده سازی این روش ابتدا یک مجموعه اسناد (برای مثال مجموعه اسناد همشهری) را در نظر می گیریم. به ازای تمام کلماتی که در...
  • معرفی پایان نامه "شناسایی کپی با استفاده از دسته بندی اسناد و هستان شناسی" (جمعه 8 بهمن 1395 18:58)
    یکی از مهم‌ترین موضوعات در پردازش زبان طبیعی و بازیابی اطلاعات، یافتن ریشه کلمات است [31]. ریشه ­یابی عبارتست از بدست آوردن ریشه کلمات با حذف پسوندها و پیشوندها بطوری که کلمات با ریشه یکسان دارای شکل یکسان گردند [31]. دسته­ بندی دسته­بندی متن شامل نسبت دادن اسناد به یکی از چند گروه از پیش تعیین شده است [31]. برای نایل...
  • مقاله، بهبود دقت سیستم دسته بندی خودکار اسناد فارسی به کمک هستان شناسی فارس نت (جمعه 8 بهمن 1395 18:57)
    تمرکز این مقاله بر ایجاد بردار مشخصه ی معنایی بر اساس مفاهیم استخراج شده از آنتولوژی فارس نت است و همچنین در این مقاله رویکردی جدید در حین استفاده از روش اولین مفهوم به منظور رفع ابهام از مفاهیم استخراج شده معرفی می شود که کارایی این روش را بهبود می بخشد. در این مقاله الگوریتم x2 در بخش انتخاب مشخصه و روش وزن دهی...
  • مفهوم خوشه بندی متن (پنج‌شنبه 30 دی 1395 21:47)
    خوشه‌بندی به فرآیند تبدیل حجم عظیمی از داده‌ها به گروه‌های داده‌ای مشابه گفته می‌شود. به همین صورت خوشه‌بندی متون عبارت است از تبدیل حجم عظیمی از اسناد متنی به گروه‌هایی از متن‌های مشابه؛ که به هر کدام از این گروه‌ها یک خوشه گفته می‌شود. پس مسئله خوشه‌بندی اسناد متنی را می‌توان به صورت ساده‌تر، مسئله پیدا کردن اسناد...
  • مفهوم پیش پردازش متن (چهارشنبه 29 دی 1395 21:45)
    .فیلتر کردن: در این مرحله کاراکترهای خاصی که به نظر می رسد در مدل فضای بردار نمی تواند اطلاعات مفیدی را در اختیار قرار دهند حذف می شوند. همچنین این مرحله برای سندهای دارای ساختار خاص مانند صفحات وب بسیاری حیاتی می باشد زیرا باید تگ های اضافی حذف شده و یا شناخته شده و با توجه به مقدارشان وزنشان مشخص شود. برای پیاده...
  • مقاله، خوشه بندی اسناد، مبتنی بر آنتولوژی و رویکرد فازی (سه‌شنبه 14 دی 1395 09:56)
    در این مقاله روش جدیدی برای نمایش آنتولوژیکال و مفهومی اسناد بصورت سلسله مراتبی ارائه شده است . باتوجه به آنتولوژی یک گراف مفهومی از اسناد ایجاد می شود که این گراف فاصله و شباهت بین اسناد را مشخص می کند. موتورهای جستجو ی وب هزاران صفحه را در پاسخ به یک پرس و جو برمی گردانند و کاربر را برای پیداکردن اطلاعات مرتبط...
  • پرسیکا (پیکره متون خبری) (شنبه 11 دی 1395 09:27)
    پرسیکا پیکره‌ای است حاوی متون خبری برگرفته از خبرگزاری ایسنا. متون این پیکره در یازده طبقه موضوعی شامل ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی، بهداشت طبقه‌بندی شده‌اند و پیش‌پردازش‌هایی به منظور قابل استفاده بودن در کاربردهای مختلف پردازش زبان طبیعی و داده‌کاوی بر روی آن‌ها...
  • دیتاست همشهری نسخه 2 (شنبه 11 دی 1395 09:07)
    مجموعه همشهری پیکره‌ای است حاوی ۳۱۸ هزار سند مربوط به اخبار سال‌های ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وب‌سایت همشهری و چندین مرحله پیش‌پردازش و برچسب‌گذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب «Cat» هستند که نشان می‌دهد هر سند در چه رده‌ای است (اقتصادی، سیاسی و...). نسخۀ دو پیکره همشهری توسط گروه تحقیقاتی...
  • روش خوشه‌بندی (K-Means و C-Means یا C-Centeriod) (دوشنبه 29 آذر 1395 21:27)
    این روش علی‌رغم سادگی آن یک روش پایه برای بسیاری از روش‌های خوشه‌بندی دیگر (مانند خوشه‌بندی فازی) محسوب می‌شود. این روش روشی انحصاری و مسطح محسوب می‌شود. [ 1 ] برای این الگوریتم شکلهای مختلفی بیان شده است. ولی همة آنها دارای روالی تکراری هستند که برای تعدادی ثابت از خوشه‌ها سعی در تخمین موارد زیر دارند: · بدست آوردن...
  • مقدمه ای از خوشه بندی (پنج‌شنبه 25 آذر 1395 08:12)
    ما در جها نی پر از داده زند گی می کنیم. هر روزه انسانها با حجم وسیعی از اطلاعات روبه رو هستند که باید آنها را ذخیره ساز ی یا نمایش دهند. یکی از روشها ی حیاتی کنترل و مد یریت این داده ها، کلاس بند ی یا گروه بند ی داده های با خواص مشابه، درون مجموعه ای از دسته ها یا خوشه ها می باشد . امروزه، خوشه بندی نقش حیاتی در...
  • الگوریتم های کلاسترینگ (جمعه 19 آذر 1395 18:47)
    در این قسمت انواع الگوریتم های کلاسترینگ را بررسی می کنیم. الگوریتم های کلاسترینگ را می توان به دسته های اصلی زیر تقسیم بندی کرد : • الگوریتم های کلاسترینگ ترتیبی • الگوریتم های کلاسترینگ سلسله مراتبی • الگوریتم های کلا سترینگ مبتنی بر بهینه سازی تابع هزینه الگوریتم های کلاسترینگ ترتیبی این الگوریتم ها در ابتدا یک...
  • مفاهیم اولیه کلاسترینگ یا دسته بندی(Clustering) (پنج‌شنبه 13 آبان 1395 18:37)
    کلاسترینگ به معنای کلاس بندی بدون نظارت است که کلاسها از قبل تعیین شده نیستند و یا به عبارت دیگر برچسب کلاس الگوهای آموزشی در دسترس نیست. بنابراین اکنون هدف اصلی ما سازماندهی الگوها به گروهای sensible است. که به ما اجازه می دهند که شباهت و تفاوت بین الگوها را کشف کنیم و نتایج مفید را درباره آنها استنتاج نماییم. این...