
امروز شرکتها و سازمانها حجم انبوهی از داده ها را در پایگاه های داده خود در اختیار دارند. در این راستا نیاز است تا روش های خودکاری وجود داشته باشد تا بتواند دانش مفید را از میان انبوه داده ها، کشف و استخراج کنند. داده کاوی ابزار مؤثری است که برای این منظور مورد استفاد قرار می گیرد. در زمینه شناسایی بات نت ها، روش های داده کاوی می توانند با کشف الگوهایی از رفتار مخرب بات نت ها، آنها را از ترافیک عادی شبکه متمایز کرد و شناسایی کنند. روشی که دراینجا برای شناسایی بات نت از آن استفاده شده است روش خوشه بندی داده است. در خوشه بندی، داده ها براساس قاعده "حداکثر مشابهت درون کلاسی و حداقل مشابهت برون کلاسی" خوشه بندی یا گروه بندی می شوند. در نهایت خوشه هایی از داده ها شکل می گیرند که داده های درون یک خوشه بالاترین مشابهت را با یکدیگر و کمترین مشابهت را با داده های دیگر روش ها دارند. هر خوشه ای که شکل گرفته، می تواند به عنوان یک کلاس از داده ها در نظر گرفته شود و قواعدی از آن استنتاج شوند. خوشه بندی، فرایند گروه بندی مجموعه ای از داده ها به کلاس دارای داده های مشابه است. در خوشه بندی، هیچ اطلاعی از کلاس های موجود درون داده ها وجود ندارد و به عبارتی خود خوشه ها نیز از داده ها استخراج می شود.