
در ابتدا بهتر است که بدانیم هدوپ چیست؟ هدوپ پايگاه داده نیست و همچنین هدوپ يک نرم افزار نیست، بلکه هدوپ يک چارچوب يا مجموعه ای از نرم افزارها و کتابخانه هايی است که سازوکار پردازش حجم عظیمی از داده های توزيع شده را فراهم می کند. در سالهای اخیر، شاهد افزایش چشمگیر تولید داده بودهایم. به گفته IBM تقریباً، ۹۰ % کل دادههای ذخیرهشده موجود در دنیا، در دو سال اخیر تولید شدهاند و برای اولین بار در تاریخ، در سال ۲۰۰۷ میلادی بود که حجم دادههای تولیدی فراتر از فضای موجود برای ذخیرهسازی آنها رفت. همچنین، طیف گستردهای از برنامههای کاربردی مانند موتورهای جستجو، تحقیقات پزشکی، پیشبینی آبوهوا و برنامههای علمی برای پردازش و تجزیهوتحلیل مقادیر دادهای بزرگ نیازمند محیطهای توزیعشده هستند. دادههای عظیم همانند سایر فنآوریها، فرصتها و چالشهای متعددی را پیش روی استفادهکنندگان قرار داده است، استفاده از فرصتها و مزایای آن در کسبوکار و مدیریت صحیح چالشها به یکی از موضوعات داغ در عرصه فنآوری اطلاعات تبدیل شده است. بنابراین، وجود راه حلی برای پردازش اطلاعات عظیم با هزینهای مقرون بهصرفه بسیار اهمیت دارد، لذا یکی از بهترین راهحلها برای رفع مشکل پردازش اطلاعات عظیم استفاده از چارچوب آپاچی هدوپ است. تعریف گارتنر از هدوپ این است که «هدوپ یک چارچوب مدیریت داده است که حجم زیادی از دادههای دارای ساختار و بدون ساختار را که تقریباً در تمامی لایههای سازمانی اثر میگذارد، در کنار هم میآورد که موجب قرارگیری آن در بطن مراکز داده میشود». هدوپ بخشی از پروژه آپاچی است که بنیاد نرمافزار آپاچی آن را حمایت میکند. در واقع، هدوپ یک چارچوب برنامهنویسی رایگان و مبتنی بر جاوا است که ما را در پردازش مجموعههای عظیمی از دادهها در یک محیط پردازش توزیعی پشتیبانی میکند.