
در دهه اخیر به دلیل ظهور شبکه ها و رسانه های اجتماعی اطلاعات شروع به رشد کردند و فايلها از حداکثر سايز چندين گیگابايت به چندين ترابايت تبديل شدند و ديگر با ساختارهای قبلی قابل ذخیره و تحلیل نبودند، از اينرو، برای حل اين مشکل کارشناسان به يک جمع بندی کلی رسیدند که در ابتدا بايد نحوه ذخیره و بازيابی اطلاعات تغییر کند. آنها تعداد ۲۴ سیستم کامپیوتری را بر روی يک رک سوار کردند که هرکدام به صورت مستقل يک کامپیوتر بود ولی نحوه ذخیره اطلاعات به نحوی بود که اگر قرار بود فايلی روی آن ذخیره شود، براساس الگوريتمی آن فايل تقسیم و بر روی کامپیوترها به صورت موازی و با سرعت بسیار بالايی ذخیره می شد و در مرحله دوم اگر ما قصد پردازش اطلاعات آن را داشتیم بايد تمام فايلهای تکه شده را جمع آوری می کرديم و سپس فايل واحد را پردازش می کرديم که در مقیاس بالا باعث گلوگاه در شبکه می شد. برای بهبود و حل اين مشکل آنها تصمیم گرفتند به جای اينکه فايلهای تکه تکه شده را در ابتدا واکشی کرده و پردازش کنند، از قدرت پردازش هر کامپیوتر در رک استفاده کرده و پردازش را در همان جا انجام دهند. در اين روش قدرت پردازش چند برابر شده و به جای انتقال داده ها اطلاعات پردازش شده انتقال پیدا می کنند. البته در روش کنونی نیز مشکلاتی وجود دارد، مثلا اگر برای يکی از نودها مشکلی به وجود آيد چه اتفاقی برای پردازش و فاGFS استفاده می کنند که بصورت Open source در اختیار کاربران قرار دارد. با استفاده از این روش های جدید نحوه ذخیره و بازاریابی اطلاعات در داده های کلان کاملا عوض شد. با توجه به حجم داده امروزی نیاز به پردازش اين حجم داده در زمان مطلوب و همچنین نیاز به بهینگی در پردازش دسته ای و ذخیره سازی داده های عظیم با هزينه های مقرون به صرفه بیش از پیش مورد توجه است، با مطرح شدن هدوپ تا حدودی اين نیازمندیها رفع شدند، چارچوب هدوپ در واقع برای ذخیره سازی و فراخوانی اطلاعات عظیم (در حد گیگابايت، ترابايت و يا حتی پتابايت) مورد استفاده قرار می گیرد.