جدول المحتوى
Hadoop هو إطار عمل مفتوح المصدر من نوع Apache مكتوب بلغة جافا ويسمح بالمعالجة الموزعة لمجموعات البيانات الكبيرة عبر مجموعات من أجهزة الكمبيوتر باستخدام نماذج برمجة بسيطة. يعمل تطبيق إطار عمل Hadoop في بيئة توفر تخزينًا موزعًا وحسابًا عبر مجموعات من أجهزة الكمبيوتر. تم تصميم Hadoop للارتقاء من خادم واحد إلى آلاف الأجهزة، حيث يقدم كل منها حسابًا وتخزينًا محليين.
Hadoop Architecture
في جوهرها، Hadoop لديه طبقتين رئيسيتين وهما –
طبقة المعالجة/الحساب (MapReduce)، و
طبقة التخزين (نظام الملفات الموزعة Hadoop).
MapReduce
MapReduce هو نموذج برمجة متوازي لكتابة التطبيقات الموزعة التي تم تصميمها في Google للمعالجة الفعالة لكميات كبيرة من البيانات (مجموعات بيانات متعددة تيرابايت)، على مجموعات كبيرة (آلاف العقد) من الأجهزة السلعية بطريقة موثوقة ومتسامحة مع الأخطاء. يعمل برنامج MapReduce على Hadoop وهو إطار عمل مفتوح المصدر من Apache.
Hadoop Distributed File System
يعتمد نظام الملفات الموزعة Hadoop (HDFS) على نظام ملفات Google (GFS) ويوفر نظام ملفات موزعًا مصممًا للتشغيل على الأجهزة السلعية. لديها العديد من أوجه التشابه مع أنظمة الملفات الموزعة الموجودة. ومع ذلك، فإن الاختلافات عن أنظمة الملفات الموزعة الأخرى كبيرة. إنه شديد التحمل للأخطاء ومصمم ليتم نشره على أجهزة منخفضة التكلفة. فهو يوفر وصولاً عالي الإنتاجية إلى بيانات التطبيق وهو مناسب للتطبيقات التي تحتوي على مجموعات بيانات كبيرة.
وبصرف النظر عن المكونين الأساسيين المذكورين أعلاه، يتضمن إطار عمل Hadoop أيضًا الوحدتين التاليتين –
Hadoop Common – هذه هي مكتبات Java والأدوات المساعدة التي تتطلبها وحدات Hadoop الأخرى.
Hadoop YARN – هذا إطار عمل لجدولة الوظائف وإدارة موارد المجموعة.
كيف يعمل هادوب؟
يعد بناء خوادم أكبر بتكوينات ثقيلة تتعامل مع معالجة واسعة النطاق أمرًا مكلفًا للغاية، ولكن كبديل، يمكنك ربط العديد من أجهزة الكمبيوتر السلعية معًا بوحدة معالجة مركزية واحدة، كنظام موزع وظيفي واحد وعمليًا، يمكن للأجهزة المجمعة قراءة مجموعة البيانات بالتوازي وتوفير إنتاجية أعلى بكثير. علاوة على ذلك، فهو أرخص من خادم واحد متطور. لذلك هذا هو العامل التحفيزي الأول وراء استخدام Hadoop الذي يتم تشغيله عبر الأجهزة المجمعة ومنخفضة التكلفة.
يقوم Hadoop بتشغيل التعليمات البرمجية عبر مجموعة من أجهزة الكمبيوتر. تتضمن هذه العملية المهام الأساسية التالية التي ينفذها Hadoop –
يتم تقسيم البيانات في البداية إلى أدلة وملفات. يتم تقسيم الملفات إلى كتل ذات حجم موحد 128 م و64 م (يفضل 128 م).
يتم بعد ذلك توزيع هذه الملفات عبر عقد نظام المجموعة المختلفة لمزيد من المعالجة.
HDFS، كونه على رأس نظام الملفات المحلي، يشرف على المعالجة.
يتم نسخ الكتل للتعامل مع فشل الأجهزة.
التحقق من تنفيذ الكود بنجاح.
إجراء الفرز الذي يحدث بين الخريطة وتقليل المراحل.
إرسال البيانات التي تم فرزها إلى جهاز كمبيوتر معين.
كتابة سجلات التصحيح لكل وظيفة.
مميزات برنامج هادوب
يسمح إطار عمل Hadoop للمستخدم بكتابة واختبار الأنظمة الموزعة بسرعة. إنه فعال، ويقوم تلقائيًا بتوزيع البيانات والعمل عبر الأجهزة، وبالتالي يستخدم التوازي الأساسي لنوى وحدة المعالجة المركزية.
لا يعتمد Hadoop على الأجهزة لتوفير التسامح مع الأخطاء والتوافر العالي (FTHA)، بل تم تصميم مكتبة Hadoop نفسها لاكتشاف حالات الفشل في طبقة التطبيق ومعالجتها.
يمكن إضافة الخوادم أو إزالتها من المجموعة ديناميكيًا ويستمر Hadoop في العمل دون انقطاع.
ميزة كبيرة أخرى لـ Hadoop هي أنه بصرف النظر عن كونه مفتوح المصدر، فهو متوافق مع جميع الأنظمة الأساسية لأنه يعتمد على Java.