جدول المحتوى
تم تطوير نظام ملفات Hadoop باستخدام تصميم نظام الملفات الموزع. يتم تشغيله على الأجهزة السلعية. على عكس الأنظمة الموزعة الأخرى، يتميز نظام HDFS بقدرته العالية على تحمل الأخطاء ومصمم باستخدام أجهزة منخفضة التكلفة.
يحتوي HDFS على كمية كبيرة جدًا من البيانات ويوفر وصولاً أسهل. لتخزين مثل هذه البيانات الضخمة، يتم تخزين الملفات عبر أجهزة متعددة. يتم تخزين هذه الملفات بطريقة متكررة لإنقاذ النظام من فقدان البيانات المحتمل في حالة الفشل. كما يجعل HDFS التطبيقات متاحة للمعالجة المتوازية.
مميزات HDFS
إنها مناسبة للتخزين والمعالجة الموزعة.
يوفر Hadoop واجهة أوامر للتفاعل مع HDFS.
تساعد الخوادم المدمجة في namenode وdatanode المستخدمين على التحقق بسهولة من حالة المجموعة.
تدفق الوصول إلى بيانات نظام الملفات.
يوفر HDFS أذونات الملفات والمصادقة.
HDFS Architecture
فيما يلي بنية نظام ملفات Hadoop.
يتبع HDFS بنية master-slave ويحتوي على العناصر التالية.
Namenode
namenode هو جهاز سلعي يحتوي على نظام التشغيل GNU/Linux وبرنامج رمز الاسم. إنه برنامج يمكن تشغيله على الأجهزة السلعية. يعمل النظام الذي يحتوي على namenode كخادم رئيسي ويقوم بالمهام التالية –
يدير مساحة اسم نظام الملفات.
ينظم وصول العميل إلى الملفات.
كما أنه ينفذ عمليات نظام الملفات مثل إعادة تسمية الملفات والأدلة وإغلاقها وفتحها.
Datanode
datanode عبارة عن جهاز سلعي يحتوي على نظام التشغيل GNU/Linux وبرنامج datanode. لكل عقدة (جهاز/نظام سلعي) في المجموعة، سيكون هناك datanode. تدير هذه العقد تخزين البيانات في نظامها.
تقوم Datanodes بتنفيذ عمليات القراءة والكتابة على أنظمة الملفات، حسب طلب العميل.
كما يقومون أيضًا بتنفيذ عمليات مثل إنشاء الكتلة والحذف والنسخ وفقًا لتعليمات namenode.
Block
بشكل عام، يتم تخزين بيانات المستخدم في ملفات HDFS. سيتم تقسيم الملف الموجود في نظام الملفات إلى مقطع واحد أو أكثر و/أو تخزينه في عقد بيانات فردية. تسمى أجزاء الملف هذه بالكتل. بمعنى آخر، الحد الأدنى من البيانات التي يمكن لـ HDFS قراءتها أو كتابتها يسمى كتلة. حجم الكتلة الافتراضي هو 64 ميجابايت، ولكن يمكن زيادته حسب الحاجة إلى التغيير في تكوين HDFS.
أهداف HDFS
اكتشاف الأخطاء واستعادتها – نظرًا لأن HDFS يتضمن عددًا كبيرًا من الأجهزة السلعية، فإن فشل المكونات أمر متكرر. لذلك يجب أن يكون لدى HDFS آليات للكشف عن الأخطاء واستردادها بشكل سريع وتلقائي.
مجموعات بيانات ضخمة – يجب أن يحتوي HDFS على مئات العقد لكل مجموعة لإدارة التطبيقات التي تحتوي على مجموعات بيانات ضخمة.
الأجهزة في البيانات – يمكن تنفيذ المهمة المطلوبة بكفاءة، عندما تتم العملية الحسابية بالقرب من البيانات. خاصة عندما يتعلق الأمر بمجموعات بيانات ضخمة، فهذا يقلل من حركة مرور الشبكة ويزيد من الإنتاجية.