نظرا لظهور التقنيات والأجهزة ووسائل الاتصال الجديدة مثل مواقع الشبكات الاجتماعية، فإن كمية البيانات التي تنتجها البشرية تتزايد بسرعة كل عام. بلغت كمية البيانات التي أنتجها منذ بداية الزمن وحتى عام 2003 5 مليار جيجا بايت. إذا قمت بتجميع البيانات على شكل أقراص، فقد تملأ ملعب كرة قدم بأكمله. وقد تم خلق نفس الكمية كل يومين في عام 2011، وكل عشر دقائق في عام 2013. ولا يزال هذا المعدل ينمو بشكل هائل. وعلى الرغم من أن كل هذه المعلومات المنتجة ذات معنى ويمكن أن تكون مفيدة عند معالجتها، إلا أنها تتعرض للإهمال.
ما هي البيانات الضخمة؟
البيانات الضخمة هي مجموعة من مجموعات البيانات الكبيرة التي لا يمكن معالجتها باستخدام تقنيات الحوسبة التقليدية. وهي ليست تقنية أو أداة واحدة، بل أصبحت موضوعا كاملا، يتضمن أدوات وتقنيات وأطرا مختلفة.
ما الذي يأتي تحت البيانات الضخمة؟
تتضمن البيانات الضخمة البيانات التي تنتجها الأجهزة والتطبيقات المختلفة. فيما يلي بعض المجالات التي تندرج تحت مظلة البيانات الضخمة.
بيانات الصندوق الأسود Black Box Data – هو أحد مكونات طائرات الهليكوبتر والطائرات والطائرات النفاثة، وما إلى ذلك. فهو يلتقط أصوات طاقم الرحلة، وتسجيلات الميكروفونات وسماعات الأذن، ومعلومات أداء الطائرة.
بيانات وسائل التواصل الاجتماعي Social Media Data – تحتوي وسائل التواصل الاجتماعي مثل Facebook وTwitter على معلومات وآراء ينشرها ملايين الأشخاص حول العالم.
بيانات البورصة Stock Exchange Data – تحتوي بيانات البورصة على معلومات حول قرارات “الشراء” و”البيع” المتخذة على حصة من الشركات المختلفة التي اتخذها العملاء.
بيانات شبكة الطاقة Power Grid Data – تحتوي بيانات شبكة الطاقة على المعلومات التي تستهلكها عقدة معينة فيما يتعلق بالمحطة الأساسية.
بيانات النقل Transport Data – تتضمن بيانات النقل طراز السيارة وقدرتها ومسافتها ومدى توفرها.
بيانات محرك البحث Search Engine Data – تسترد محركات البحث الكثير من البيانات من قواعد بيانات مختلفة.
وبالتالي تتضمن البيانات الضخمة حجمًا ضخمًا وسرعة عالية ومجموعة متنوعة من البيانات القابلة للتوسيع. البيانات الموجودة فيه ستكون على ثلاثة أنواع.
البيانات المنظمة – البيانات العلائقية Structured data − Relational data.
البيانات شبه المنظمة – بيانات XML Semi Structured data − XML data.
البيانات غير المنظمة – Word وPDF والنص وسجلات الوسائط Unstructured data − Word, PDF, Text, Media Logs.
فوائد البيانات الضخمة Benefits of Big Data
باستخدام المعلومات المحفوظة في شبكة التواصل الاجتماعي مثل فيسبوك، تتعرف وكالات التسويق على الاستجابة لحملاتها وعروضها الترويجية ووسائل الإعلان الأخرى.
باستخدام المعلومات الموجودة في وسائل التواصل الاجتماعي مثل التفضيلات وتصور المنتج للمستهلكين، تخطط شركات المنتجات ومؤسسات البيع بالتجزئة لإنتاجها.
باستخدام البيانات المتعلقة بالتاريخ الطبي السابق للمرضى، تقدم المستشفيات خدمة أفضل وسريعة.
تقنيات البيانات الضخمة Big Data Technologies
تعتبر تقنيات البيانات الضخمة مهمة في توفير تحليل أكثر دقة، مما قد يؤدي إلى اتخاذ قرارات أكثر واقعية مما يؤدي إلى زيادة الكفاءة التشغيلية وخفض التكاليف وتقليل المخاطر التي تواجه الأعمال.
للاستفادة من قوة البيانات الضخمة، ستحتاج إلى بنية تحتية يمكنها إدارة ومعالجة كميات ضخمة من البيانات المنظمة وغير المنظمة في الوقت الفعلي، ويمكنها حماية خصوصية البيانات وأمانها.
هناك تقنيات مختلفة في السوق من بائعين مختلفين بما في ذلك Amazon، وIBM، وMicrosoft، وما إلى ذلك، للتعامل مع البيانات الضخمة. أثناء النظر في التقنيات التي تتعامل مع البيانات الضخمة، نقوم بدراسة الفئتين التاليتين من التكنولوجيا –
البيانات الضخمة التشغيلية Operational Big Data
يتضمن ذلك أنظمة مثل MongoDB التي توفر إمكانات تشغيلية لأحمال العمل التفاعلية في الوقت الفعلي حيث يتم التقاط البيانات وتخزينها بشكل أساسي.
تم تصميم أنظمة NoSQL Big Data للاستفادة من بنيات الحوسبة السحابية الجديدة التي ظهرت خلال العقد الماضي للسماح بإجراء عمليات حسابية ضخمة بتكلفة منخفضة وبكفاءة. وهذا يجعل إدارة أعباء عمل البيانات الضخمة التشغيلية أسهل بكثير، وأرخص، وأسرع في التنفيذ.
يمكن لبعض أنظمة NoSQL تقديم رؤى حول الأنماط والاتجاهات بناءً على البيانات في الوقت الفعلي مع الحد الأدنى من الترميز ودون الحاجة إلى علماء بيانات وبنية تحتية إضافية.
البيانات التحليلية الضخمة Analytical Big Data
يتضمن ذلك أنظمة مثل أنظمة قواعد بيانات المعالجة المتوازية الضخمة (MPP) وMapReduce التي توفر إمكانات تحليلية للتحليل الاسترجاعي والمعقد الذي قد يمس معظم البيانات أو جميعها.
يوفر MapReduce طريقة جديدة لتحليل البيانات مكملة للإمكانيات التي توفرها SQL، ونظام يعتمد على MapReduce يمكن توسيع نطاقه من خوادم فردية إلى آلاف الأجهزة العالية والمنخفضة.
هاتان الفئتان من التكنولوجيا متكاملتان ويتم نشرهما معًا بشكل متكرر.
تحديات البيانات الضخمة Big Data Challenges
التحديات الرئيسية المرتبطة بالبيانات الضخمة هي كما يلي (التقاط البيانات ، معالجة ، تخزين ، البحث ، المشاركة ، التحويل ، التحليل ، التقديم).
لتحقيق التحديات المذكورة أعلاه، عادةً ما تستعين المؤسسات بخوادم المؤسسة.