جدول المحتوى
دورة حياة التنقيب عن البيانات التقليدية
من أجل توفير إطار لتنظيم العمل الذي تحتاجه المؤسسة وتقديم رؤى واضحة من البيانات الضخمة، من المفيد التفكير فيها كدورة ذات مراحل مختلفة. إنها ليست خطية بأي حال من الأحوال، مما يعني أن جميع المراحل مرتبطة ببعضها البعض. تحتوي هذه الدورة على أوجه تشابه سطحية مع دورة استخراج البيانات التقليدية كما هو موضح في منهجية CRISP.
منهجية CRISP-DM
إن منهجية CRISP-DM التي تشير إلى العملية القياسية عبر الصناعة لاستخراج البيانات، هي دورة تصف الأساليب شائعة الاستخدام التي يستخدمها خبراء استخراج البيانات لمعالجة المشكلات في التنقيب التقليدي عن بيانات ذكاء الأعمال. ولا يزال يُستخدم في فرق استخراج بيانات ذكاء الأعمال التقليدية.
تم تصميم RISP-DM في عام 1996، وفي العام التالي، بدأ تنفيذه كمشروع للاتحاد الأوروبي في إطار مبادرة تمويل ESPRIT. تمت قيادة المشروع من قبل خمس شركات: SPSS، وTeradata، وDaimler AG، وNCR Corporation، وOHRA (شركة تأمين). وأخيراً تم دمج المشروع في برنامج SPSS. المنهجية مفصلة للغاية وموجهة نحو كيفية تحديد مشروع استخراج البيانات.
دعونا الآن نتعلم المزيد عن كل مرحلة من المراحل التي تنطوي عليها دورة حياة CRISP-DM –
فهم الأعمال – تركز هذه المرحلة الأولية على فهم أهداف المشروع ومتطلباته من منظور الأعمال، ثم تحويل هذه المعرفة إلى تعريف لمشكلة استخراج البيانات. يتم وضع خطة أولية لتحقيق الأهداف. يمكن استخدام نموذج القرار، خاصة النموذج الذي تم إنشاؤه باستخدام نموذج القرار ومعيار التدوين.
فهم البيانات – تبدأ مرحلة فهم البيانات بجمع بيانات أولية وتستمر في الأنشطة من أجل التعرف على البيانات، أو تحديد مشاكل جودة البيانات، أو اكتشاف الرؤى الأولى حول البيانات، أو اكتشاف مجموعات فرعية مثيرة للاهتمام لتكوين فرضيات لأشياء مخفية معلومة.
إعداد البيانات – تغطي مرحلة إعداد البيانات جميع الأنشطة اللازمة لإنشاء مجموعة البيانات النهائية (البيانات التي سيتم إدخالها في أداة (أدوات) النمذجة)) من البيانات الأولية الأولية. من المرجح أن يتم تنفيذ مهام إعداد البيانات عدة مرات، وليس بأي ترتيب محدد. تشمل المهام اختيار الجدول والسجل والسمات بالإضافة إلى تحويل البيانات وتنظيفها لأدوات النمذجة.
النمذجة – في هذه المرحلة، يتم اختيار تقنيات النمذجة المختلفة وتطبيقها ومعايرة معلماتها إلى القيم المثلى. عادة، هناك عدة تقنيات لنفس نوع مشكلة استخراج البيانات. بعض التقنيات لها متطلبات محددة على شكل البيانات. لذلك، غالبًا ما يُطلب الرجوع إلى مرحلة إعداد البيانات.
التقييم – في هذه المرحلة من المشروع، قمت ببناء نموذج (أو نماذج) يبدو أنه يتمتع بجودة عالية، من منظور تحليل البيانات. قبل الشروع في النشر النهائي للنموذج، من المهم تقييم النموذج بدقة ومراجعة الخطوات التي تم تنفيذها لبناء النموذج، للتأكد من أنه يحقق أهداف العمل بشكل صحيح.
الهدف الرئيسي هو تحديد ما إذا كانت هناك بعض القضايا التجارية المهمة التي لم يتم أخذها في الاعتبار بشكل كافٍ. وفي نهاية هذه المرحلة، ينبغي التوصل إلى قرار بشأن استخدام نتائج التنقيب في البيانات.
النشر – لا يعد إنشاء النموذج عمومًا نهاية المشروع. حتى لو كان الغرض من النموذج هو زيادة المعرفة بالبيانات، فإن المعرفة المكتسبة ستحتاج إلى تنظيمها وتقديمها بطريقة مفيدة للعميل.
اعتمادًا على المتطلبات، يمكن أن تكون مرحلة النشر بسيطة مثل إنشاء تقرير أو معقدة مثل تنفيذ تسجيل بيانات متكرر (مثل تخصيص القطاع) أو عملية استخراج البيانات.
في العديد من الحالات، سيكون العميل، وليس محلل البيانات، هو الذي سيقوم بتنفيذ خطوات النشر. حتى إذا قام المحلل بنشر النموذج، فمن المهم أن يفهم العميل مقدمًا الإجراءات التي يجب تنفيذها من أجل الاستفادة فعليًا من النماذج التي تم إنشاؤها.
منهجية SEMMA
SEMMA هي منهجية أخرى طورتها SAS لنمذجة استخراج البيانات. إنها تعني العينة والاستكشاف والتعديل والنموذج والتقييمات. وفيما يلي وصف موجز لمراحله –
العينة – تبدأ العملية بأخذ عينات من البيانات، على سبيل المثال، اختيار مجموعة البيانات للنمذجة. يجب أن تكون مجموعة البيانات كبيرة بما يكفي لتحتوي على معلومات كافية لاسترجاعها، ولكن صغيرة بما يكفي لاستخدامها بكفاءة. تتناول هذه المرحلة أيضًا تقسيم البيانات.
الاستكشاف – تغطي هذه المرحلة فهم البيانات من خلال اكتشاف العلاقات المتوقعة وغير المتوقعة بين المتغيرات، وكذلك الشذوذات، بمساعدة تصور البيانات.
التعديل – تحتوي مرحلة التعديل على طرق لتحديد المتغيرات وإنشائها وتحويلها استعدادًا لنمذجة البيانات.
النموذج – في مرحلة النموذج، ينصب التركيز على تطبيق تقنيات النمذجة المختلفة (استخراج البيانات) على المتغيرات المعدة من أجل إنشاء نماذج من المحتمل أن توفر النتيجة المرجوة.
التقييم – يوضح تقييم نتائج النمذجة مدى موثوقية وفائدة النماذج التي تم إنشاؤها.
يتمثل الاختلاف الرئيسي بين CRISM-DM وSEMMA في أن SEMMA تركز على جانب النمذجة، في حين تعطي CRISP-DM أهمية أكبر لمراحل الدورة السابقة للنمذجة مثل فهم مشكلة العمل التي يتعين حلها، وفهم البيانات ومعالجتها مسبقًا تستخدم كمدخلات، على سبيل المثال، خوارزميات التعلم الآلي.
دورة حياة البيانات الضخمة
وفي سياق البيانات الضخمة اليوم، فإن الأساليب السابقة إما غير مكتملة أو دون المستوى الأمثل. على سبيل المثال، تتجاهل منهجية SEMMA تمامًا جمع البيانات والمعالجة المسبقة لمصادر البيانات المختلفة. تشكل هذه المراحل عادةً معظم العمل في مشروع البيانات الضخمة الناجح.
يمكن وصف دورة تحليل البيانات الضخمة بالمرحلة التالية –
تعريف مشكلة العمل
بحث
تقييم الموارد البشرية
الحصول على البيانات
تجميع البيانات
مخزن البيانات
تحليل البيانات استكشافية
إعداد البيانات للنمذجة والتقييم
النمذجة
التطبيق
تعريف مشكلة العمل
هذه نقطة شائعة في دورة حياة تحليلات ذكاء الأعمال والبيانات الضخمة التقليدية. عادةً ما تكون مرحلة غير تافهة من مشروع البيانات الضخمة تحديد المشكلة وتقييم مقدار المكاسب المحتملة التي قد تحققها للمؤسسة بشكل صحيح. يبدو ذكر ذلك واضحا، ولكن لا بد من تقييم ما هي المكاسب والتكاليف المتوقعة للمشروع.
البحث
قم بتحليل ما فعلته الشركات الأخرى في نفس الموقف. يتضمن ذلك البحث عن حلول مناسبة لشركتك، على الرغم من أنها تتضمن تكييف حلول أخرى مع الموارد والمتطلبات التي تمتلكها شركتك. وفي هذه المرحلة يجب تحديد منهجية للمراحل المقبلة.
تقييم الموارد البشرية
بمجرد تحديد المشكلة، فمن المعقول الاستمرار في تحليل ما إذا كان الموظفون الحاليون قادرين على إكمال المشروع بنجاح. قد لا تكون فرق ذكاء الأعمال التقليدية قادرة على تقديم الحل الأمثل لجميع المراحل، لذلك يجب أخذها في الاعتبار قبل بدء المشروع إذا كانت هناك حاجة إلى الاستعانة بمصادر خارجية لجزء من المشروع أو توظيف المزيد من الأشخاص.
الحصول على البيانات
يعد هذا القسم أساسيًا في دورة حياة البيانات الضخمة؛ فهو يحدد نوع الملفات الشخصية المطلوبة لتسليم منتج البيانات الناتج. جمع البيانات هو خطوة غير تافهة من العملية؛ يتضمن عادةً جمع بيانات غير منظمة من مصادر مختلفة. على سبيل المثال، يمكن أن يتضمن ذلك كتابة زاحف لاسترداد المراجعات من موقع ويب. يتضمن ذلك التعامل مع النص، ربما بلغات مختلفة، مما يتطلب عادةً قدرًا كبيرًا من الوقت لإكماله.
تجميع البيانات
بمجرد استرداد البيانات، على سبيل المثال، من الويب، يجب تخزينها بتنسيق سهل الاستخدام. لمواصلة أمثلة المراجعات، لنفترض أنه تم استرداد البيانات من مواقع مختلفة حيث يحتوي كل منها على عرض مختلف للبيانات.
لنفترض أن أحد مصادر البيانات يقدم مراجعات من حيث التصنيف بالنجوم، وبالتالي فمن الممكن قراءة ذلك على أنه تعيين لمتغير الاستجابة y ∈ {1, 2, 3, 4, 5}. يقدم مصدر بيانات آخر مراجعات باستخدام نظام سهمين، أحدهما للتصويت الإيجابي والآخر للتصويت السلبي. قد يعني هذا وجود متغير استجابة بالصيغة y ∈ {إيجابي، سلبي}.
ومن أجل الجمع بين مصدري البيانات، يجب اتخاذ قرار لجعل تمثيلي الاستجابة هذين متكافئين. يمكن أن يتضمن ذلك تحويل تمثيل استجابة مصدر البيانات الأول إلى النموذج الثاني، مع الأخذ في الاعتبار نجمة واحدة سلبية وخمس نجوم إيجابية. غالبًا ما تتطلب هذه العملية تخصيص وقت كبير ليتم تسليمها بجودة جيدة.
مخزن البيانات
بمجرد معالجة البيانات، يلزم أحيانًا تخزينها في قاعدة بيانات. توفر تقنيات البيانات الضخمة الكثير من البدائل فيما يتعلق بهذه النقطة. البديل الأكثر شيوعًا هو استخدام نظام ملفات Hadoop للتخزين الذي يوفر للمستخدمين إصدارًا محدودًا من SQL، يُعرف باسم HIVE Query Language. يتيح ذلك إجراء معظم مهام التحليلات بطرق مماثلة كما هو الحال في مستودعات بيانات ذكاء الأعمال التقليدية، من وجهة نظر المستخدم. خيارات التخزين الأخرى التي يجب أخذها في الاعتبار هي MongoDB وRedis وSPARK.
ترتبط هذه المرحلة من الدورة بمعرفة الموارد البشرية من حيث قدراتها على تنفيذ البنى المختلفة. لا تزال الإصدارات المعدلة من مستودعات البيانات التقليدية تُستخدم في التطبيقات واسعة النطاق. على سبيل المثال، توفر teradata وIBM قواعد بيانات SQL يمكنها التعامل مع تيرابايت من البيانات؛ لا تزال الحلول مفتوحة المصدر مثل postgreSQL وMySQL تُستخدم في التطبيقات واسعة النطاق.
على الرغم من وجود اختلافات في كيفية عمل وحدات التخزين المختلفة في الخلفية، من جانب العميل، توفر معظم الحلول واجهة برمجة تطبيقات SQL. ومن ثم فإن الفهم الجيد لـ SQL لا يزال يمثل مهارة أساسية لتحليلات البيانات الضخمة.
يبدو أن هذه المرحلة هي الموضوع الأكثر أهمية، ولكن من الناحية العملية، هذا غير صحيح. إنها ليست حتى مرحلة أساسية. من الممكن تنفيذ حل البيانات الضخمة الذي يعمل مع البيانات في الوقت الفعلي، لذلك في هذه الحالة، نحتاج فقط إلى جمع البيانات لتطوير النموذج ثم تنفيذه في الوقت الفعلي. لذلك لن تكون هناك حاجة لتخزين البيانات رسميًا على الإطلاق.
تحليل البيانات استكشافية
بمجرد تنظيف البيانات وتخزينها بطريقة يمكن من خلالها استرجاع الرؤى منها، تصبح مرحلة استكشاف البيانات إلزامية. الهدف من هذه المرحلة هو فهم البيانات، ويتم ذلك عادة باستخدام التقنيات الإحصائية وكذلك رسم البيانات. هذه مرحلة جيدة لتقييم ما إذا كان تعريف المشكلة منطقيًا أم ممكنًا.
إعداد البيانات للنمذجة والتقييم
تتضمن هذه المرحلة إعادة تشكيل البيانات التي تم تنظيفها والتي تم استردادها مسبقًا واستخدام المعالجة الإحصائية المسبقة لتضمين القيم المفقودة، والكشف عن القيم المتطرفة، والتطبيع، واستخراج الميزات واختيار الميزات.
النمذجة
ينبغي أن تكون المرحلة السابقة قد أنتجت عدة مجموعات بيانات للتدريب والاختبار، على سبيل المثال، نموذج تنبؤي. تتضمن هذه المرحلة تجربة نماذج مختلفة والتطلع إلى حل مشكلة العمل المطروحة. من الناحية العملية، من المرغوب عادةً أن يعطي النموذج بعض المعلومات عن الأعمال. وأخيرًا، يتم اختيار أفضل نموذج أو مجموعة من النماذج لتقييم أدائها على مجموعة بيانات مهملة.
التطبيق
في هذه المرحلة، يتم تنفيذ منتج البيانات الذي تم تطويره في خط بيانات الشركة. يتضمن ذلك إعداد نظام التحقق أثناء عمل منتج البيانات، من أجل تتبع أدائه. على سبيل المثال، في حالة تنفيذ نموذج تنبؤي، ستتضمن هذه المرحلة تطبيق النموذج على البيانات الجديدة وبمجرد توفر الاستجابة، قم بتقييم النموذج.