أساس أي تطبيق للتعلم الآلي هو البيانات – ليست مجرد بيانات صغيرة ولكن بيانات ضخمة تسمى البيانات الضخمة بالمصطلحات الحالية.
لتدريب الآلة على تحليل البيانات الضخمة، يجب أن يكون لديك عدة اعتبارات بشأن البيانات.
يجب أن تكون البيانات نظيفة.
يجب ألا يحتوي على قيم فارغة.
علاوة على ذلك، لن تكون جميع الأعمدة الموجودة في جدول البيانات مفيدة لنوع التحليلات التي تحاول تحقيقها. يجب إزالة أعمدة البيانات أو “الميزات” غير ذات الصلة، كما هو محدد في مصطلحات التعلم الآلي، قبل إدخال البيانات في خوارزمية التعلم الآلي.
باختصار، تحتاج بياناتك الضخمة إلى الكثير من المعالجة المسبقة قبل أن يتم استخدامها في التعلم الآلي. بمجرد أن تصبح البيانات جاهزة، يمكنك تطبيق خوارزميات التعلم الآلي المختلفة مثل التصنيف والانحدار والتجميع وما إلى ذلك لحل المشكلة في نهايتك.
يعتمد نوع الخوارزميات التي تطبقها إلى حد كبير على معرفتك بالمجال. حتى ضمن نفس النوع، على سبيل المثال التصنيف، هناك العديد من الخوارزميات المتاحة. قد ترغب في اختبار الخوارزميات المختلفة ضمن نفس الفصل لبناء نموذج فعال للتعلم الآلي. وأثناء القيام بذلك، فإنك تفضل تصور البيانات المعالجة وبالتالي تحتاج أيضًا إلى أدوات تصور.
في الدروس القادمة، ستتعرف على Weka، وهو برنامج ينجز كل ما سبق بسهولة ويتيح لك العمل مع البيانات الضخمة بشكل مريح.