ماذا تعرف عن التنقيب في البيانات – Data mining ؟

0
هناك قصة شهيرة تُعد اسطورة شعبية في هذا المجال، منذ عدة أعوام أرادت شركة Walmart زيادة أرباحها دون أي ارتفاع في التكاليف، اقترح أحدهم ملاحظة سلوك العامة في الشراء لذا طبقت الشركة طريقة شهيرة هي Market basket analysis لملاحظة أنماط الشراء وفوجئت الشركة بمُنتجين يتم بيعهما دائماً مع بعضهما البعض وهما الحفاضات والبيرة!
تم تفسير هذا السلوك لاحقاً بطلب السيدات من ازواجهم شراء الحفاضات في طريق عودتهم من العمل، بالتالي الزوج و بما إنه قد انتهي من عمله و بدافع من ضيقه من طلب زوجته فهو يرغب في الاسترخاء قليلاً بشرب بعض البيرة المثلجة .
data mining 2
تعتمد تقنية Market basket analysis علي مدى الارتباط أو Association و في حالتنا هذه خرجنا بسؤال مهم و هو “ما هي المنتجات المرتبطة ببعضها و التي تبُاع بكثافة ؟ “و اكتشفوا ان تلك المنتجات هي الحفاضات و البيرة و باستخدام التنميط – Profiling اكتشفوا أن عادة من يتبع هذا النمط هم الرجال فوضعوا المنتجين بجانب بعضهم البعض بجانب زيادة عدد علب البيرة أو وضع خصومات عليها لزيادة مبيعاتها .

إذاً ما هو التنقيب في البيانات – Data mining ؟

هي عملية دمج الطرق التقليدية لتحليل البيانات مع خوارزميات معقدة من أجل استخلاص معلومات دقيقة، مفيدة من بين كم هائل من البيانات غير المستخدمة، قد تُستخدم تلك البيانات فيما بعد في التوقع بحدث ما في المستقبل .

 تنقسم البيانات عادةً إلي ثلاثة أقسام :

  1. بيانات في صورتها الخام دون أي فحص أو تحليل و تُسمى Data.
  2. بيانات تم تحليلها و استخلاص بعض المعلومات البسيطة منها و تُسمى Information.
  3. معلومات تم استخلاصها بطرق أكثر تعقيداً و إذا ما تم إضافتها إلي خبرة المُحلّل يصبح بحوزتنا ما يُسميKnowledge.

مراحل عملية التنقيب – Mining :

  • التحليل المبدئي و التحويل – PREPROCESSING & TRANSFORMATION :-
يتم في تلك المرحلة تحويل البيانات الخام المختلفة في شكلها و صياغتها إلى شكل عام موحد لمرحلة التحليل اللاحقة، تُعد هذه المرحلة هي الأكثر استهلاكاً للوقت و الجهد.
  • التصفية و التقييم – EVALUATION & FILTERATION :-
تتضمن هذه المرحلة التأكيد علي صلاحية و فائدة النتائج المستخلصة كي يتم دمجها في عملية صنع القرار .

تواجه عملية التنقيب عدة تحديات نوجزها فيما يلي :-

  • القدرة علي الاستيعاب و التوسع – SCALABILITY :-
و تقيس مدي قدرة الخوارزميات الموجودة حالياً على معالجة القدر الضخم و الهائل من البيانات .
  • البعدية الكبيرة – HIGH DIMENSIONALITY :-
تحتوي البيانات الآن علي آلاف الخصائص المختلفة بالتالي لن تستطيع الطرق التقليدية للتحليل معالجتها بشكل سليم .
  • البيانات المعقدة و المتغيرة الخواص – HETEROGENOUS AND COMPLEX DATA :-
تتعامل الطرق التقليدية للتحليل عادةً مع بيانات ذات سمات موحدة ، علي عكس بيانات الحمض النووي علي سبيل المثال .
  • ملكية البيانات – DATA OWNERSHIP :-
احياناً نحتاج إلى بيانات غير مُخزنة في مكان ثابت و لا تنتمي لمؤسسة بمفردها مما يتطلب منا تطوير تقنيات لتوزيع تلك البيانات بأمان .
  • التحليل غير التقليدي – NON- TRADITIONAL ANALYSIS :-
العديد من طرق التحليل تتطلب إبداع و تقييم الالاف من الفرضيات و بالتالي لابد من تحديث تقنيات التنقيب في البيانات من أجل تطوير تلك الفرضيات آلياً في المستقبل .
كي يؤدي التنقيب في البيانات مهمته بنجاح، تم تزويده بمجموعة خوارزميات كل منها لها وظيفة و دور محدد تقوم به، يُعتبر اختيار الخوارزمية الصحيحة عمل ليس سهلاً على الإطلاق فكل خوارزمية تُظهر نتيجة مختلفة عما إذا كنت قد استخدمت خوارزمية أخرى

بعض الخوارزميات المستخدمة :-

  • CLASSIFICATION
يُستخدم في تحديد مدي مطابقة الفرضيات الجديدة لأي من الفئات المحددة سلفاً.
بفرض اننا نريد كشف جرائم الاحتيال بالنسبة لبطاقات الائتمان، في البدء نستخدم العمليات السابقة التي اُجريت للبطاقة مثل : المنتجات التي يشتريها صاحبها عادةً، هل يدفع في الأوقات المحددة أم لا ؟ ، ثم نصنف تلك العمليات باعتبارها صحيحة أم لا، بعدها نحدد نمط معين تجري فيه مثل هذه التعاملات .. (كأن يدفع صاحبها اشتراك النادي ثم يدخل سينما ما بعدها) .. نستخدم هذا النمط فيما بعد لكشف الاحتيال المصرفي.
  • REGRESSION
تقيس مدي الارتباط بين المتغيرات المختلفة، فهي تتنبأ بقيمة متغير معين بناءً على قيم متغير أخر .
علي سبيل المثال : توقع عائد بيع منتج جديد بناءً علي قيمة إعلاناته .
  • CLUSTERING
تسعي تلك الطريقة الى تصنيف المعلومات الى كتل متشابهة في خصائصها بالتالي كل كتلة تكون متشابهة في خصائصها عن الكتلة الأخرى .
مثال علي ذلك هو Document clustering ، الهدف هنا هو تصنيف الوثائق الي مجموعات متشابهة بناءً علي أهمية المصطلحات الواردة بها بالتالي يتم تقييم المصطلحات الواردة باستمرار في كل وثيقة مع إنشاء وحدة قياس تماثلية – Similarity measure تحدد عدد الكلمات المشتركة في تلك الوثائق .
data mining 3
  • SEQUENTIAL PATTERN DISCOVERY
و هو اكتشاف نمط متكرر بترتيب معين كشراء ادوية للبرد يتبعها اغذية معينة تساعد علي تخفيف المرض .
  • ANOMALY DETECTION
و هو كشف الانحرافات الملحوظة عن السلوكيات المعتادة ، مثال علي ذلك هو التطفل الشبكي – Network intrusion فقد نلحظ احياناً زيادة مفاجئة و عالية علي اتصال شبكي ما مما قد يدل علي وجود هجمات الحرمان من الخدمات –  Denial of service attack أو اختصاراً DOS .
تركز عملية التنقيب عامةً علي اكتشاف و حل المشاكل المتعلقة بجودة البيانات و كذا استخدام الخوارزمية الافضل في التعامل مع بيانات ذات جودة سيئة ، فمن غير المنطقي افتراض وجود بيانات ذات جودة عالية حيث توجد عوامل كثيرة قد تحول دون ذلك كالأخطاء البشرية .

بعض العوامل المتسببة في تقليل جودة البيانات :-

  • NOISE
يشير مصطلح الضوضاء أو Noise إلى التغييرات التي تطرأ على قيم البيانات الأصلية كالتشويه الملحوظ في صوت محدثك على الهاتف.
إذا ما زادت نسبة الضوضاء في البيانات دل هذا علي فسادها و عدم صلاحيتها للاستخدام أما إذا كانت النسبة في الحدود المعقولة فينبغي عندئذ استخدام تقنيات التنقيب المختلفة .
  • OUTLIERS
و هي بيانات ذات خصائص مختلفة عن باقي البيانات في مجموعتها، و تختلف Outliers عن Noise حيث يُتطلب منا اكتشاف المتغيرات – Outliers بعكس الضوضاء – Noise التي يُتطلب منا توضيحها و تنقيتها .
  • DATA DUPLICATION
قد تكون البيانات مكررة.
  • TIMELINESS
بعض البيانات تفقد بمرور الوقت أهميتها .
كل ما يظهر لك الآن من إعلانات و عروض سلعية بل حتى اقتراحات الصداقة على مواقع التواصل الاجتماعي تتم بحرفية و عن طريق جمع معلوماتك المتناثرة في الفضاء السيبراني يمكن تقريباً معرفة الكثير و الكثير عنك و أحياناً تُباع تلك المعلومات للشركات بغرض دراستها و اعتصار معلومات دقيقة منها تجبرك في النهاية على الخضوع لإغراءات الشراء و التبضع بعد معرفة خباياك و أمنياتك، نحن في عالم أصبحت الخصوصية فيه وهم يسكن عقول المؤمنين به فقط .