This website requires JavaScript to deliver the best possible experience.
مفهوم التنقيب في البيانات وتقنياته المختلفة

مفهوم التنقيب في البيانات وتقنياته المختلفة

التنقيب في البيانات
عندما تفكر في التعدين فأول ما يأتى ببالك هو استخراج الذهب أو الفضة أو أي معادن قيمة آخري. في عالم البيانات الأمر لا يختلف كثيرًا. يمكنك إستخراج البيانات لاكتشاف واستخراج الموارد المخفية والقيمة (الرؤى والمعرفة) والتي تعتبر واحدة من أهم الأصول القيمة لعملك. ولكن تعتبر المعادن موارد محدودة ، بينما البيانات على العكس تمامًا تكون موجودة بوفرة و بلا حدود وقابلة لإعادة الاستخدام.
التنقيب في البيانات

التنقيب في البيانات بمثابة إيجاد إبرة في كومة قش

تخيل أن لديك Petabyte كامل من البيانات التي تعتبر منجمك من الرؤى والمعرفة، ما تبحث عنه بداخلها هي البيانات الثمينة بينما الباقي فهو مجرد نفايات لا فائدة منها.

في هذا المقال سنسلط الضوء على أكبر فائدة من تطبيق التنقيب في البيانات على عملك من خلال مثال حقيقي على الشركات التي قامت بذلك بالفعل، ولكن أولاً دعونا نناقش باختصار ما هو التنقيب في البيانات؟

التنقيب في البيانات Data Mining

وفقا لويكيبيديا هي عملية اكتشاف أنماط من مجموعات كبيرة من البيانات القائمة على أساليب تقاطع كل من التعلم الآلي والإحصاءات وأنظمة قواعد البيانات.

تعريف آخر لها: هي عملية تحليل البيانات من وجهات نظر مختلفة واكتشاف الاختلالات والأنماط والارتباطات الموجودة في مجموعات البيانات التي تكون ثاقبة ومفيدة للتنبؤ بالنتائج التى تساعدك على اتخاذ قرار صائب.

دعنا نعيد مثال التعدين لدينا، عندما تخطط لتنقيب الذهب أو أي معادن قيمة عليك أولاً تحديد المكان الذي تعتقد أنه يوجد به الذهب لتبدأ في الحفر.

التنقيب في البيانات Data Mining

في عملية التنقيب في البيانات لدينا المفهوم ذاته. للتنقيب في البيانات عليك أولًا جمع البيانات من مختلف المصادر، وإعدادها، وتخزينها في مكان واحد، حيث لا يتعلق أي شيء من التنقيب في البيانات بعملية البحث عن البيانات نفسها.

حاليًا، تقوم الشركة بتخزين البيانات في ما يسمى قاعدة بيانات Datawarehouse والتي سنتحدث عنها في مرحلة لاحقة بالتفصيل.

قاعدة بيانات Datawarehouse

تاريخ التنقيب في البيانات

تستخدم شركات التنقيب في البيانات؛ لزيادة الإيرادات وتحسين الإنفاق واستهداف عملاء جدد وتقديم أفضل خدمة للعملاء والاستماع إلى ما يقوله الآخرون وما يقومون به في الذكاء التنافسي. وهذه فقط بعض الاستخدامات.

تاريخ التنقيب في البيانات

على الرغم من أن أصل التنقيب في البيانات يعود إلى التسعينات. إلا أن عملية التنقيب في البيانات لاكتشاف الأنماط المخفية وتوقع النتائج لها تاريخ طويل.

في بعض الأحيان يشار إليها باسم "اكتشاف المعرفة"، فمصطلح " التنقيب عن البيانات" لم يتم صياغته حتى التسعينات. لكن تأسيسه تداخل فيه عدة تخصصات علمية وهي: الإحصاءات (الدراسة العددية لعلاقات البيانات)، الذكاء الاصطناعي (الذكاء الشبيه بالإنسان الذي تعرضه الآلات)، التعلم الآلي (الخوارزميات التي تتعلم من البيانات لتقوم بالتنبؤات) والنطاق المعرفي للأعمال التجارية.

ونتيجة للنمو في هذا المجال، في 1999 عام بدأت عدة شركات كبيرة العمل معًا من أجل تأسيس المعايير والأشكال الرسمية لمنهج التنقيب في البيانات. وكانت نتيجة عملهم CRISP-DM التي ترمز إلى العملية القياسية عبر الصناعة للتنقيب في البيانات.

٦ خطوات في Crisp-DM: عملية التنقيب في البيانات القياسية

٦ خطوات في Crisp-DM: عملية التنقيب في البيانات القياسية

۱.فهم الأعمال التجارية

يتم بناء كل شيء في عملية التنقيب بناءً على تحديد ما تبحث عنه. عليك فهم وتحديد متطلبات العمل من أجل صياغة بيان المشكلة. بمجرد تحديد بيان المشكلة، يمكننا توجيه البيانات تبعًا لذلك.

مثال على بيان المشكلة التي تحتاج إلى إيجاد حل لاستخدام التنقيب في البيانات:

  • كيف يمكنني زيادة هامش الربح لكل وحدة؟
  • كيف تتوقع إصلاح عيوب التصنيع وتجنب شحن منتج معيوب؟

من هنا، تبدأ في تطوير سؤال أكثر تحديدًا عليك الإجابة عليه.

۲. فهم البيانات

نجمع البيانات الأولية في البداية ونفهمها ونتابع أنشطتها للتعرف على البيانات؛ لتحديد جودتها، وعدم تناسقها، ومشاكل الانقرائية، لاكتشاف المستوى المبدئي للأفكار.

في هذه المرحلة، عليك تحديد:

  • من أين جاءت البيانات؟
  • مْن الذي جمعها وهل كان جمعها يتبع الوسائل القياسية؟
  • ماذا تعني الأعمدة والصفوف المختلفة للبيانات؟
  • هل هناك أي اختصارات غير معروفة أو غير واضحة؟
  • وصف البيانات والتحقق من حجمها وفحص خصائصها الإجمالية.
  • إمكانية الوصول وتوافر السمات. أنواع السمات، والارتباطات، والهوايات.
  • فهم معنى كل سمة وقيمتها في مصطلحات الأعمال

۳. إعداد البيانات

يغطي جميع الأنشطة التي تم القيام بها لإنشاء مجموعة البيانات النهائية من البيانات الأولية. لاحظ أن تحويل البيانات الأولية إلى مجموعة بيانات تحليلية يشكل 90٪ من وقت المشروع.

بمجرد تحديد مصادر البيانات، نحتاج إلى اختيار وتوضيح وبناء وتنسيق البيانات في النموذج المطلوب. القيام بمهمة استكشاف البيانات يجب أن تتم بتعمق وتدقيق كبير لملاحظة الأنماط التي يستند عليها فهم الأعمال التجارية.

جودة البيانات التي تم توضيحها أو البيانات النهائية ستؤثر على أداء النموذج في النهائية. كل مُنقب عن البيانات يعرف ويعمل وفقا لقاعدة بسيطة (القمامة في…. القمامة في الخارج).

من المرجح تنفيذ مهام إعداد البيانات عدة مرات وليس خلال ترتيب محدد و يتضمن عددًا من الأنشطة على سبيل المثال:

  • الجمع بين مجموعتي بيانات أو أكثر.
  • تقليل مجموعات البيانات إلى تلك المتغيرات المثيرة للاهتمام في مشكلة معينة في البيانات (هندسة الميزة).
  • تنقية البيانات وتوضيحها(الاختلالات مثل Outliers، والبيانات المفقودة، وإعادة التنسيق)، و(تطهير البيانات)
  • تحقق من عدم وجود بيانات غير متسقة تحتاج إلى التعامل معها.

إعداد البيانات
٤. النمذجة

النموذج: في التنقيب عن البيانات، هو تمثيل حوسبي لملاحظة الكلمة الحقيقية. النماذج هي تطبيقات خوارزمية للبحث وتحديد وعرض أي أنماط أو رسالة في بياناتك. هناك نوعان من النماذج في التنقيب عن البيانات:

  • تصنيفية أو وصفية
  • تنبؤية

النمذجة

في هذه المرحلة، يتم اختيار وتطبيق تقنيات النمذجة المختلفة ويتم تحديد parameters الخاص بها تجاه القيم المُثلى. عادة، هناك العديد من التقنيات التى تستخدم للمشكلة الواحدة في التنقيب عن البيانات. بعض التقنيات لديها متطلبات محددة على شكل البيانات.

لذلك، فإن العودة إلى مرحلة إعداد البيانات تكون ضرورية في كثير من الأحيان. بعض من الخوارزميات الشهيرة هي شجرة القرار، و random forest و KNN و naïve Bayes و K means و انحدار خطي و انحدار لوجستي.

٥. التقييم

في هذه المرحلة يتم تقييم النتيجة في سياق أهداف العمل. الهدف في هذه المرحلة هو تحديد ما إذا كان هناك أي قضية تجارية مهمة لم يتم النظر فيها بشكل كافٍ. في نهاية هذه المرحلة، يجب اتخاذ قرار الانتقال أو عدم الانتقال إلى مرحلة النشر Deployment.

٦. النشر Deployment

هنا نحتاج إلى تحديد كيفية استخدام النتائج. يجب تنظيم المعرفة المكتسبة وعرضها بطريقة يمكن لأصحاب المصلحة استخدامها. ووفقًا للمتطلبات، مرحلة النشر يمكن أن تكون بسيطة مثل إنشاء تقرير، أو معقدة مثل تنفيذ عملية تنقيب في البيانات القابلة للتكرار عبر المؤسسة.

يقدم CRISP-DM إطارًا موحدًا لتوثيق الخبرة والإرشادات العامة. بالإضافة إلى ذلك، يمكن لـ CRISP-DM أن يطبق في صناعات مختلفة بأنواع مختلفة من البيانات.

تقنيات التنقيب عن البيانات

۱. تحليل عنقودي

تحليل المجموعات مثل K-means ، يجمع في الأساس كميات كبيرة من البيانات معًا اعتمادًا على أوجه التشابه في المجموعات أو ما يسمى العنقودية. توضح الصورة أدناه ما قد يبدو عليه التحليل العنقودي.

التحليل العنقودي في التنقيب عن البيانات

فيما تستخدم؟ هناك عدة طرق لاستخلاص المعرفة من التحليلات العنقودية. مثلا في التسويق لأغراض مختلفة. يستخدم تقسيم المستهلكين في التحليل العنقودي على أساس الفوائد المطلوبة من شراء المنتج.

۲. Association Rule Analysis

Association Rule Analysis
Association rule

تقول عندما يشتري أحد العملاء اثنتي عشرة بيضة، فمن المرجح أن يشتري الحليب بنسبة 80٪. إذا اقترحت من قبل منتجات على موقع تجارة إلكترونية استنادًا إلى ما يوجد في سلة تسوقك، فسترى عندئذٍ عملية التنقيب الخاصة والمرتبطة بما قمت به من عمل.

بمعنى آخر: إنه إجراء يهدف إلى مراقبة الأنماط المتكررة أو الارتباطات من مجموعات البيانات.

طبق وول مارت تقنية التنقيب عن البيانات بطريقة فريدة عام 2004 أثناء إعصار فرانسيس. من خلال معاملات التنقيب وبيانات المخزون، اكتشف المحللون أن مبيعات الفراولة البوب تارت كانت في الواقع أعلى بسبعة أضعاف قبل أن يضرب الإعصار. كما تم الكشف عن البيرة باعتبارها البند الأعلى مبيعا. الحصول على هذه البيانات، جعل وول مارت يخزنها.

۳. تحليل الإنحدار

تحليل الإنحدار

يسمى المثال أعلاه بتحليل الانحدار الخطي، والتي تعني في الأساس أنه يمكن رسم خط مستقيم لإظهار كيفية ارتباط كل متغير ببعضه البعض. في هذه الحالة، نرى أنه كلما زاد إجمالي اللبن الزبادي المجمد، ارتفعت درجة الحرارة والعكس صحيح.

إذا كان النشاط التجاري يهدف إلى إجراء تنبؤ استنادًا إلى تأثير أحد المتغيرات على الآخرين، فقد يشير إلى ما يسمى تحليل الانحدار التي تندرج أسفل تقنية التنقيب عن البيانات. يتم استخدامها عبر العديد من الصناعات لتخطيط الأعمال والتسويق، والتنبؤ المالي، والنمذجة البيئية وتحليل الاتجاهات.

الانحدار هو تقنية التنقيب عن البيانات المستخدمة للتنبؤ بمجموعة من القيم العددية(القيم المستمرة)، مع إعطاء مجموعة بيانات معينة.

على سبيل المثال، يمكن استخدام الانحدار للتنبؤ بتكلفة منتج أو خدمة ، مع الأخذ في الاعتبار المتغيرات الأخرى.

٤. تحليل شجرة القرار

تحليل الإنحدار

واحدة من أكثر التقنيات البصرية المستخدمة في عمليات التنقيب عن البيانات، وهي طريقة شائعة لاتخاذ القرارات الهامة. هناك نوعان من تحليلات شجرة القرارات. واحد منهم يسمى التصنيف ، وهو ما تراه في المثال أعلاه لتحديد ما إذا كان الراكب قد نجا على تايتانيك أم لا. التصنيف يعتمد على المنطق، ويستخدم مجموعة متنوعة من الشروط إذا / أو، أو نعم / لا ، حتى يتم تحديد جميع البيانات ذات الصلة.

تسمى شجرة القرارات الأخرى الانحدار، الذي يستخدم عندما يكون القرار المستهدف قيمة رقمية. مثلا: يمكن استخدام الانحدار عند تحديد قيمة المنزل. يمكن تشغيل كل من أشجار القرار من خلال برامج التعلم الآلي أيضًا.

الخلاصة

جميع البيانات التي تجمعها الشركات لن تخدم أي غرض دون اكتشاف المعرفة. يساعد التنقيب عن البيانات للشركات بتصور الأنماط والاتجاهات المخفية في مجموعات البيانات التي ربما لم تكن مرئية من قبل. أيًا كانت الرؤى التي يتم الكشف عنها، ستؤدي إلى اتخاذ قرارات واضحة، مما يعود بالنفع على كل من الشركات والعملاء الذين يخدمونهم وأصحاب المصلحة.

التعليقات

المزيد من المقالات