نسمع عن الملف الشخصي (Personal Profile) والذي يحتوي معلومات عن شخص معين، كذلك هي البيانات لها ملف شخصي خاص بها وهو ما يسمى (Data Profiling).. تعالوا نتعرف على الملف الشخصي للبيانات، ما فائدته؟ طرق تطبيقه؟ والأدوات التي تساعدنا في تنفيذه
#علم_البيانات https://t.co/kg2zCwH2yH
ملفات تعريف البيانات خطوة مهمة لفهم أعمق للبيانات في مرحلة مبكرة، و تُعرف Data Profiling بأنها الإجراءات التي تساعدنا في فهم بياناتنا، وتتضمن فحص وتحليل وإنشاء ملخصات مفيدة عن البيانات، وتعطي نظرة عامة عالية المستوى تساعد في اكتشاف مشكلات جودة البيانات والمخاطر والاتجاهات العامة https://t.co/balqDqSUWK
البيانات التي نتعامل معها تتكون من صفوف وأعمدة، كل صف يمثل كائن أو شيء في الواقع مثل شخص، كتاب أو سيارة، وكل عمود يمثل خاصية لذلك الشيء، في برنامج أكسل الأعمدة الممثلة بالحروف تمثل الخصائص، والصفوف الممثلة بالأرقام تمثل السجلات وكل سجل يتكون من عدة خصائص مرتبطة بكائن معين https://t.co/Y1hPZp975q
الـ Data Profiling تجيب على الاسئلة التالية:
?هل البيانات كاملة؟ هل هناك قيم مفقودة؟ ما نسبتها؟
?كم عدد القيم الفريدة في كل عمود؟ هل هناك تكرار للصفوف؟
?ماهو توزيع القيم في كل عمود؟
?ما أعلى قيمة؟ أقل قيمة؟ المتوسط؟ الوسيط؟
?ما العلاقات الموجودة بين الخصائص (أعمدة الجدول)؟ https://t.co/xJLmBPyNI2
ثلاث ملفات تُجيب على الاسئلة السابقة:
ملف عمود (Column): لكل عمود حساب عدد القيم الفريدة، تكرارها، القيمة العظمى، الصغرى، المتوسط، المدى
ملف الأعمدة (Cross-column): تحليل العلاقات والتبعيات داخل الجدول
ملف الجداول (Cross-table):تحديد المفاتيح الخارجية، البيانات الزائدة عن الحاجة https://t.co/xbN2Tw7DO7