حالما يتم الإعلان عن توفر وظيفة معينة، تتراكم العشرات بل المئات من السير الذاتية، فلترة هذه السير لاختيار المناسب منها عملية شاقة ومكلفة، تُرى هل يستطيع #علم_البيانات مساعدة الموارد البشرية في حل هذه المشكلة؟
تعالوا نتعرف على حكاية Raman مع صديقه الباحث عن موظفين! https://t.co/6ypzD9m7yM
يقول رامان: حصل أحد الأصدقاء مؤخراَ على مشروع تطلب منه تعيين موظفين في تخصص #علم_البيانات، وضع إعلان على LinkedIn وتفاجأ بوصول مايقارب 200 سيرة ذاتية!، حينما قابلته سألني: هل هناك طريقة لاختيار أفضل السير الذاتية من بين الـ 200 سيرة ذاتية بطريقة أسرع من المرور يدوياً عليها؟
يقول رامان: متطلبات صديقي في المرشح الأول بأن يكون شخص لديه خبرة في #التعلمالعميق مع خوازميات #تعلمالآلة ، ومرشح آخر لديه مجموعة من مهارات العمل على #البياناتالضخمة أو #هندسةالبيانات مثل الخبرة في مجال Scala و AWS و Dockers و Kubernetes ، ...إلخ
قام رامان باستخدام منهجية من 3 خطوات:
1⃣بناء قاموس أو جدول يحتوي على مجموعة كلمات تمثل المهارات المطلوبةفي كل وظيفة
2⃣ بناء خوارزمية NLP لمسح كل سيرة ذاتية للبحث عن الكلمات التي تم تعريفها في القاموس
3⃣ حساب تكرار ظهور الكلمات في كل فئة لكل مترشح، كما في الجدول المرفق https://t.co/vpEzMbtOZW
قام رامان بالبحث عن مكتبة تساعده في مطابقة الكلمات، ووجد Spacy، يقول رامان: لحسن حظي أن السير الذاتية للمتقدمين كانت كلها بصيغة pdf، لذلك قررت فحص حزمتين لقراءة ملفات pdf وهي PDFminer و PyPDF2 ، واخترت الاخيرة ، ولتنفيذ منهجيتي استخدمت Python و لتصوير البيانات استخدمت Matplotlib