Skip to content

2spy/ML-Employee-Performance

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Prédiction de l'Efficacité des Employés (Analyse Non-Linéaire)

Ce projet de régression vise à modéliser et à prédire l'efficacité quotidienne des employés d'usine. L'objectif est d'identifier les facteurs clés de performance (KPP) les plus influents afin d'éclairer les stratégies d'amélioration de la productivité.


📊 Dataset Source

Source : Dataset Factory Workers Daily Performance & Attrition (Kaggle)

  • Volume : 411,948 observations
  • Variable Cible : actual_efficacy_h (Efficacité réelle de l'employé)
  • Caractéristiques : Âge, traits de personnalité, informations superviseur, données temporelles, facteurs organisationnels

🔄 Chronologie de Découverte et Prise de Décision

Itération 1 : Test de l'Hypothèse des Traits IntrinsèquesCOMPLÉTÉ

A. Définition du Problème Métier

Question centrale : Les traits de personnalité et caractéristiques intrinsèques de l'employé déterminent-ils son efficacité ?

B. Sélection des Variables (Hypothèse Initiale)

traits = ['actual_efficacy_h', 'sub_sex', 'sub_age', 'sub_health_h', 
          'sub_commitment_h', 'sub_perceptiveness_h', 'sub_sociality_h', 
          'sub_goodness_h', 'sub_strength_h', 'sub_openmindedness_h']

C. Pré-traitement et Diagnostic

  1. Nettoyage : Suppression des lignes avec valeurs manquantes sur les traits sélectionnés
  2. Encodage : Variable sub_sex encodée (F=0, M=1)
  3. Analyse de Corrélation : Découverte cruciale - Corrélations de Pearson ≤ |0.12|, confirmant l'absence de relation linéaire

D. Choix du Modèle

RandomForestRegressor sélectionné pour sa capacité à capturer les relations non-linéaires et les interactions complexes.

E. Résultats de l'Itération 1

  • R² Score : 0.180 (18% de variance expliquée)
  • RMSE : 0.359
  • Train/Test Split : 70/30 avec random_state=42

F. Conclusion Critique de l'Itération 1

Hypothèse réfutée : Les traits intrinsèques seuls n'expliquent que 18% de la variance d'efficacité. Cette découverte rend indispensable l'intégration de facteurs contextuels et environnementaux.


Itération 2 : Enrichissement par l'Ingénierie de Caractéristiques 🚧 EN PRÉPARATION

A. Nouvelle Hypothèse

Thèse : L'environnement de travail, le management et les facteurs contextuels sont des prédicteurs plus puissants que les traits intrinsèques.

🎯 Méthodologie de Data Science

Approche Itérative

  1. Hypothèse → Test → Validation → Refinement
  2. Chaque itération construit sur les découvertes de la précédente
  3. Focus sur la chronologie des découvertes pour traçabilité

Métriques de Suivi

  • R² Score : Qualité d'explication du modèle
  • RMSE : Erreur de prédiction moyenne
  • Comparaison inter-itérations : Évolution des performances

📁 Structure du Projet

notebooks/
├── 01_EDA_Preprocessing.ipynb    # Itération 1 : Analyse et préparation
├── 02_Training_Model.ipynb       # Itération 1 : Entraînement du modèle
└── readme.md                     # Documentation chronologique

data/
├── data.csv                      # Dataset original
├── X_train.csv, X_test.csv       # Données d'entraînement (Itération 1)
└── y_train.csv, y_test.csv       # Labels d'entraînement (Itération 1)

🔍 Découvertes Clés

  1. La performance humaine n'est pas linéaire - Validation par corrélations faibles
  2. Les traits intrinsèques sont insuffisants - Seulement 18% de variance expliquée
  3. Nécessité d'intégrer le contexte environnemental - Focus sur l'Itération 2

Cette documentation suit une approche chronologique pour permettre le suivi des décisions et faciliter les itérations futures.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published