Ce projet de régression vise à modéliser et à prédire l'efficacité quotidienne des employés d'usine. L'objectif est d'identifier les facteurs clés de performance (KPP) les plus influents afin d'éclairer les stratégies d'amélioration de la productivité.
Source : Dataset Factory Workers Daily Performance & Attrition (Kaggle)
- Volume : 411,948 observations
- Variable Cible :
actual_efficacy_h(Efficacité réelle de l'employé) - Caractéristiques : Âge, traits de personnalité, informations superviseur, données temporelles, facteurs organisationnels
Question centrale : Les traits de personnalité et caractéristiques intrinsèques de l'employé déterminent-ils son efficacité ?
traits = ['actual_efficacy_h', 'sub_sex', 'sub_age', 'sub_health_h',
'sub_commitment_h', 'sub_perceptiveness_h', 'sub_sociality_h',
'sub_goodness_h', 'sub_strength_h', 'sub_openmindedness_h']- Nettoyage : Suppression des lignes avec valeurs manquantes sur les traits sélectionnés
- Encodage : Variable
sub_sexencodée (F=0, M=1) - Analyse de Corrélation : Découverte cruciale - Corrélations de Pearson ≤ |0.12|, confirmant l'absence de relation linéaire
RandomForestRegressor sélectionné pour sa capacité à capturer les relations non-linéaires et les interactions complexes.
- R² Score : 0.180 (18% de variance expliquée)
- RMSE : 0.359
- Train/Test Split : 70/30 avec random_state=42
❌ Hypothèse réfutée : Les traits intrinsèques seuls n'expliquent que 18% de la variance d'efficacité. Cette découverte rend indispensable l'intégration de facteurs contextuels et environnementaux.
Thèse : L'environnement de travail, le management et les facteurs contextuels sont des prédicteurs plus puissants que les traits intrinsèques.
- Hypothèse → Test → Validation → Refinement
- Chaque itération construit sur les découvertes de la précédente
- Focus sur la chronologie des découvertes pour traçabilité
- R² Score : Qualité d'explication du modèle
- RMSE : Erreur de prédiction moyenne
- Comparaison inter-itérations : Évolution des performances
notebooks/
├── 01_EDA_Preprocessing.ipynb # Itération 1 : Analyse et préparation
├── 02_Training_Model.ipynb # Itération 1 : Entraînement du modèle
└── readme.md # Documentation chronologique
data/
├── data.csv # Dataset original
├── X_train.csv, X_test.csv # Données d'entraînement (Itération 1)
└── y_train.csv, y_test.csv # Labels d'entraînement (Itération 1)
- La performance humaine n'est pas linéaire - Validation par corrélations faibles
- Les traits intrinsèques sont insuffisants - Seulement 18% de variance expliquée
- Nécessité d'intégrer le contexte environnemental - Focus sur l'Itération 2
Cette documentation suit une approche chronologique pour permettre le suivi des décisions et faciliter les itérations futures.