Admin Assistant OCR

Système intelligent de reconnaissance et d'organisation automatique de documents PDF.

🎯 Fonctionnalités

OCR Automatique : Extraction de texte depuis les PDFs scannés
Renommage Intelligent : Analyse du contenu pour extraire :
- Date du document (format YYYYMMDD)
- Nom du fournisseur/émetteur
- Numéro de facture/référence
Organisation Structurée : Conservation de la structure des dossiers (scan → output)
Traitement en Masse : Multithreading pour traiter plusieurs documents simultanément

📁 Structure du Projet

admin-assistant-ocr/
├── run_windows.bat     # Lancer l'application (Windows)
├── main.py            # Point d'entrée
├── requirements.txt   # Dépendances Python
├── docs/             # Documentation
├── scripts/          # Scripts d'installation
├── src/              # Code source
│   ├── config/       # Configuration
│   ├── controllers/  # Logique métier
│   └── utils/        # Utilitaires
├── scan/            # Dossier d'entrée (PDFs à traiter)
│   └── HN/          # Sous-dossiers par catégorie
├── output/          # Dossier de sortie (PDFs renommés)
└── logs/            # Fichiers de log

🚀 Installation Rapide

Windows

Installation automatique :
```
scripts\install_windows.bat
```
Configuration interactive :
```
python scripts\setup_user_config.py
```
Premier traitement :
```
run_windows.bat
```

📖 Guides détaillés :

🔧 Configuration

Modifier src/config/config.json :

{
  "scan_folder": "scan",
  "sub_folders": ["Devis", "Factures", "Courriers"],
  "output_folder": "output"
}

📝 Format de Sortie

Les PDFs sont renommés automatiquement selon le format :

YYYYMMDD_NomFournisseur_NumeroFacture.pdf

Format CamelCase avec séparateurs pour une meilleure lisibilité :

20240315_Edf_FAC2024001.pdf
20240122_OrangeMobile_REF123456.pdf
20240201_SarlDupont_DEVIS789.pdf
20240810_CaisseEpargne_BDC45678.pdf

🎨 Fonctionnement

Scan : Le système parcourt les dossiers configurés
OCR : Extraction du texte de chaque page du PDF
Analyse : Identification automatique des métadonnées :
- Recherche de dates (multiples formats supportés)
- Détection du fournisseur (mots-clés, en-tête)
- Extraction du numéro de référence
Organisation : Copie du PDF avec nouveau nom dans la structure de sortie

📊 Logs

Les logs sont disponibles dans logs/ avec :

Niveau INFO dans la console
Niveau DEBUG dans les fichiers
Horodatage et traçabilité complète

🛠️ Technologies

Python 3.9+
Tesseract OCR : Moteur de reconnaissance optique
Poppler : Conversion PDF vers images
pytesseract : Interface Python pour Tesseract
pdf2image : Conversion des PDFs
Pillow : Traitement d'images

🧠 Mode Apprentissage

Le système s'améliore automatiquement à chaque utilisation !

Fonctionnement Automatique

📊 Statistiques : Enregistre le taux de succès de chaque extraction
🏢 Fournisseurs fréquents : Apprend vos fournisseurs habituels
📈 Patterns efficaces : Retient ce qui fonctionne bien

Correction Manuelle

Après traitement, vous pouvez corriger les erreurs :

# Réviser les derniers résultats et corriger si nécessaire
python scripts/review_results.py

Processus de correction :

📋 Affiche les extractions récentes
❓ "Cette extraction est-elle correcte ?"
❌ Si NON → Saisir les bonnes valeurs
🧠 Le système apprend et s'améliore

Exemple d'Amélioration

Première fois :

📄 facture_edf.pdf → 20240315_Destinataire_REF123.pdf ❌

Correction :

🏢 Nouveau fournisseur: Edf
✅ Correction enregistrée

Fois suivantes :

📄 autre_facture_edf.pdf → 20240320_Edf_FAC456.pdf ✅
🧠 Pattern reconnu automatiquement

Configuration Personnalisée

Éviter votre adresse : Éditez src/config/profiles/[dossier].json

{
  "user_info": {
    "names": ["Votre Nom"],
    "addresses": ["Votre Adresse"],
    "companies": ["Votre Société"]
  }
}

Mapper les fournisseurs :

{
  "supplier_mappings": {
    "Électricité de France": "Edf",
    "Orange SA": "Orange"
  }
}

📖 Guide complet : docs/CUSTOMIZATION_GUIDE.md

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
.idea		.idea
docs		docs
gui		gui
ocr-venv		ocr-venv
scripts		scripts
src		src
.gitignore		.gitignore
CLAUDE.md		CLAUDE.md
CONFIGURATION.md		CONFIGURATION.md
LICENSE		LICENSE
README.md		README.md
START.bat		START.bat
STRUCTURE.md		STRUCTURE.md
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Admin Assistant OCR

🎯 Fonctionnalités

📁 Structure du Projet

🚀 Installation Rapide

Windows

🔧 Configuration

📝 Format de Sortie

🎨 Fonctionnement

📊 Logs

🛠️ Technologies

🧠 Mode Apprentissage

Fonctionnement Automatique

Correction Manuelle

Exemple d'Amélioration

Configuration Personnalisée

About

Uh oh!

Releases

Packages

Languages

License

Huser-Networks/admin-assistant-ocr

Folders and files

Latest commit

History

Repository files navigation

Admin Assistant OCR

🎯 Fonctionnalités

📁 Structure du Projet

🚀 Installation Rapide

Windows

🔧 Configuration

📝 Format de Sortie

🎨 Fonctionnement

📊 Logs

🛠️ Technologies

🧠 Mode Apprentissage

Fonctionnement Automatique

Correction Manuelle

Exemple d'Amélioration

Configuration Personnalisée

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages