Sistema automatizado para extraer datos de facturas EMCALI usando OCR + LLM (OpenAI) y generar informes técnicos profesionales.
Extraer automáticamente TODOS los datos de facturas EMCALI en PDF usando:
- OCR para extraer texto del PDF
- LLM (OpenAI GPT-4o-mini) para extraer datos estructurados
- Análisis técnico como ingeniero eléctrico experto
-
Configurar API Key:
# Crear archivo .env con tu API key de OpenAI echo "OPENAI_API_KEY=tu_api_key_aqui" > .env
-
Colocar facturas PDF en la carpeta
data/ -
Ejecutar procesamiento:
python procesar_facturas.py
- Datos extraídos:
outputs/facturas_emcali.csv - Informes técnicos:
outputs/informe_tecnico_*.docx
- Información básica: PDF, fecha procesamiento
- Cliente: Contrato, NIC, CUDE, número de pago
- Período: Inicio, fin, días facturados
- Energía eléctrica: Lecturas, consumo, valor unitario, base, total
- Servicios: Acueducto, alcantarillado, aseo, alumbrado, tasa seguridad
- Totales: IVA, total a pagar
- Pagos: Último pago, fecha, valor
- Metadatos técnicos: Versiones, hash, timestamps
- Nombre del cliente: A veces no se extrae correctamente
- Dirección de instalación: Puede faltar en algunas facturas
- Tarifas específicas: Algunas tarifas de acueducto/alcantarillado
- Procesamiento automático: Detecta y procesa cualquier PDF en
data/ - Eliminación de duplicados: Limpia automáticamente el CSV
- Informes profesionales: Análisis técnico como ingeniero eléctrico
- Estructura modular: Código organizado y mantenible
- Manejo de errores: Procesamiento robusto con validaciones
agente_ejecutivo/
├── data/ # Facturas PDF a procesar
├── outputs/ # Resultados generados
│ ├── facturas_emcali.csv # Datos extraídos
│ └── informe_tecnico_*.docx # Informes técnicos
├── src/ # Código fuente
│ ├── analizador.py # Lógica de LLM
│ ├── extractor_simple.py # Extracción de PDF
│ └── generador_docx_analisis.py # Generación de informes
├── prompts/ # Prompts para LLM
├── schemas/ # Esquemas JSON
├── procesar_facturas.py # Script principal
└── verificar_datos.py # Verificación de datos
- Análisis de consumo energético residencial y comercial
- Auditoría de facturación de servicios públicos
- Optimización de costos y eficiencia energética
- Reportes técnicos para clientes o consultorías
- Monitoreo continuo de múltiples facturas
✅ FUNCIONANDO CORRECTAMENTE:
- Extracción de datos principales (95% de campos)
- Generación de informes técnicos profesionales
- Procesamiento automático de múltiples facturas
- Limpieza y organización de datos
🔄 EN MEJORA CONTINUA:
- Extracción de nombre del cliente (mejoras en prompt)
- Extracción de dirección de instalación
- Cálculo automático de tarifas faltantes
- Mejorar prompts para extracción de datos faltantes
- Agregar validaciones de calidad de datos
- Dashboard web para visualización
- Análisis comparativo entre facturas
- Alertas automáticas para anomalías
Desarrollado para análisis profesional de facturas EMCALI con tecnología OCR + LLM