OCR + LLMs para facturas: lo que cambió en 2025 y el stack que gana en 2026
El espacio cambió tres veces en doce meses: Mistral OCR 3 rompe el precio a $2/1.000 páginas, DeepSeek-OCR introduce compresión visual de contexto, y MinerU 2.5-Pro lidera con solo 1.2B parámetros.
Cómo leer esta nota. Está dividida en dos partes. La Parte 1 está pensada para cualquiera con interés en automatización contable o en hacia dónde va la IA aplicada al back-office, sin requisitos técnicos. La Parte 2 entra en arquitectura, benchmarks, papers y decisiones de stack. Puedes leer una, la otra, o las dos. El TL;DR de abajo aplica a ambas.
TL;DR
- El espacio cambió tres veces en doce meses. Mistral OCR 3 (dic-2025) rompe el suelo de precio a $2/1.000 páginas — 5–50× más barato que el incumbente. DeepSeek-OCR (oct-2025) introduce contexts optical compression — comprimir texto en tokens visuales con >97% precisión y procesar 200k+ páginas/día en una sola A100. Y MinerU 2.5-Pro (abr-2026) lidera OmniDocBench con solo 1.2B parámetros, batiendo a modelos 200× más grandes.
- El primer benchmark serio de facturas con VLMs ya existe. Berghaus et al. (Fraunhofer IAIS + Univ. Bonn, ago-2025) — Gemini 2.5 Pro lidera en los tres datasets (87,46% / 96,50% / 92,71%). Antes solo había DocILE (de Rossum) que quedó congelado en 2023 y no cubre ES/FR/DE/IT.
- Consolidación brutal del mercado. Coupa compra Rossum (mayo 2026, tercera adquisición IA del año), SER Group compra Klippa y se renombra Doxis (mar-2025 → ene-2026), Reducto cierra Series B de $75M con a16z (feb-2026). Los IDP tradicionales se cierran hacia enterprise; los disruptores nacen API-first.
- El stack ganador para SMB español es híbrido y barato. Mistral OCR 3 + Claude Sonnet 4.6 o Gemini 2.5 Flash + validación determinista propia (NIF, IVA, cuadre matemático) + integración Holded. Coste objetivo: $0,005–0,01 por factura. F1 >97% con human-in-the-loop en 5–10% del flujo. Alternativa: partnership con Invofox (Madrid, único proveedor con foco nativo España).
- Verifactu retrasado a 2027 en dos fechas distintas. El RD-Ley de 2-dic-2025 separa: 1-ene-2027 para sociedades, 1-jul-2027 para autónomos y profesionales. Da 12–18 meses de pista de ejecución. Cualquier pipeline serio debe diseñarse pensando en trazabilidad pixel-exacta para auditoría, no solo en accuracy.
Parte 1 — Para entender de qué va, sin tecnicismos
El problema
Imagínate un becario contable al que le llegan cada día sesenta facturas mezcladas: facturas en PDF nativo, escaneos torcidos hechos con el móvil, recibos en alemán, facturas de proveedor con líneas de producto enrevesadas, suplidos sin IVA, y una de Andorra que es B2B intracomunitaria con reverse charge. Su trabajo es extraer los campos clave (CIF del emisor, base imponible, cuota de IVA, total, fecha, número de factura, líneas), validarlos contra el ERP, y meterlos en Holded o A3 con el código contable correcto. Si se equivoca una sola vez en una factura grande, el cliente lo nota. Si se equivoca un 0,5% de las veces, sale del trabajo en una semana.
Llevamos diez años intentando que un software haga esto. Los OCR clásicos (Textract, Tesseract) leen letras pero no entienden estructura. Los IDP tradicionales (Rossum, Klippa, Mindee) entienden estructura pero cuestan caro y no manejan bien casos largo-tail. Y los modelos generalistas tipo ChatGPT entienden todo pero alucinan números y no son auditables.
Lo que ha cambiado en los últimos doce meses es que esa frontera entre OCR especializado y modelo generalista se ha hecho difusa: los modelos multimodales (los que entienden texto e imagen a la vez) han alcanzado paridad con los IDP tradicionales en facturas estándar y los superan en casos complejos. A la vez, han aparecido modelos especializados open-source que rinden mejor que los closed-source de antes a un coste 50× menor. Y, como guinda, una empresa francesa (Mistral) ha lanzado en diciembre de 2025 un servicio que cobra dos dólares por mil páginas — un nivel de precio que hace dos años nadie habría imaginado.
Esto plantea una pregunta directa para cualquiera que tenga el dolor de procesar facturas: ¿qué se compra y qué se construye, hoy, en mayo de 2026, para tener un sistema que funcione bien con poco error y a coste razonable?
Por qué importa esto para tu negocio
Procesamiento de facturas suena a problema operativo aburrido, pero es exactamente donde más se está aplicando IA en empresas reales. Anthropic publicó en enero de 2026 que "build and maintain invoice processing systems" representa el 0,24% de todo el tráfico de su API enterprise — el mismo orden de magnitud que automatización de email o de calendario. Es un caso de uso ya consolidado en producción, no un experimento. Tres ejemplos concretos de impacto:
- Caso 1 — SMB español con Holded/A3 (perfil cliente Intelia). Una empresa que procesa 5.000–50.000 facturas al año (la mayoría de las que llaman a Intelia) gasta hoy entre 15.000 y 80.000 € al año entre IDP comercial + horas humanas de revisión. El stack moderno (Mistral OCR + VLM frontier + validación propia) lo baja a 5.000–15.000 € al año en infraestructura + un comercial part-time supervisando excepciones. La diferencia es el margen del proyecto.
- Caso 2 — Mid-market con SAP. Empresa con 100.000+ facturas/año, exigencia de audit trail y certificaciones (SOC 2, GDPR). Aquí el cálculo cambia: la decisión NO es coste por factura, es velocidad de cierre contable + trazabilidad para auditoría. Vencedor: proveedor especializado con integración SAP profunda (Hypatos, Rossum) o stack propio con bounding boxes pixel-exactos.
- Caso 3 — Software contable que quiere embed. Plataformas tipo Holded, ContaSimple o A3 que ya tienen el cliente y quieren que el cliente nunca tenga que volver a teclear una factura. Empotrar parsing dentro del producto. Hueco que ya está ocupado por Invofox (Madrid, YC) — el único proveedor con foco nativo en el mercado español.
En los tres casos el bottleneck no es la inteligencia del modelo. Claude Opus 4.7, GPT-5 o Gemini 2.5 Pro entienden de sobra una factura. El bottleneck es el pipeline completo: cómo orquestas OCR + razonamiento + validación + reconciliación con el ERP + trazabilidad para auditoría. Quien mejor diseñe ese pipeline gana, no quien tenga el modelo más grande.
Y hay una restricción específica para España: Verifactu, el nuevo sistema de facturación verificada de la AEAT, entra en vigor en 2027 (1 de enero para sociedades, 1 de julio para autónomos y profesionales). Cualquier pipeline que aspire a ser comprable por un cliente español a partir de 2026 tiene que poder generar/leer formato Verifactu y cuadrar con el sistema SII en tiempo cuasi-real. Esto descarta proveedores cuyo soporte español sea superficial.
Las apuestas: quién está construyendo qué
Si quitas el marketing y miras el mercado serio, hay cinco ángulos de ataque distintos al problema de extraer datos de facturas. Cada uno con sus ganadores actuales:
- Hyperscalers cloud (AWS Textract, Azure Document Intelligence, Google Document AI). El default cuando una empresa ya está en una nube concreta. Precios razonables ($0,01–0,03 por página), latencia variable, integración limitada con ERPs españoles. No es la mejor opción técnica, pero es la opción de mínimo esfuerzo en empresas con cloud preestablecida.
- IDP especialistas tradicionales (Rossum, Klippa→Doxis, Hypatos, Veryfi, Mindee, Nanonets). Modelos propios entrenados sobre millones de documentos transaccionales, UI human-in-the-loop pulida, certificaciones enterprise. Caros (Rossum desde $18.000/año), pero el ajuste perfecto si compras "AP automation" como producto cerrado. Mindee es la mejor opción europea API-first. Hypatos es lo que se compra si el cliente vive dentro de SAP.
- Modelos VLM frontier por API (Claude 4.x, GPT-5, Gemini 2.5). Los grandes de OpenAI, Anthropic y Google ya leen una factura tan bien como un IDP especializado, especialmente en formatos no estándar. Gemini 2.5 Pro es el único modelo cerrado con benchmark público específico de facturas en cabeza (Berghaus 2025). El coste por factura sale parecido a un IDP barato (~$0,01–0,03), pero la flexibilidad para razonar sobre el contenido (mapear a plan contable, detectar duplicados, justificar IVA aplicado) no tiene comparación.
- Modelos open-source / self-hosted (Qwen 2.5-VL, InternVL3, DeepSeek-VL2, MinerU 2.5). Si tu volumen pasa de cierto umbral o tienes restricciones de data residency, montar tu propio modelo es defendible. Qwen 2.5-VL-72B y InternVL3-78B lideran benchmarks abiertos. MinerU 2.5-Pro (1,2B parámetros) lidera el OmniDocBench global — un modelo pequeño chino batiendo a gigantes. ⚠️ Atención con Llama 4: la licencia excluye explícitamente uso multimodal en la UE.
- Disruptores 2025-2026 (Mistral OCR 3, Reducto, Extend AI, Invofox, DDD Invoices). Aquí está la innovación reciente. Mistral OCR 3 es la commodity de precio. Reducto ofrece un modelo open-source (RolmOCR) + API comercial + acaba de cerrar $75M en febrero 2026 con a16z liderando. Invofox (Madrid, YC) es el único con foco nativo español + Holded/A3/ContaSimple. DDD Invoices (Eslovenia) está construyendo "compliance multi-país en una API".
Y hay una sexta categoría híbrida que probablemente sea el patrón que va a ganar en producción: combinar capas. Un OCR especializado barato (Mistral OCR 3 o un modelo open) para extracción bruta + un VLM frontier (Claude o Gemini) para razonamiento y mapeo a plan contable + reglas deterministas propias para validación matemática + integración directa con el ERP del cliente. No hay un proveedor que venda ese stack completo. Hay que construirlo.
Hacia dónde va esto
Mi lectura del rumbo en los próximos 12–18 meses, a partir de lo que hace cada player y de los movimientos regulatorios:
- El precio del OCR va a cero. Mistral OCR 3 a $0,002/página es el suelo "público" hoy. Para finales de 2026 veremos modelos open-source con calidad equivalente a coste cero (solo computación). Cualquier proveedor que cobre >$0,05/página por OCR puro tendrá que justificarlo con UI, integraciones y SLA — no con tecnología.
- El valor se mueve hacia razonamiento contable y trazabilidad. Si extraer texto es commodity, lo diferencial es: ¿el sistema entiende que esto es un suplido y va a cuenta 627 en vez de 629? ¿detecta que el cliente está aplicando reverse charge intra-EU y necesita VAT VIES? ¿puede mostrar exactamente dónde leyó el "21%" en la factura para una auditoría? Ahí está el margen.
- El stack ganador va a ser híbrido y construido, no comprado en una sola pieza. Capa de OCR/extract barata + capa de razonamiento con un VLM frontier + capa de validación propia + integración nativa con el ERP local. Nadie va a vender "factura procesada llave en mano" para SMB español con margen sano — quien lo intente compite contra una stack DIY que cuesta $0,01/factura.
- Consolidación seguirá. Coupa acaba de comprar Rossum. Klippa ya es Doxis. Es predecible que algún hyperscaler (probablemente Google o Microsoft) compre uno de los IDP medianos restantes (Mindee, Klippa, Docsumo) en los próximos 12 meses para reforzar su oferta de Document AI. Para el comprador SMB, esto significa: cuidado con apostar por un vendor que pueda desaparecer o cambiar drásticamente bajo nuevo dueño.
- Verifactu (España) cambia las reglas. A partir de 1-ene-2027 (sociedades) / 1-jul-2027 (resto), cualquier sistema de facturación en España tiene que generar registros verificables y enviarlos a AEAT/SII. Esto separa proveedores serios de oportunistas. Los que ya soportan UBL/PEPPOL nativo (Doxis, DDD Invoices) tienen ventaja temporal. Hueco claro para Intelia o un partner local: el "stack Verifactu-ready over Holded/A3".
Para un decisor (CFO, director ops, fundador SMB): no compres "extracción de facturas" como producto cerrado todavía. Lo que está pasando va demasiado rápido. Monta un pilot pequeño con Mistral OCR 3 + Claude o Gemini en la capa de razonamiento + validación propia, mide qué falla con tu corpus real (no con benchmarks públicos), y decide en seis meses si build vs buy. Y si tu cliente es 100% Holded/A3 español, mira Invofox — probablemente sea más rápido partnerar que construir.
Si quieres entender cómo funciona cada una de estas líneas, qué modelos exactos elegir, qué benchmarks miran de verdad, y qué hay debajo de la palabra "VLM", sigue a la Parte 2.
A partir de aquí, la Parte 2 entra en arquitectura, matemáticas y papers. Si solo te interesaba el "qué" y no el "cómo", puedes parar aquí.
Parte 2 — Cómo funciona por dentro (técnica)
2.1 — Fundamentos
El espacio se descompone en siete capas que combinas en un pipeline real. Entender los trade-offs de cada capa es lo que distingue a un sistema que rinde >99% en producción de un POC que demo bonito y muere en la primera factura larga.
Las capas:
[INPUT: PDF / imagen / escaneo móvil]
│
▼
┌────────────────────────────┐
│ Capa 1: OCR / Document AI │ ←─ extracción de texto + layout
│ (modelo especializado) │
└────────────────────────────┘
│
▼
┌────────────────────────────┐
│ Capa 2: VLM / razonamiento │ ←─ comprensión semántica + structured output
└────────────────────────────┘
│
▼
┌────────────────────────────┐
│ Capa 3: Structured output │ ←─ JSON garantizado por schema
│ (constrained decoding) │
└────────────────────────────┘
│
▼
┌────────────────────────────┐
│ Capa 4: Validación │ ←─ reglas deterministas + LLM judge
│ matemática + semántica │
└────────────────────────────┘
│
▼
┌────────────────────────────┐
│ Capa 5: Tool use / agent │ ←─ llamadas a VIES, AEAT, ERP
└────────────────────────────┘
│
▼
┌────────────────────────────┐
│ Capa 6: Serving para │ ←─ vLLM, SGLang, batch, cache
│ volumen │
└────────────────────────────┘
│
▼
[OUTPUT: registro en ERP + trazabilidad para auditoría]La capa transversal es Capa 7: compresión visual / long-context, que ataca el problema de meter facturas largas o batches grandes en el contexto sin reventar coste.
Veamos cada una con detalle, citando modelos, papers y números que rigen el estado del arte a 27 de mayo de 2026.
2.2 — Capa 1: modelos OCR / Document AI especializados
Esta categoría agrupa modelos diseñados específicamente para extraer texto y estructura de documentos. La mayoría ha pivotado a arquitecturas VLM compactas (1B–9B parámetros) fine-tuneadas sobre datasets curados.
A) DeepSeek-OCR — el disruptor de compresión
- Lab: DeepSeek-AI · Release: 21-oct-2025 · Paper: arXiv 2510.18234 · Repo: github.com/deepseek-ai/DeepSeek-OCR
- Arquitectura: DeepEncoder (vision encoder de alta resolución y baja activación) + DeepSeek3B-MoE-A570M (3B totales, ~570M activos por token).
- Innovación central: contexts optical compression. Representan el texto como "vision tokens" para reducir tokens consumidos por el LLM. Con ratio <10× → 97% precisión OCR; a 20× → ~60%.
- Benchmarks: supera GOT-OCR2.0 (256 tok/pág) usando 100 vision tokens; supera MinerU 2.0 (6000+ tok/pág) con <800 vision tokens en OmniDocBench.
- Throughput: 200.000+ páginas/día en una sola A100-40G; en cluster 20×8 A100 → 33M páginas/día.
- Licencia: MIT. Idiomas: ~100 lenguas declaradas (foco evaluativo chino/inglés).
- Limitación: precisión degrada al aumentar el ratio de compresión; pensado para casos donde el coste de procesar documentos largos importa más que fidelidad línea-a-línea.
- Crítica académica: arXiv 2512.03643 — "Optical Context Compression Is Just (Bad) Autoencoding" argumenta que el approach es esencialmente autoencoding subóptimo. Leer antes de comprometerse con el paradigma.
B) MinerU 2.5 / MinerU 2.5-Pro — el SOTA actual en parsing genérico
- Lab: OpenDataLab (Shanghai AI Laboratory).
- MinerU 2.5: 26-sep-2025 · arXiv 2509.22186
- MinerU 2.5-Pro: 6-abr-2026 · arXiv 2604.04771
- Weights: HF opendatalab/MinerU2.5-2509-1.2B
- Arquitectura: VLM de 1,2B parámetros con estrategia coarse-to-fine en dos etapas — layout analysis sobre imagen downsampled + recognition sobre crops a resolución nativa guiados por el layout. 2.5-Pro mantiene la misma arquitectura, solo cambia data engineering (10M → 65,5M muestras) + alineamiento GRPO.
- Benchmark estrella: MinerU 2.5-Pro = 95,75 overall en OmniDocBench v1.6_full (corregido tras auditoría — el primer reporte decía "v1.7", el paper reporta v1.6_full).
- Comparativa: supera a Gemini 2.5 Pro, Qwen 2.5-VL-72B, GPT-4o, MonkeyOCR, dots.ocr y PP-StructureV3 en text/formula/table/reading-order — con 60× menos parámetros que muchos competidores.
- Licencia: Apache 2.0 (código); pesos AGPL-3.0 según releases recientes.
C) olmOCR / olmOCR 2 — el del RL con unit tests
- Lab: Allen Institute for AI (Ai2).
- olmOCR: 25-feb-2025 · arXiv 2502.18443
- olmOCR 2: 22-oct-2025 · arXiv 2510.19817
- Weights: HF allenai/olmOCR-2-7B-1025
- Arquitectura: VLM 7B fine-tuneado sobre Qwen 2.5-VL-7B. v2 entrenado con RLVR (Reinforcement Learning from Verifiable Rewards) — los rewards son unit tests binarios sobre conversión correcta de fórmulas, tablas y layouts.
- Benchmark: olmOCR 2 = 82,4 ± 1,1 en olmOCR-Bench, +14,2 puntos sobre v1; supera Marker (76,1), MinerU (75,8), GPT-4o, Gemini Flash 2 y Qwen-2.5-VL.
- Idiomas: oficialmente solo inglés — limitación crítica para casos europeos multi-idioma.
- Coste: olmOCR v1 = $176 por millón de páginas vs $6.240 de GPT-4o (35× más barato).
- Por qué importa para facturas: el patrón "unit tests as RL reward" es directamente trasladable a validación de extracción. Convertir "validation" en suite de tests binarios (¿NIF válido? ¿suma cuadra? ¿fecha presente?) y usarlos tanto en evaluación como en fine-tuning RL es probablemente la mejor idea del año para producción.
D) dots.ocr / dots.mocr — el compacto multilingüe
- Org: rednote-hilab (Xiaohongshu) · Release: 30-jul-2025 (modelo); paper 2-dic-2025 · arXiv 2512.02498
- Arquitectura: VLM unificado de 1,7B parámetros basado en Qwen 2.5-VL (dots.mocr crece a 3B). Aprendizaje conjunto end-to-end de layout detection + text recognition + relational understanding.
- Benchmarks (OmniDocBench): Overall Edit↓ 0,125 (EN) / 0,160 (ZH); Text Edit↓ 0,032 (EN); Table TEDS↑ 88,6 (EN).
- Innovación: XDocParse — benchmark interno con 126 idiomas; +10% mejora relativa vs SOTA.
- Licencia: MIT. Idiomas: 100+ declarados.
E) Mistral OCR / Mistral OCR 3 — la commodity
- Lab: Mistral AI (París).
- Mistral OCR (v1): 6-mar-2025.
- Mistral OCR 3: 17-dic-2025 (modelo
mistral-ocr-2512). - Sin paper formal — solo blog y model card.
- Benchmarks self-reported OCR 3: 88,9% handwriting (vs Azure 78,2%); 96,6% tablas (vs Textract 84,8%); 74% win rate vs Mistral OCR 2 (cifras embedded en imágenes del blog).
- OmniDocBench: 79,75 (medición de CodeSOTA, no self-report Mistral). Gap significativo vs MinerU 2.5-Pro (95,75) — el marketing infla la calidad real.
- Pricing: $2/1.000 páginas o $1/1.000 con Batch API (50% descuento). Hasta 2.000 páginas/min en single node.
- Por qué es disruptivo: undercut del 97% vs AWS Textract, 93% vs Google Document AI, 50–75% vs Azure. Redefine la matriz build-vs-buy para volumen alto.
- Limitación: cerrado (sin weights). Sin paper revisable. Calidad real en benchmarks independientes está por debajo del marketing.
F) Otros relevantes
- RolmOCR (Reducto, abr-2025): VLM 7B fine-tuneado sobre Qwen 2.5-VL-7B. Optimización: elimina metadata PDF → menos tokens, menos VRAM. Apache 2.0. 190k downloads en HF en primer mes.
- Chandra (Datalab, oct-2025): VLM 9B fine-tuneado sobre Qwen3-VL. Overall 83,1 ± 0,9 en olmOCR-Bench (mejor open-source oct-2025). Licencia OpenRAIL.
- Surya + Marker (Datalab): pipelines modulares con modelos compactos. Surya soporta 90+ idiomas. Licencia GPL-3.0 + RAIL-M — gratuito para empresas <$2M ingresos.
- GOT-OCR 2.0 (StepFun, sep-2024): 580M params end-to-end. Baseline obligatorio en cualquier benchmark 2025-26. arXiv 2409.01704.
- Nougat (Meta, ago-2023): de facto abandonado. Sin updates desde 2023. arXiv 2308.13418.
Tabla comparativa OCR especializados
| Modelo | Fecha | Params | Benchmark estrella | Idiomas | Licencia |
|---|---|---|---|---|---|
| DeepSeek-OCR | Oct 2025 | 3B (570M act.) | OmniDocBench: bate GOT-OCR con 100 tok | ~100 | MIT |
| MinerU 2.5-Pro | Abr 2026 | 1,2B | OmniDocBench v1.6_full: 95,75 | zh/en + multi | Apache 2.0 / AGPL pesos |
| olmOCR 2 | Oct 2025 | 7B | olmOCR-Bench: 82,4 | Solo EN | Apache 2.0 |
| dots.ocr | Jul 2025 | 1,7B | OmniDocBench Overall Edit 0,125 EN | 100+ | MIT |
| Mistral OCR 3 | Dic 2025 | N/D | OmniDocBench 79,75 (CodeSOTA) · 74% win vs OCR 2 | Multi EU | Comercial |
| Chandra | Oct 2025 | 9B | olmOCR-Bench: 83,1 | 40+ | OpenRAIL |
| RolmOCR | Abr 2025 | 7B | Equivalente a olmOCR, más rápido | Multi | Apache 2.0 |
| Surya | 2024–2026 | Pipeline | Layout AP ~0,90 | 90+ | GPL-3.0 + RAIL-M |
2.3 — Capa 2: VLMs generalistas (cerrados y abiertos)
Modelos cerrados por API
Anthropic — Claude 4 family
| Variante | Release | Pricing 1M tok (in/out) |
|---|---|---|
| Claude Opus 4 | 22-may-2025 | $15 / $75 |
| Claude Sonnet 4 | 22-may-2025 | $3 / $15 |
| Claude Sonnet 4.5 | sep-2025 | $3 / $15 |
| Claude Opus 4.5 | nov-2025 | $5 / $25 |
| Claude Sonnet 4.6 | feb-2026 | $3 / $15 |
| Claude Opus 4.7 | 16-abr-2026 | $5 / $25 |
⚠️ Sobre Claude Opus 4.7 y DocVQA: circula la cifra DocVQA 93,8% (vs 87,4% en 4.6) en blogs terceros. Anthropic NO publica DocVQA oficialmente — la cifra solo aparece en cobertura tercera (Mindstudio, Lushbinary). El blog oficial confirma "large jumps on DocVQA/ChartQA" sin tabla pública. Si se cita, siempre con caveat.
🟢 Resolución imagen Opus 4.7: Anthropic confirma "more than triple the capacity of earlier Claude versions" — consistente con 2.576 px lado largo / ~3,75 MP. Este salto es probablemente el cambio más relevante para facturas escaneadas en formato A4.
OpenAI — GPT-5 + GPT-4.1
- GPT-4.1 / 4.1 mini / 4.1 nano (14-abr-2025): contexto 1M. Pricing: $2/$8, $0,40/$1,60, $0,10/$0,40 por 1M tokens.
- GPT-5 (7-ago-2025): multimodal nativo. MMMU 84,2% (self-report). CharXiv: tasa de alucinación 9% vs 86,7% de o3. Pricing $1,25 / $10 por 1M.
- DocVQA/OCRBench: OpenAI no publica oficialmente. Cifras circulantes vienen de leaderboards terceros.
Google — Gemini 2.5
- Paper: arXiv 2507.06261 — "Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities".
- Gemini 2.5 Pro (jun-2025 GA): contexto 1.048.576 input / 65.536 output. Pricing: $1,25 / $10 por 1M tokens.
- Gemini 2.5 Flash: $0,30 / $2,50 por 1M tokens — relación coste/calidad para alto volumen.
- Performance en facturas: Gemini 2.5 Pro es el top en Berghaus 2025 (ver §2.4). En OCRBench v2 EN era top a inicios 2026 con 59,3 — actualmente superado por KDL Frontier (68,1), Nemotron 3 Nano Omni (65,8) y Gemini 3 Pro Preview (63,4) (corregido tras auditoría).
Modelos open-source / open-weights
Qwen 2.5-VL (3B / 7B / 72B) — Alibaba
- Release: ene-2025 · Paper: arXiv 2502.13923
- Benchmarks (72B): DocVQA 96,4 · OCRBench 885/1.000 (corregido tras auditoría — es score sobre 1.000, NO porcentaje).
- Idiomas: ~29 idiomas reportados por terceros incluyendo español 🟡 (el blog oficial Qwen NO enumera 29; la cifra es de fuentes terceras).
- Licencia: Apache 2.0 (3B/7B), Qwen license (72B).
- VRAM: 72B ≈ 140 GB fp16; 7B en una A100 40GB; 3B en consumer GPU.
Qwen3-VL — Alibaba
- Release: primer drop 4-oct-2025 · Paper: arXiv 2511.21631
- Variantes: 2B / 4B / 8B / 32B dense + 30B-A3B MoE + 235B-A22B MoE.
- Arquitectura: contexto nativo 256K tokens interleaved (texto + imagen + vídeo).
- Estado: demasiado nuevo (nov-2025) para tener benchmarks independientes consolidados en facturas.
InternVL3 / InternVL3.5 — Shanghai AI Lab + OpenGVLab
- InternVL3 (abr-2025) · arXiv 2504.10479
- InternVL3.5 (ago-2025) · arXiv 2508.18265
- Benchmarks InternVL3-78B: OCRBench 906 (mejor open declarado en su momento), DocVQA ~94+%.
- Benchmarks InternVL3-8B: DocVQA 92,7%.
- InternVL3.5: Cascade RL + Visual Resolution Router (ViR). 4,05× speedup en inferencia vs InternVL3.
- Licencia: MIT.
Llama 4 (Scout / Maverick / Behemoth) — Meta
- Release: 5-abr-2025 (Scout + Maverick; Behemoth en training). Blog: ai.meta.com/blog/llama-4-multimodal-intelligence
- Arquitectura: primer MoE de Meta. Native multimodal early-fusion. iRoPE para contexto extremo.
- Contexto: Scout 10M tokens; Maverick 1M tokens.
- Params: Scout 17B activos / 109B totales; Maverick 17B activos / 400B totales; Behemoth ~2T totales (declarado, no liberado).
- Benchmarks: DocVQA 94,4% Scout y Maverick (en model card, NO en blog oficial).
- ⚠️ Licencia: Llama 4 Community License — restricción multimodal explícita para individuos y empresas con sede en la UE. Cláusula equivalente en Llama 3.2. Punto bloqueante para clientes europeos.
DeepSeek-VL2 — DeepSeek
- Release: 13-dic-2024 · Paper: arXiv 2412.10302
- Arquitectura: MoE (DeepSeekMoE) + dynamic tiling vision encoder. 4,5B params activos en variante grande, ~27B totales.
- Benchmarks: OCRBench 834 (vs GPT-4o ~736), DocVQA 93,3%.
- Licencia: DeepSeek Model License (uso comercial permitido).
- Por qué importa para facturas: mejor relación VRAM/rendimiento del catálogo open. 4,5B activos = corre en una sola GPU consumer-ish y rinde DocVQA 93,3%.
Otros
- Molmo + PixMo (Ai2, sep-2024): arXiv 2409.17146. Apache 2.0. Diferenciador: dataset PixMo creado por anotadores humanos sin destilación.
- Pixtral 12B (Mistral, sep-2024): arXiv 2410.07073. Obsoleto frente a Qwen 2.5-VL-7B / InternVL3-8B.
- MiniCPM-V 2.6 + 4.5 (OpenBMB): arXiv 2408.01800. Foco edge/on-device.
- Aria (Rhymes AI, oct-2024): arXiv 2410.05993. MoE multimodal nativo. Ecosistema pequeño.
Tabla comparativa VLMs (resumen)
| Modelo | Fecha | Params | DocVQA | OCRBench | $/1M tok | Licencia |
|---|---|---|---|---|---|---|
| Claude Opus 4.7 | 16-abr-2026 | N/D | 93,8% 🟡 | N/D | $5/$25 | Propietaria |
| Claude Sonnet 4.6 | feb-2026 | N/D | N/D oficial | N/D | $3/$15 | Propietaria |
| GPT-5 | 7-ago-2025 | N/D | N/D oficial | N/D | $1,25/$10 | Propietaria |
| Gemini 2.5 Pro | jun-2025 | N/D | top Berghaus invoice | OCRBench v2 EN 59,3 (ya no top) | $1,25/$10 | Propietaria |
| Gemini 2.5 Flash | jun-2025 | N/D | N/D | N/D | $0,30/$2,50 | Propietaria |
| Qwen 2.5-VL-72B | ene-2025 | 72B | 96,4 | 885/1000 | self-host | Qwen License |
| InternVL3-78B | abr-2025 | 78B | ~94+ | 906 | self-host | MIT |
| InternVL3-8B | abr-2025 | 8B | 92,7 | N/D | self-host | MIT |
| Llama 4 Scout | 5-abr-2025 | 17B act / 109B | 94,4 (model card) | N/D | self-host | Llama 4 ⚠️ UE |
| DeepSeek-VL2 | 13-dic-2024 | 4,5B act / ~27B | 93,3 | 834 | self-host | DeepSeek License |
2.4 — Benchmarks: qué medir y qué NO medir
Berghaus et al. 2025 — el único directo
- Paper: arXiv 2509.04469 — "Multi-Modal Vision vs. Text-Based Parsing: Benchmarking LLM Strategies for Invoice Processing".
- Autores: Berghaus, Berger, Hillebrand, Cvejoski, Sifa (Fraunhofer IAIS + Univ. Bonn).
- Diseño: 8 modelos · 3 familias (GPT-5, Gemini 2.5, Gemma 3) · 3 datasets:
- Clean Invoices (Donut, 500 sintéticos)
- Scanned Receipts (ICDAR-2019-SROIE, 1.000)
- Scanned Invoices (inv-cdip, 350 reales del Tobacco Collections)
- Hallazgo principal: procesamiento nativo de imagen supera consistentemente al pipeline OCR→markdown→LLM.
- Top: Gemini 2.5 Pro (native image) — Scanned Receipts 87,46% · Clean Invoices 96,50% · Scanned Invoices 92,71% 🟡 (verificar tabla del PDF antes de cita formal).
- Caveat: ningún dataset español ni EU multi-idioma realista.
DocILE — el más serio de facturas, congelado en 2023
- arXiv 2302.05658 · Šimsa et al. (Rossum + Czech TU). ICDAR 2023 + CLEF 2023.
- Dataset: 6.680 documentos anotados + 100.000 sintéticos + ~1M no etiquetados. 55 clases de campos.
- Tareas: KILE (Key Information Localization and Extraction con coordenadas) + LIR (Line Item Recognition).
- Ganador competición ICDAR'23: GraphDoc (USTC-iFLYTEK).
- Limitaciones críticas: solo inglés/checo. NO cubre ES/FR/DE/IT. Sintéticos con distribución no realista. Congelado desde 2023.
OmniDocBench — el holístico
- arXiv 2412.07626 · 1.651 páginas · 9 fuentes documentales · 5 variantes lingüísticas. No incluye facturas comerciales.
- Top a abr-2026 (v1.6_full):
- MinerU 2.5-Pro 95,75
- GLM-OCR 95,22
- PaddleOCR-VL-1.5 94,93
- PaddleOCR-VL 94,18
- Youtu-Parsing 93,74
- Mistral OCR 3 a 79,75 — gran gap vs top chinos.
OCRBench v2 — el text-centric bilingüe
- arXiv 2501.00321 · 10.000 QA pairs · 31 escenarios · 23 sub-tareas · bilingüe EN/ZH · test set privado.
- Hallazgo: la mayoría de modelos puntúan <50/100 → no saturado.
- Top EN (snapshot 2026.03) corregido tras auditoría:
- KDL Frontier 68,1
- Nemotron 3 Nano Omni 65,8
- Gemini 3 Pro Preview 63,4
- Gemini-2.5-Pro 59,3
- Llama-3.1-Nemotron-Nano-VL-8B-V1 56,4
OHR-Bench — el de RAG real
- arXiv 2412.02592 — título oficial: "OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation".
- 8.561 PDFs en 7 dominios · 8.498 QA pairs.
- Hallazgo brutal: "even the best OCR solutions exhibit a performance gap of 14% minimum vs. ground truth structured data".
Otros relevantes
- MMLongBench-Doc (arXiv 2407.01523): 130 PDFs largos · GPT-4o baseline 42,7% F1.
- MTVQA (arXiv 2405.11985): 9 idiomas incluyendo FR/DE/IT (no ES). Gap brutal humano-modelo (~50 puntos).
- VRDU (arXiv 2211.15421): Google Research KDD 2023. Sub-dataset Ad-Buy Forms con line items reales.
Los saturados — no usar como decisor
- CORD (NeurIPS DI'19): F1 ~97-98. Saturado desde 2022. Solo indonesio.
- SROIE (arXiv 2103.10213): F1 ~98. Solo 4 campos.
- FUNSD (arXiv 1905.13538): F1 entity ~0,93. Solo 199 formularios USA antiguos.
- DocVQA (arXiv 2007.00398): top en 95-96% ANLS. Humanos a 98,4%. Saturado.
El gap detectado
Ningún benchmark público mide exactamente lo que importa para el caso Intelia:
- Cobertura ES/FR/DE/IT/PT con volumen suficiente.
- Line items con jerarquía y validación matemática.
- Reconciliación con plan contable español (PGC).
- Regímenes fiscales reales: IVA reverse charge, OSS, retenciones IRPF, suplidos.
- Métricas de coste/latencia/confianza calibrada para HITL routing.
Eval interno propio sobre corpus del cliente real es la única evaluación válida. Cualquier número público es señal direccional, no veredicto.
2.5 — Capa 3: structured output / constrained decoding
Esto es la diferencia entre "el modelo intenta dar JSON" y "es matemáticamente imposible que el JSON no valide contra el schema".
XGrammar — Dong et al., MLSys 2025
- arXiv 2411.15100
- Divide el vocabulario en tokens context-independent (99%, precomputables en bitmasks) y context-dependent (1%, inspección de stack en runtime) → CFG expressiveness con FSM performance.
- Backend por defecto de vLLM (dic-2024), SGLang (nov-2024) y TensorRT-LLM (mar-2026).
- <40 μs/token, overhead casi cero en JSON.
XGrammar-2 — may-2026
- blog.mlc.ai/2026/05/04/xgrammar-2
- Introduce Structural Tag — protocolo JSON composable que unifica OpenAI harmony, tool calling, reasoning channels y outputs custom.
- Cross-grammar caching + speculative decoding.
Frameworks Python
- Instructor: ~11k stars, 3M downloads/mes. Pydantic-based, retry automático con feedback de validación, streaming. Patrón estándar para invoice schemas.
- PydanticAI: agent framework (tool registration, multi-step loops, DI, result validation). Ideal cuando la factura dispara llamadas a VIES/AEAT.
- BAML: lenguaje propio con code generator. Para facturas con campos heterogéneos por país, escala mejor el mantenimiento de schemas.
- Outlines: ⚠️ regresión. arXiv 2501.10868 — pionero del approach FSM, pero compliance rate más bajo entre engines testados; compile times de 40s a 10+ min con schemas complejos. Descartado para producción con jerarquías profundas (line items anidados).
- OpenAI Structured Outputs / Strict Mode (ago-2024) → estándar de facto 2025-2026.
2.6 — Capa 4: validación cruzada y self-correction
LLM-as-a-judge para extracción de facturas
- towardsai.net — From extraction to accuracy
- Patrón documentado: extractor (Modelo A) → judge (Modelo B) que evalúa cada campo contra el OCR raw con scoring por categoría.
- Recomendación clave: el judge debe ver el documento original, no solo la extracción. Si no, solo valida coherencia interna.
Survey EMNLP 2025 LLMs-as-Judges
- arXiv 2412.05579
- Cubre biases (position, verbosity, self-preference) y limitaciones de self-correction "puro".
- Implicación: NO confiar en self-refine sin reglas deterministas.
Reconciliación matemática determinista — la capa crítica
No es paper, es ingeniería estándar pero crítica para alcanzar <1% error:
sum(line_items.amount) == subtotalsubtotal * (1 + vat_rate) == total- Formato NIF español (regex + checksum letra)
- Validación IBAN (mod-97)
- Fecha en rango razonable vs
invoice_date - Coherencia base imponible × tipo IVA = cuota IVA (con tolerancia de redondeo)
Esta capa atrapa más errores que cualquier LLM judge. Es la base de cualquier pipeline serio.
Unit Test Rewards (olmOCR 2) — el patrón paradigmático
- arXiv 2510.19817
- En lugar de LLM-as-judge fuzzy, entrenan con RLVR donde el reward es un conjunto diverso de unit tests binarios deterministas.
- olmOCR-Bench: 7.010 unit tests sobre 1.402 PDFs.
- Idea trasladable a facturas: convertir "validation" en suite de tests binarios y usarlos tanto en eval como en RL fine-tuning. Probablemente la mejor idea del año para producción.
2.7 — Capa 5: agentes con tool use para facturas
LandingAI Agentic Document Extraction (ADE)
- landing.ai/blog/invoice-parsing-at-scale
- Parser que aprende structure + context vs templates fijos; produce schema-aligned output con grounding por campo.
V7 Go VAT Compliance Agent
- v7labs.com/agents/vat-compliance-agent
- Caso público con tool use real: extrae supplier name + VAT number + invoice date + line items y llama a VIES (Comisión Europea) para validar VAT.
- Requisito de auditoría en operaciones intra-EU exentas.
VATCalc Agentic AI
- vatcalc.com/products/agentic-ai-for-vat
- Primer agente VAT-dedicated en 2025.
- Usa su propio MCP server para conectar el LLM al motor fiscal legislation-coded.
- Determina IVA aplicable, traza la cadena de reglas legislativas y explica outcomes — auditable.
- Es el patrón que probablemente Intelia debería replicar para clientes españoles con AEAT.
Anthropic — Advanced Tool Use
- anthropic.com/engineering/advanced-tool-use
- Tool Search Tool: acceso a miles de tools sin consumir context window.
- Programmatic Tool Calling: ejecuta tools en sandbox de código para reducir el blow-up del context.
- Crítico para facturas: un agente puede orquestar VIES + AEAT + Holded API + matcher fuzzy en un loop sin saturar el context.
Anthropic Economic Index (ene-2026)
- anthropic.com/research/anthropic-economic-index-january-2026-report
- "Build and maintain invoice processing systems" = 0,24% del tráfico de la API enterprise.
- Dato cuantitativo de que es un caso de uso ya consolidado en producción.
Ramp — invoice processing pattern
- ramp.com/blog/ai-invoice-processing
- 99% accuracy en line-item data.
- Bloqueo de 3,5–8,8% gasto out-of-policy en swipe. Agentic workflow que flaga SaaS duplicados.
Patrón Stripe / Coinbase / Ramp de agentes internos (2025)
- Stripe (Minions ~500 tools), Ramp (Inspect), Coinbase (Cloudbot).
- Convergencia independiente en: sandbox aislado, toolset curado, subagent orchestration, integración con Slack/Linear/GitHub.
⚠️ Gap detectado para España: ningún caso público con arquitectura documentada llamando a la API de AEAT/SII en este periodo. Hay productos cerrados (Holded, Sage) pero no engineering blogs. Oportunidad de contenido propio Intelia.
2.8 — Capa 6: serving para volumen masivo
vLLM V1 (ene-2025)
- Rewrite del core; PagedAttention + scheduler reescrito. Soporte day-one de modelos nuevos vía plugin architecture.
vLLM Encoder Disaggregation (EPD, nov-2025)
- blog.vllm.ai/2025/12/15/vllm-epd.html
- Separa el vision encoder en servicio centralizado → cache cross-request.
- Una factura escaneada con el mismo logo/template reutiliza embeddings. Cached requests = zero encoder cost.
- Crítico para volumen masivo con templates repetidos (factura recurrente del mismo proveedor).
LMCache para multimodales (jul-2025)
- blog.lmcache.ai/2025-07-03-multimodal-models
- Externaliza KV cache; cachea image embeddings cross-request → reduce TTFT y GPU memory.
SGLang vs vLLM 2026
- SGLang ~5–8% TTFT p95 mejor en concurrency alta; mejor en raw throughput de modelos pequeños.
- vLLM mejor para batch templated.
- SGLang explícitamente diseñado para multi-step structured generation — encaja con extracción que llama tools.
2.9 — Capa 7: compresión visual y long-context
- DeepSeek-OCR (arXiv 2510.18234) — el paper paradigmático. Una factura entera puede comprimirse a unos cientos de vision tokens.
- Optical Context Compression Is Just (Bad) Autoencoding (arXiv 2512.03643) — crítica académica al paradigma.
- Context Cascade Compression (arXiv 2511.15244) — límites superiores de compresión de texto.
- FCoT-VL (arXiv 2502.18512) — compresión de visual tokens específica para text-oriented VLMs en alta resolución (el caso de facturas).
- LUVC (arXiv 2512.09010) — 2× speedup en inferencia con degradación accuracy despreciable.
- HybridToken-VLM (arXiv 2512.08240) — dual pathway: continuous compression para semántica + discrete quantization para detalles finos.
- Adaptive-VoCo (arXiv 2512.18496) — compresión variable según complejidad visual de cada bloque del documento.
2.10 — Pipelines híbridos y document AI toolkits
Docling — IBM Research
- arXiv 2501.17887
- Qué es: toolkit OSS Apache 2.0 que produce un
DoclingDocumentunificado (layout + reading order + table cells + bounding boxes) y exporta a Markdown/HTML/JSON/DocTags. - Update ene-2026: sustituyó SmolDocling-256M por backbone Granite 3 + SigLIP2.
- Integraciones: LangChain, LlamaIndex, Haystack, CrewAI nativas.
- Claim IBM: "evitar OCR reduce errores y acelera time-to-solution 30×".
Reducto — hybrid agentic OCR
- llms.reducto.ai/hybrid-architecture-agentic-ocr-deep-dive
- Pipeline en cascada: computer vision para layout segmentation → OCR clásico + VLM en paralelo → "Agentic OCR" como capa de QA que detecta columnas mal asignadas, mismatches campo/valor, tablas corruptas.
- Cuando las confidence scores caen bajo umbral, re-procesa el bloque con segmentación alternativa.
LlamaParse + LlamaIndex Document
- llamaindex.ai/services/invoice-data-extraction-software
- Modos Fast / Balanced / Multimodal / Premium (5 → 60 créditos/página). Schema preconstruido "invoice".
- Validation loops automáticos antes de devolver resultados.
LangExtract — Google
- developers.googleblog.com/introducing-langextract · Apache 2.0
- NO es full-stack IDP — opera sobre texto ya extraído.
- Diferenciadores: source grounding (cada campo extraído ancla al offset exacto en el texto fuente) + hallucination filtering.
Trade-off central: VLM-first vs hybrid
- VLM-first (Gemini 2.5 Pro, Qwen 2.5-VL, Mistral OCR 3) → elimina la fragilidad multi-etapa, pero pierde grounding pixel-exacto.
- Hybrid (Reducto, Docling, LandingAI ADE) → preserva bounding boxes y permite auditoría humana — obligatorio para error <1% en NIF/importes con trazabilidad regulatoria.
Para facturas españolas con Verifactu en horizonte, la trazabilidad pesa: cualquier campo cuestionable necesita poder mostrarse en el documento original. Eso favorece arquitecturas hybrid.
2.11 — Mercado comercial: proveedores y matriz de decisión
Hyperscalers
- AWS Textract AnalyzeExpense: $0,01/pág primer 1M, $0,008 después. AnalyzeDocument: $0,07/pág. BDA (Bedrock Data Automation, GA dic-2024) capa managed.
- Azure Document Intelligence: prebuilt-invoice $10/1.000 páginas; commitment tier alto baja a $0,53/1.000 a 8M páginas/mes. Custom neural model entrenable con 5 docs.
- Google Document AI: Invoice Parser $0,01/pág. Custom Extractor con Gemini 3 Pro: $30/1.000 (1–1M). Custom processor hosting: $438/año por versión.
IDP especialistas
- Rossum (Coupa): desde $18.000/año. Modelo Aurora propio. 276 idiomas. SAP/NetSuite/Dynamics. Adquirida por Coupa 12-may-2026.
- Klippa → Doxis AI.dp: pay-as-you-go EUR. Soporte UBL/PEPPOL nativo — único con foco e-invoicing compliance EU. Adquirida por SER Group 18-mar-2025 → rebrand a Doxis 19-ene-2026.
- Hypatos: enterprise opaco. Integración SAP profunda. xSuite partnership (firmada dic-2024, anunciada mar-2025).
- Veryfi: $0,16/factura plan Starter. Receipt OCR es claramente lo mejor del mercado. SDKs móvil iOS/Android.
- Mindee: Starter €44/mes · Pro €179/mes · Business €584/mes. docTR open source. Mejor producto API-first europeo.
- Nanonets: workflow típico factura = 4–6 bloques = ~$1,20–$1,80/factura. Workflow builder no-code.
- Docsumo / Affinda / Koncile / Sensible.so: variantes específicas por vertical.
Startups disruptores 2025-2026
- Reducto: Series A $24,5M (Benchmark, abr-2025) + Series B $75M (a16z, feb-2026) = $108M total. RolmOCR open-source + API ($0,015/pág).
- Extend AI: $17M Series A (Innovation Endeavors, jun-2025). 5 APIs: Parse/Extract/Split/Classify/Edit. ~$0,05/pág en plan Scale. Self-hosted disponible en Enterprise.
- Invofox: Madrid, YC. Único con foco nativo España + Holded/A3/ContaSimple. API B2B2B (white-label).
- DDD Invoices: Ljubljana. €1,31M Seed (Fil Rouge + 500 Global, may-2026). "Una API para 50+ regímenes tributarios".
Open source / open core comercial
- Unstructured.io: $40M Series B (2024). OSS Apache + API $1/1.000 páginas. 64+ tipos de archivo.
- LlamaParse: $19M Series A (2024). v2 (2025) parsing agentic + validación.
Tabla comparativa final
| Proveedor | Modelo subyacente | $/factura (1 pág) | ES nativo | Integraciones ERP ES |
|---|---|---|---|---|
| AWS Textract AnalyzeExpense | OCR propio | $0,010 | Sí | No |
| Azure DocInt prebuilt-invoice | Modelo propio | $0,010 | Sí | No |
| Google DocAI Invoice Parser | Propio + Gemini | $0,010 | Sí | No |
| Rossum (Coupa) | Aurora TLLM propio | Enterprise (~$0,10-0,50) | Sí | SAP, NetSuite |
| Doxis AI.dp (ex-Klippa) | OCR+LLM, UBL/PEPPOL | Pay-as-you-go EUR | Sí | UBL/PEPPOL, SAP |
| Hypatos | Deep learning propio | Enterprise opaco | Sí | SAP profundo |
| Veryfi | OCR propio | $0,16 | Limitado | QuickBooks, Concur |
| Mindee | Propio + docTR | ~€0,04-0,07 | Sí | API only |
| Nanonets | OCR-3 + workflows | ~$1,20-1,80 | Sí | QB, Xero, SAP, NS |
| Reducto | RolmOCR + API | $0,015 | Sí | API only |
| Extend AI | LLM full-stack | ~$0,05 | Sí | API only |
| Invofox | Propio B2B2B | No público | Nativo ES | Holded/A3/ContaSimple |
| Mistral OCR 3 | Mistral OCR propio | $0,002 (Batch $0,001) | Sí | API self-host |
| Unstructured.io | OSS + API | $0,001 | Sí | OSS + connectors |
| LlamaParse | Propio + LLM tiers | $0,003-0,09 | Sí | LlamaCloud + RAG |
2.12 — Build vs Buy: análisis operativo
Cuándo BUILD tiene sentido
- Volumen >1M facturas/año — el ahorro vs $0,015–0,10/pág compone.
- ≥1 ML/data engineer dedicado al mantenimiento.
- Formatos repetitivos (5–20 layouts recurrentes representan 80% del volumen).
- Compliance / data residency obliga a self-host (aunque Mistral en Frankfurt ya cumple).
- Quieres capacidad de aprender de tus errores con un loop propio (unit-test-as-reward al estilo olmOCR 2).
Componentes 2026 de un stack BUILD
- OCR: RolmOCR (Reducto, Apache 2.0) o Mistral OCR 3 self-hosted o MinerU 2.5 (Apache 2.0).
- VLM estructura: Qwen 2.5-VL-72B / InternVL3-78B / Llama 4 ⚠️ (problema licencia UE) o Gemini 2.5 Flash API ($0,30/1M input).
- Validación: regex deterministas + tablas hash + LLM-as-judge para fields críticos.
- HITL UI: construir o adoptar Label Studio.
- Coste real estimado all-in: $0,003–0,008/factura (cómputo + storage + revisión humana del 5–10%).
Cuándo BUY tiene sentido
- Volumen <200k facturas/año — la curva no compensa el FTE.
- Time-to-market <1 mes.
- Cliente paga premium por SLA y certificaciones (SOC2, HIPAA).
- No tienes ML/data eng dedicado.
- Mix de tipos de doc va más allá de facturas (recibos, contratos, POs, BoLs).
La opción HÍBRIDA (recomendada para consultoras)
- Capa cliente: producto comercial barato (Mistral OCR 3 API o Mindee Pro).
- Capa de validación propia: Python + reglas + LLM small (Haiku 4.5 / Gemini Flash).
- Reservar build interno solo si un cliente pasa de ~500k facturas/año.
2.13 — Recomendación de stack para Intelia 2026
Opción A — Stack ligero "POC rápido al cliente" (recomendada)
Para clientes SMB/mid-market españoles con Holded/A3/Sage:
- Mistral OCR 3 como motor OCR.
- Coste: $0,001–0,002/pág.
- EU data residency (servidores Frankfurt).
- Modelo francés → story de venta favorable a clientes españoles.
- Claude Sonnet 4.6 o Gemini 2.5 Flash para extracción structured + razonamiento contable (mapeo PGC, IVA, retenciones).
- Validación determinista propia en Python (regex NIF/CIF, IBAN, cuadre IVA, fechas Verifactu).
- Integración Holded vía su API REST (Intelia ya conoce Holded por Hispania Hearing Partners).
Métricas objetivo:
- Coste por factura: $0,005–0,01.
- F1 esperado: >97% con HITL en 5–10% del flujo.
- Latencia: <10s end-to-end por factura simple.
Opción B — Cliente con Sage Intacct o SAP en mid-market
Hypatos para SAP-heavy, o partner con Esker o Quadient como integrador.
- Margen consultoría más alto. Ciclo de venta 6–12 meses.
Opción C — Acelerar y centrarse en valor de capa superior
Partner con Invofox (Madrid, mismo perfil cultural).
- Invofox provee el parsing nativo ES con integración Holded/A3.
- Intelia construye el agente contable encima (mapeo PGC, razonamiento, reconciliación con ERP).
- Reduce time-to-market a semanas en lugar de meses.
Qué NO comprar para perfil SMB español
- Rossum (Coupa): caro para SMB. MOQ $18k/año excluye gran parte del mercado.
- Nanonets: pricing por bloque sale caro, $1,20–1,80/factura no compite con Mistral.
- Hypatos: solo si el cliente es SAP-heavy enterprise.
- Veryfi: si el caso es recibos puros sí; para facturas B2B españolas no es el ajuste.
- Llama 4 (Scout/Maverick): restricción multimodal UE — bloqueante para clientes europeos.
2.14 — Tracker M&A y consolidación 2025-2026
| Movimiento | Fecha | Implicación mercado |
|---|---|---|
| Coupa adquiere Cirtuo | mayo 2025 | Coupa entra en sourcing IA |
| Coupa adquiere Scoutbee | oct 2025 | Coupa consolida supplier intel |
| SER Group adquiere Klippa | 18-mar-2025 | DocHorizon entra en ECM enterprise alemán |
| Reducto Series A $24,5M (Benchmark) | abr 2025 | Disruptor open-source con respaldo VC tier-1 |
| Hypatos × xSuite OEM partnership firmada | dic 2024 (anuncio 11-mar-2025) | SAP integración OEM |
| Extend AI Series A $17M (Innovation Endeavors) | 17-jun-2025 | Document processing cloud emerge |
| GPT-5 lanzamiento | 7-ago-2025 | Multimodal nativo, $1,25/$10/1M |
| Berghaus invoice benchmark publicado | ago 2025 | Primer benchmark serio facturas con VLMs |
| MinerU 2.5 release | 26-sep-2025 | 1,2B model que bate a gigantes |
| DeepSeek-OCR paper | 21-oct-2025 | Contexts optical compression paradigma nuevo |
| olmOCR 2 con Unit Test Rewards | 22-oct-2025 | Patrón RL-with-tests para producción |
| Verifactu retrasado (RD-Ley) | 2-dic-2025 | Pista de ejecución 12-18 meses para España |
| Mistral OCR 3 release | 17-dic-2025 | $2/1k pág rompe el suelo de precio |
| Anthropic Economic Index ene-2026 | ene 2026 | Invoice processing = 0,24% tráfico API enterprise |
| SER Group → rebrand Doxis | 19-ene-2026 | Klippa DocHorizon → Doxis AI.dp |
| Reducto Series B $75M (a16z lead) | feb 2026 | Total $108M, posicionamiento enterprise |
| MinerU 2.5-Pro release | 6-abr-2026 | OmniDocBench v1.6_full 95,75 |
| Claude Opus 4.7 | 16-abr-2026 | Resolución imagen 3×, contexto 1M |
| DDD Invoices Seed €1,31M | 14-may-2026 | E-invoicing compliance global como categoría |
| Coupa adquiere Rossum | 12-may-2026 | 3ª compra IA en 12 meses; Rossum pierde independencia |
2.15 — Contexto regulatorio España / EU
Verifactu — las DOS fechas
Real Decreto-Ley publicado en BOE el 2-dic-2025 retrasa Verifactu:
- 1-enero-2027: obligación para contribuyentes del Impuesto sobre Sociedades.
- 1-julio-2027: obligación para el resto (autónomos, profesionales).
⚠️ Decir "enero 2027" a secas es incompleto. Hay dos fechas distintas según tipo de contribuyente. (Nota AEAT oficial)
e-invoicing PEPPOL / UBL
- PEPPOL como estándar de facto en EU para facturación electrónica intra-EU.
- UBL (Universal Business Language) como formato XML.
- Crítico: cualquier pipeline que aspire a Verifactu-ready debe generar UBL/PEPPOL.
VIES — el validador de VAT intra-EU
- API pública de la Comisión Europea.
- Validación obligatoria de VAT de cliente intra-EU para exención.
- Patrón habitual: el agente que extrae la factura llama a VIES como tool.
SII (Suministro Inmediato de Información)
- Ya obligatorio desde 2017 para grandes contribuyentes.
- Los registros de IVA se envían a AEAT en tiempo cuasi-real.
- Cualquier pipeline de facturas para empresa SII-obligada debe poder generar el registro SII correctamente desde la extracción.
2.16 — Gap analysis: "InteliaInvoiceBench"
Gaps detectados en el ecosistema actual
| Gap | Severidad |
|---|---|
| Facturas EU multi-idioma (ES/FR/DE/IT/PT) con line items | Crítico — no existe |
| Facturas con regímenes fiscales reales (IVA reverse charge, OSS, retenciones, IRPF, suplidos) | Crítico — no existe |
| Coste/latencia como métrica nativa (no solo accuracy) | Alto |
| Eval con OCR ruidoso (móvil, foto torcida, fax) en facturas | Alto |
| Long-tail de plantillas (>1.000 templates distintos) | Alto |
| Reconciliación campo-cuenta contable (mapping al plan contable) | Crítico — no existe |
| Métricas de confianza calibrada para HITL routing | Medio |
Propuesta de diseño
Composición:
- 10.000 facturas reales anonimizadas en 5 idiomas EU (ES/FR/DE/IT/PT), 2.000 por idioma.
- Diversidad: 50% B2B, 30% B2C, 20% intracomunitarias.
- 3 niveles de calidad: digitally-born / scan limpio / foto móvil.
- Plantillas: cobertura long-tail (target: >800 emisores distintos).
Tareas:
- KILE-EU — extracción cabecera + 30 campos canónicos con coordenadas.
- LIR-EU — line items con conciliación cantidad × precio = subtotal.
- Tax-Reasoning — IVA aplicado correctamente (tipo, base, cuota, regímenes especiales).
- Account-Mapping — mapeo a plan contable PGC español como gold.
- Multi-page Concat — factura + albarán = matching de items.
Métricas:
- Field F1 por campo (no agregado — críticos como NIF/IBAN/total deben ser >99,5%).
- Line-Item Tree-Edit-Distance.
- Tax-Consistency-Check (boolean: ¿los números cuadran?).
- Calibrated Confidence ECE (Expected Calibration Error para HITL routing).
- Cost-per-correct-field ($USD por campo correctamente extraído incluyendo coste API).
- p95 latency end-to-end.
Diferenciador frente a DocILE:
- DocILE no cubre idiomas EU latinos ni regímenes fiscales locales.
- DocILE no tiene reconciliación contable.
- DocILE no tiene métrica de coste.
- DocILE quedó congelado en 2023.
Angle para paper académico Intelia: "El primer benchmark de facturas EU con conciliación fiscal-contable" — gap real, valor real para CFO/contables, y aprovecha la posición de Intelia en el espacio.
Estimación de esfuerzo: 3–6 meses de un FTE para liberar v0.1 con 1.000 facturas + tareas KILE-EU + Tax-Reasoning.
2.17 — Conclusiones operativas
Para Intelia como consultora
- El stack ganador para SMB español es híbrido y barato: Mistral OCR 3 + Claude/Gemini Flash + validación propia + Holded API. Coste $0,005–0,01/factura, F1 >97%.
- Verifactu retrasado a 2027 da margen — usarlo para construir relaciones con clientes ahora y posicionarse como el proveedor cuando llegue la obligación.
- Invofox es competidor o partner natural — explorar conversación.
- El gap de benchmark EU es real y monetizable. Un "InteliaInvoiceBench" sería contenido top para SEO técnico, citas académicas y diferenciación comercial.
- El patrón Unit Tests as RL Reward (olmOCR 2) es probablemente el más prometedor del año para llegar a <1% error en producción.
Para clientes Intelia
- No hacer evaluación con DocVQA/CORD/SROIE — están saturados.
- Hacer evaluación con corpus propio del cliente — 200–500 facturas etiquetadas, field F1 por campo.
- Cualquier pipeline serio debe incluir reconciliación matemática determinista.
- La trazabilidad pixel-exacta (bounding boxes) será un requisito de auditoría con Verifactu.
Tres apuestas Intelia para los próximos 6 meses
- Pilot interno con stack Mistral OCR 3 + validación propia sobre Hispania Hearing Partners — caso real con ledger Excel/Metabase.
- Conversación con Invofox — explorar partnership o coopetición clara.
- Versión draft de InteliaInvoiceBench con 500 facturas propias + KILE-EU + Tax-Reasoning. No para publicar académicamente todavía, sino como herramienta interna + material de marketing técnico.
Referencias
Papers arXiv (verificados verbatim contra arxiv.org)
- 2510.18234 — DeepSeek-OCR: Contexts Optical Compression · DeepSeek-AI · oct 2025
- 2509.22186 — MinerU2.5: A Decoupled Vision-Language Model · OpenDataLab · sep 2025
- 2604.04771 — MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale · OpenDataLab · abr 2026
- 2502.18443 — olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models · Ai2 · feb 2025
- 2510.19817 — olmOCR 2: Unit Test Rewards for Document OCR · Ai2 · oct 2025
- 2512.02498 — dots.ocr: Multilingual Document Layout Parsing · rednote-hilab · dic 2025
- 2502.13923 — Qwen2.5-VL Technical Report · Alibaba · feb 2025
- 2511.21631 — Qwen3-VL Technical Report · Alibaba · nov 2025
- 2504.10479 — InternVL3 · OpenGVLab · abr 2025
- 2508.18265 — InternVL3.5 · OpenGVLab · ago 2025
- 2412.10302 — DeepSeek-VL2 · DeepSeek · dic 2024
- 2409.17146 — Molmo and PixMo · Ai2 · sep 2024
- 2410.07073 — Pixtral 12B · Mistral · sep 2024
- 2408.01800 — MiniCPM-V · OpenBMB · ago 2024
- 2410.05993 — Aria · Rhymes AI · oct 2024
- 2507.06261 — Gemini 2.5: Pushing the Frontier · Google DeepMind · jul 2025
- 2501.17887 — Docling · IBM · ene 2025
- 2411.15100 — XGrammar · Dong et al. · nov 2024
- 2412.05579 — Survey LLMs-as-Judges · EMNLP 2025
- 2412.07626 — OmniDocBench · OpenDataLab · dic 2024
- 2501.00321 — OCRBench v2 · HUST + Baidu · ene 2025
- 2302.05658 — DocILE · Rossum + Czech TU · feb 2023
- 2412.02592 — OCR Hinders RAG (OHR-Bench) · OpenDataLab + HKU · dic 2024
- 2509.04469 — Multi-Modal Vision vs. Text-Based Parsing: Benchmarking LLM Strategies for Invoice Processing · Fraunhofer IAIS · ago 2025
- 2510.15727 — Invoice Information Extraction · Sai Yashwant et al. · oct 2025
- 2511.05547 — Automated Invoice Data Extraction · Khanchandani et al. · nov 2025
- 2407.01523 — MMLongBench-Doc · NTU + Shanghai AI Lab · jul 2024
- 2405.11985 — MTVQA · ByteDance · may 2024
- 2211.15421 — VRDU · Google Research · nov 2022
- 2007.00398 — DocVQA · Mathew et al. · jul 2020
- 2103.10213 — SROIE · Huang et al. · mar 2021
- 1905.13538 — FUNSD · EPFL · may 2019
- 2502.18512 — FCoT-VL · feb 2025
- 2512.03643 — Optical Context Compression Is Just (Bad) Autoencoding · dic 2025
- 2511.15244 — Context Cascade Compression · nov 2025
- 2512.09010 — LUVC · dic 2025
- 2512.08240 — HybridToken-VLM · dic 2025
- 2512.18496 — Adaptive-VoCo · dic 2025
- 2409.01704 — GOT-OCR 2.0 · StepFun · sep 2024
- 2308.13418 — Nougat · Meta · ago 2023
- 2501.10868 — JSONSchemaBench (Outlines) · ene 2025
Comunicados y press releases verificados
- Coupa adquiere Rossum — 12-may-2026
- Rossum confirmación adquisición
- SER Group adquiere Klippa — 18-mar-2025
- SER Group → rebrand Doxis — 19-ene-2026
- Reducto Series B $75M — feb 2026
- a16z invests in Reducto
- Reducto Series A $24,5M (Benchmark) — abr 2025
- Extend AI Series A $17M — 17-jun-2025
- DDD Invoices Seed €1,31M — 14-may-2026
- Mistral OCR 3 launch — 17-dic-2025
- xSuite × Hypatos partnership — 11-mar-2025
- Verifactu retrasado a 2027 — Nota AEAT
- El Economista — Verifactu 2027
- Anthropic Economic Index ene-2026
- Claude Opus 4.7 announcement — 16-abr-2026
- Claude Sonnet 4.6 — feb 2026
- OpenAI GPT-5 announcement — 7-ago-2025
- Meta Llama 4 blog — 5-abr-2025
Leaderboards y benchmark sites
- OmniDocBench oficial GitHub
- OmniDocBench mirror CodeSOTA
- OCRBench v2 oficial
- DocILE RRC · Rossum portal
- HuggingFace Open VLM Leaderboard
- Reducto RD-TableBench
- OCR Arena (extend.ai)
- Artificial Analysis OCR comparison
Pricing pages verificadas en mayo 2026
- AWS Textract Pricing
- Azure Document Intelligence Pricing
- Google Document AI Pricing
- Mistral Pricing
- Reducto Pricing
- Mindee Pricing
- Nanonets Pricing
- Veryfi Pricing
- Sensible.so Pricing
- Extend AI Pricing
- Unstructured.io Pricing
- LlamaParse Pricing
- Google AI Studio Pricing (Gemini)
Recursos open source clave
- DeepSeek-OCR GitHub
- MinerU GitHub
- olmOCR GitHub · olmOCR-2-7B weights
- dots.ocr GitHub
- Qwen 2.5-VL-72B
- Qwen3-VL GitHub
- InternVL3-78B
- DeepSeek-VL2
- Docling GitHub
- RolmOCR weights
- XGrammar GitHub
- Awesome OCR LLM (Yuliang Liu)
Convenciones del documento: 🟢 verificado contra fuente primaria oficial · 🟡 reportado solo por terceros · ⚠️ requiere verificación adicional
Decay esperado: este documento envejece. Modelos nuevos salen cada 4–8 semanas; pricing puede moverse. Próxima revisión sugerida: agosto 2026.