OCR + LLMs para facturas: lo que cambió en 2025 y el stack que gana en 2026

El espacio cambió tres veces en doce meses: Mistral OCR 3 rompe el precio a $2/1.000 páginas, DeepSeek-OCR introduce compresión visual de contexto, y MinerU 2.5-Pro lidera con solo 1.2B parámetros.

Factura española con CIF, IVA y total a la izquierda; vision tokens en el centro; JSON estructurado validado a la derecha. Footer Intelia SOTA Research.
Cómo leer esta nota. Está dividida en dos partes. La Parte 1 está pensada para cualquiera con interés en automatización contable o en hacia dónde va la IA aplicada al back-office, sin requisitos técnicos. La Parte 2 entra en arquitectura, benchmarks, papers y decisiones de stack. Puedes leer una, la otra, o las dos. El TL;DR de abajo aplica a ambas.

TL;DR

  • El espacio cambió tres veces en doce meses. Mistral OCR 3 (dic-2025) rompe el suelo de precio a $2/1.000 páginas — 5–50× más barato que el incumbente. DeepSeek-OCR (oct-2025) introduce contexts optical compression — comprimir texto en tokens visuales con >97% precisión y procesar 200k+ páginas/día en una sola A100. Y MinerU 2.5-Pro (abr-2026) lidera OmniDocBench con solo 1.2B parámetros, batiendo a modelos 200× más grandes.
  • El primer benchmark serio de facturas con VLMs ya existe. Berghaus et al. (Fraunhofer IAIS + Univ. Bonn, ago-2025) — Gemini 2.5 Pro lidera en los tres datasets (87,46% / 96,50% / 92,71%). Antes solo había DocILE (de Rossum) que quedó congelado en 2023 y no cubre ES/FR/DE/IT.
  • Consolidación brutal del mercado. Coupa compra Rossum (mayo 2026, tercera adquisición IA del año), SER Group compra Klippa y se renombra Doxis (mar-2025 → ene-2026), Reducto cierra Series B de $75M con a16z (feb-2026). Los IDP tradicionales se cierran hacia enterprise; los disruptores nacen API-first.
  • El stack ganador para SMB español es híbrido y barato. Mistral OCR 3 + Claude Sonnet 4.6 o Gemini 2.5 Flash + validación determinista propia (NIF, IVA, cuadre matemático) + integración Holded. Coste objetivo: $0,005–0,01 por factura. F1 >97% con human-in-the-loop en 5–10% del flujo. Alternativa: partnership con Invofox (Madrid, único proveedor con foco nativo España).
  • Verifactu retrasado a 2027 en dos fechas distintas. El RD-Ley de 2-dic-2025 separa: 1-ene-2027 para sociedades, 1-jul-2027 para autónomos y profesionales. Da 12–18 meses de pista de ejecución. Cualquier pipeline serio debe diseñarse pensando en trazabilidad pixel-exacta para auditoría, no solo en accuracy.

Parte 1 — Para entender de qué va, sin tecnicismos

El problema

Imagínate un becario contable al que le llegan cada día sesenta facturas mezcladas: facturas en PDF nativo, escaneos torcidos hechos con el móvil, recibos en alemán, facturas de proveedor con líneas de producto enrevesadas, suplidos sin IVA, y una de Andorra que es B2B intracomunitaria con reverse charge. Su trabajo es extraer los campos clave (CIF del emisor, base imponible, cuota de IVA, total, fecha, número de factura, líneas), validarlos contra el ERP, y meterlos en Holded o A3 con el código contable correcto. Si se equivoca una sola vez en una factura grande, el cliente lo nota. Si se equivoca un 0,5% de las veces, sale del trabajo en una semana.

Llevamos diez años intentando que un software haga esto. Los OCR clásicos (Textract, Tesseract) leen letras pero no entienden estructura. Los IDP tradicionales (Rossum, Klippa, Mindee) entienden estructura pero cuestan caro y no manejan bien casos largo-tail. Y los modelos generalistas tipo ChatGPT entienden todo pero alucinan números y no son auditables.

Lo que ha cambiado en los últimos doce meses es que esa frontera entre OCR especializado y modelo generalista se ha hecho difusa: los modelos multimodales (los que entienden texto e imagen a la vez) han alcanzado paridad con los IDP tradicionales en facturas estándar y los superan en casos complejos. A la vez, han aparecido modelos especializados open-source que rinden mejor que los closed-source de antes a un coste 50× menor. Y, como guinda, una empresa francesa (Mistral) ha lanzado en diciembre de 2025 un servicio que cobra dos dólares por mil páginas — un nivel de precio que hace dos años nadie habría imaginado.

Esto plantea una pregunta directa para cualquiera que tenga el dolor de procesar facturas: ¿qué se compra y qué se construye, hoy, en mayo de 2026, para tener un sistema que funcione bien con poco error y a coste razonable?

Por qué importa esto para tu negocio

Procesamiento de facturas suena a problema operativo aburrido, pero es exactamente donde más se está aplicando IA en empresas reales. Anthropic publicó en enero de 2026 que "build and maintain invoice processing systems" representa el 0,24% de todo el tráfico de su API enterprise — el mismo orden de magnitud que automatización de email o de calendario. Es un caso de uso ya consolidado en producción, no un experimento. Tres ejemplos concretos de impacto:

  • Caso 1 — SMB español con Holded/A3 (perfil cliente Intelia). Una empresa que procesa 5.000–50.000 facturas al año (la mayoría de las que llaman a Intelia) gasta hoy entre 15.000 y 80.000 € al año entre IDP comercial + horas humanas de revisión. El stack moderno (Mistral OCR + VLM frontier + validación propia) lo baja a 5.000–15.000 € al año en infraestructura + un comercial part-time supervisando excepciones. La diferencia es el margen del proyecto.
  • Caso 2 — Mid-market con SAP. Empresa con 100.000+ facturas/año, exigencia de audit trail y certificaciones (SOC 2, GDPR). Aquí el cálculo cambia: la decisión NO es coste por factura, es velocidad de cierre contable + trazabilidad para auditoría. Vencedor: proveedor especializado con integración SAP profunda (Hypatos, Rossum) o stack propio con bounding boxes pixel-exactos.
  • Caso 3 — Software contable que quiere embed. Plataformas tipo Holded, ContaSimple o A3 que ya tienen el cliente y quieren que el cliente nunca tenga que volver a teclear una factura. Empotrar parsing dentro del producto. Hueco que ya está ocupado por Invofox (Madrid, YC) — el único proveedor con foco nativo en el mercado español.

En los tres casos el bottleneck no es la inteligencia del modelo. Claude Opus 4.7, GPT-5 o Gemini 2.5 Pro entienden de sobra una factura. El bottleneck es el pipeline completo: cómo orquestas OCR + razonamiento + validación + reconciliación con el ERP + trazabilidad para auditoría. Quien mejor diseñe ese pipeline gana, no quien tenga el modelo más grande.

Y hay una restricción específica para España: Verifactu, el nuevo sistema de facturación verificada de la AEAT, entra en vigor en 2027 (1 de enero para sociedades, 1 de julio para autónomos y profesionales). Cualquier pipeline que aspire a ser comprable por un cliente español a partir de 2026 tiene que poder generar/leer formato Verifactu y cuadrar con el sistema SII en tiempo cuasi-real. Esto descarta proveedores cuyo soporte español sea superficial.

Las apuestas: quién está construyendo qué

Si quitas el marketing y miras el mercado serio, hay cinco ángulos de ataque distintos al problema de extraer datos de facturas. Cada uno con sus ganadores actuales:

  1. Hyperscalers cloud (AWS Textract, Azure Document Intelligence, Google Document AI). El default cuando una empresa ya está en una nube concreta. Precios razonables ($0,01–0,03 por página), latencia variable, integración limitada con ERPs españoles. No es la mejor opción técnica, pero es la opción de mínimo esfuerzo en empresas con cloud preestablecida.
  2. IDP especialistas tradicionales (Rossum, Klippa→Doxis, Hypatos, Veryfi, Mindee, Nanonets). Modelos propios entrenados sobre millones de documentos transaccionales, UI human-in-the-loop pulida, certificaciones enterprise. Caros (Rossum desde $18.000/año), pero el ajuste perfecto si compras "AP automation" como producto cerrado. Mindee es la mejor opción europea API-first. Hypatos es lo que se compra si el cliente vive dentro de SAP.
  3. Modelos VLM frontier por API (Claude 4.x, GPT-5, Gemini 2.5). Los grandes de OpenAI, Anthropic y Google ya leen una factura tan bien como un IDP especializado, especialmente en formatos no estándar. Gemini 2.5 Pro es el único modelo cerrado con benchmark público específico de facturas en cabeza (Berghaus 2025). El coste por factura sale parecido a un IDP barato (~$0,01–0,03), pero la flexibilidad para razonar sobre el contenido (mapear a plan contable, detectar duplicados, justificar IVA aplicado) no tiene comparación.
  4. Modelos open-source / self-hosted (Qwen 2.5-VL, InternVL3, DeepSeek-VL2, MinerU 2.5). Si tu volumen pasa de cierto umbral o tienes restricciones de data residency, montar tu propio modelo es defendible. Qwen 2.5-VL-72B y InternVL3-78B lideran benchmarks abiertos. MinerU 2.5-Pro (1,2B parámetros) lidera el OmniDocBench global — un modelo pequeño chino batiendo a gigantes. ⚠️ Atención con Llama 4: la licencia excluye explícitamente uso multimodal en la UE.
  5. Disruptores 2025-2026 (Mistral OCR 3, Reducto, Extend AI, Invofox, DDD Invoices). Aquí está la innovación reciente. Mistral OCR 3 es la commodity de precio. Reducto ofrece un modelo open-source (RolmOCR) + API comercial + acaba de cerrar $75M en febrero 2026 con a16z liderando. Invofox (Madrid, YC) es el único con foco nativo español + Holded/A3/ContaSimple. DDD Invoices (Eslovenia) está construyendo "compliance multi-país en una API".

Y hay una sexta categoría híbrida que probablemente sea el patrón que va a ganar en producción: combinar capas. Un OCR especializado barato (Mistral OCR 3 o un modelo open) para extracción bruta + un VLM frontier (Claude o Gemini) para razonamiento y mapeo a plan contable + reglas deterministas propias para validación matemática + integración directa con el ERP del cliente. No hay un proveedor que venda ese stack completo. Hay que construirlo.

Hacia dónde va esto

Mi lectura del rumbo en los próximos 12–18 meses, a partir de lo que hace cada player y de los movimientos regulatorios:

  1. El precio del OCR va a cero. Mistral OCR 3 a $0,002/página es el suelo "público" hoy. Para finales de 2026 veremos modelos open-source con calidad equivalente a coste cero (solo computación). Cualquier proveedor que cobre >$0,05/página por OCR puro tendrá que justificarlo con UI, integraciones y SLA — no con tecnología.
  2. El valor se mueve hacia razonamiento contable y trazabilidad. Si extraer texto es commodity, lo diferencial es: ¿el sistema entiende que esto es un suplido y va a cuenta 627 en vez de 629? ¿detecta que el cliente está aplicando reverse charge intra-EU y necesita VAT VIES? ¿puede mostrar exactamente dónde leyó el "21%" en la factura para una auditoría? Ahí está el margen.
  3. El stack ganador va a ser híbrido y construido, no comprado en una sola pieza. Capa de OCR/extract barata + capa de razonamiento con un VLM frontier + capa de validación propia + integración nativa con el ERP local. Nadie va a vender "factura procesada llave en mano" para SMB español con margen sano — quien lo intente compite contra una stack DIY que cuesta $0,01/factura.
  4. Consolidación seguirá. Coupa acaba de comprar Rossum. Klippa ya es Doxis. Es predecible que algún hyperscaler (probablemente Google o Microsoft) compre uno de los IDP medianos restantes (Mindee, Klippa, Docsumo) en los próximos 12 meses para reforzar su oferta de Document AI. Para el comprador SMB, esto significa: cuidado con apostar por un vendor que pueda desaparecer o cambiar drásticamente bajo nuevo dueño.
  5. Verifactu (España) cambia las reglas. A partir de 1-ene-2027 (sociedades) / 1-jul-2027 (resto), cualquier sistema de facturación en España tiene que generar registros verificables y enviarlos a AEAT/SII. Esto separa proveedores serios de oportunistas. Los que ya soportan UBL/PEPPOL nativo (Doxis, DDD Invoices) tienen ventaja temporal. Hueco claro para Intelia o un partner local: el "stack Verifactu-ready over Holded/A3".

Para un decisor (CFO, director ops, fundador SMB): no compres "extracción de facturas" como producto cerrado todavía. Lo que está pasando va demasiado rápido. Monta un pilot pequeño con Mistral OCR 3 + Claude o Gemini en la capa de razonamiento + validación propia, mide qué falla con tu corpus real (no con benchmarks públicos), y decide en seis meses si build vs buy. Y si tu cliente es 100% Holded/A3 español, mira Invofox — probablemente sea más rápido partnerar que construir.

Si quieres entender cómo funciona cada una de estas líneas, qué modelos exactos elegir, qué benchmarks miran de verdad, y qué hay debajo de la palabra "VLM", sigue a la Parte 2.



A partir de aquí, la Parte 2 entra en arquitectura, matemáticas y papers. Si solo te interesaba el "qué" y no el "cómo", puedes parar aquí.

Parte 2 — Cómo funciona por dentro (técnica)

2.1 — Fundamentos

El espacio se descompone en siete capas que combinas en un pipeline real. Entender los trade-offs de cada capa es lo que distingue a un sistema que rinde >99% en producción de un POC que demo bonito y muere en la primera factura larga.

Las capas:

[INPUT: PDF / imagen / escaneo móvil]
            │
            ▼
   ┌────────────────────────────┐
   │ Capa 1: OCR / Document AI  │  ←─ extracción de texto + layout
   │  (modelo especializado)    │
   └────────────────────────────┘
            │
            ▼
   ┌────────────────────────────┐
   │ Capa 2: VLM / razonamiento │  ←─ comprensión semántica + structured output
   └────────────────────────────┘
            │
            ▼
   ┌────────────────────────────┐
   │ Capa 3: Structured output  │  ←─ JSON garantizado por schema
   │  (constrained decoding)    │
   └────────────────────────────┘
            │
            ▼
   ┌────────────────────────────┐
   │ Capa 4: Validación         │  ←─ reglas deterministas + LLM judge
   │  matemática + semántica    │
   └────────────────────────────┘
            │
            ▼
   ┌────────────────────────────┐
   │ Capa 5: Tool use / agent   │  ←─ llamadas a VIES, AEAT, ERP
   └────────────────────────────┘
            │
            ▼
   ┌────────────────────────────┐
   │ Capa 6: Serving para       │  ←─ vLLM, SGLang, batch, cache
   │  volumen                   │
   └────────────────────────────┘
            │
            ▼
[OUTPUT: registro en ERP + trazabilidad para auditoría]

La capa transversal es Capa 7: compresión visual / long-context, que ataca el problema de meter facturas largas o batches grandes en el contexto sin reventar coste.

Veamos cada una con detalle, citando modelos, papers y números que rigen el estado del arte a 27 de mayo de 2026.

2.2 — Capa 1: modelos OCR / Document AI especializados

Esta categoría agrupa modelos diseñados específicamente para extraer texto y estructura de documentos. La mayoría ha pivotado a arquitecturas VLM compactas (1B–9B parámetros) fine-tuneadas sobre datasets curados.

A) DeepSeek-OCR — el disruptor de compresión

  • Lab: DeepSeek-AI · Release: 21-oct-2025 · Paper: arXiv 2510.18234 · Repo: github.com/deepseek-ai/DeepSeek-OCR
  • Arquitectura: DeepEncoder (vision encoder de alta resolución y baja activación) + DeepSeek3B-MoE-A570M (3B totales, ~570M activos por token).
  • Innovación central: contexts optical compression. Representan el texto como "vision tokens" para reducir tokens consumidos por el LLM. Con ratio <10× → 97% precisión OCR; a 20× → ~60%.
  • Benchmarks: supera GOT-OCR2.0 (256 tok/pág) usando 100 vision tokens; supera MinerU 2.0 (6000+ tok/pág) con <800 vision tokens en OmniDocBench.
  • Throughput: 200.000+ páginas/día en una sola A100-40G; en cluster 20×8 A100 → 33M páginas/día.
  • Licencia: MIT. Idiomas: ~100 lenguas declaradas (foco evaluativo chino/inglés).
  • Limitación: precisión degrada al aumentar el ratio de compresión; pensado para casos donde el coste de procesar documentos largos importa más que fidelidad línea-a-línea.
  • Crítica académica: arXiv 2512.03643"Optical Context Compression Is Just (Bad) Autoencoding" argumenta que el approach es esencialmente autoencoding subóptimo. Leer antes de comprometerse con el paradigma.

B) MinerU 2.5 / MinerU 2.5-Pro — el SOTA actual en parsing genérico

  • Lab: OpenDataLab (Shanghai AI Laboratory).
  • MinerU 2.5: 26-sep-2025 · arXiv 2509.22186
  • MinerU 2.5-Pro: 6-abr-2026 · arXiv 2604.04771
  • Weights: HF opendatalab/MinerU2.5-2509-1.2B
  • Arquitectura: VLM de 1,2B parámetros con estrategia coarse-to-fine en dos etapas — layout analysis sobre imagen downsampled + recognition sobre crops a resolución nativa guiados por el layout. 2.5-Pro mantiene la misma arquitectura, solo cambia data engineering (10M → 65,5M muestras) + alineamiento GRPO.
  • Benchmark estrella: MinerU 2.5-Pro = 95,75 overall en OmniDocBench v1.6_full (corregido tras auditoría — el primer reporte decía "v1.7", el paper reporta v1.6_full).
  • Comparativa: supera a Gemini 2.5 Pro, Qwen 2.5-VL-72B, GPT-4o, MonkeyOCR, dots.ocr y PP-StructureV3 en text/formula/table/reading-order — con 60× menos parámetros que muchos competidores.
  • Licencia: Apache 2.0 (código); pesos AGPL-3.0 según releases recientes.

C) olmOCR / olmOCR 2 — el del RL con unit tests

  • Lab: Allen Institute for AI (Ai2).
  • olmOCR: 25-feb-2025 · arXiv 2502.18443
  • olmOCR 2: 22-oct-2025 · arXiv 2510.19817
  • Weights: HF allenai/olmOCR-2-7B-1025
  • Arquitectura: VLM 7B fine-tuneado sobre Qwen 2.5-VL-7B. v2 entrenado con RLVR (Reinforcement Learning from Verifiable Rewards) — los rewards son unit tests binarios sobre conversión correcta de fórmulas, tablas y layouts.
  • Benchmark: olmOCR 2 = 82,4 ± 1,1 en olmOCR-Bench, +14,2 puntos sobre v1; supera Marker (76,1), MinerU (75,8), GPT-4o, Gemini Flash 2 y Qwen-2.5-VL.
  • Idiomas: oficialmente solo inglés — limitación crítica para casos europeos multi-idioma.
  • Coste: olmOCR v1 = $176 por millón de páginas vs $6.240 de GPT-4o (35× más barato).
  • Por qué importa para facturas: el patrón "unit tests as RL reward" es directamente trasladable a validación de extracción. Convertir "validation" en suite de tests binarios (¿NIF válido? ¿suma cuadra? ¿fecha presente?) y usarlos tanto en evaluación como en fine-tuning RL es probablemente la mejor idea del año para producción.

D) dots.ocr / dots.mocr — el compacto multilingüe

  • Org: rednote-hilab (Xiaohongshu) · Release: 30-jul-2025 (modelo); paper 2-dic-2025 · arXiv 2512.02498
  • Arquitectura: VLM unificado de 1,7B parámetros basado en Qwen 2.5-VL (dots.mocr crece a 3B). Aprendizaje conjunto end-to-end de layout detection + text recognition + relational understanding.
  • Benchmarks (OmniDocBench): Overall Edit↓ 0,125 (EN) / 0,160 (ZH); Text Edit↓ 0,032 (EN); Table TEDS↑ 88,6 (EN).
  • Innovación: XDocParse — benchmark interno con 126 idiomas; +10% mejora relativa vs SOTA.
  • Licencia: MIT. Idiomas: 100+ declarados.

E) Mistral OCR / Mistral OCR 3 — la commodity

  • Lab: Mistral AI (París).
  • Mistral OCR (v1): 6-mar-2025.
  • Mistral OCR 3: 17-dic-2025 (modelo mistral-ocr-2512).
  • Sin paper formal — solo blog y model card.
  • Benchmarks self-reported OCR 3: 88,9% handwriting (vs Azure 78,2%); 96,6% tablas (vs Textract 84,8%); 74% win rate vs Mistral OCR 2 (cifras embedded en imágenes del blog).
  • OmniDocBench: 79,75 (medición de CodeSOTA, no self-report Mistral). Gap significativo vs MinerU 2.5-Pro (95,75) — el marketing infla la calidad real.
  • Pricing: $2/1.000 páginas o $1/1.000 con Batch API (50% descuento). Hasta 2.000 páginas/min en single node.
  • Por qué es disruptivo: undercut del 97% vs AWS Textract, 93% vs Google Document AI, 50–75% vs Azure. Redefine la matriz build-vs-buy para volumen alto.
  • Limitación: cerrado (sin weights). Sin paper revisable. Calidad real en benchmarks independientes está por debajo del marketing.

F) Otros relevantes

  • RolmOCR (Reducto, abr-2025): VLM 7B fine-tuneado sobre Qwen 2.5-VL-7B. Optimización: elimina metadata PDF → menos tokens, menos VRAM. Apache 2.0. 190k downloads en HF en primer mes.
  • Chandra (Datalab, oct-2025): VLM 9B fine-tuneado sobre Qwen3-VL. Overall 83,1 ± 0,9 en olmOCR-Bench (mejor open-source oct-2025). Licencia OpenRAIL.
  • Surya + Marker (Datalab): pipelines modulares con modelos compactos. Surya soporta 90+ idiomas. Licencia GPL-3.0 + RAIL-M — gratuito para empresas <$2M ingresos.
  • GOT-OCR 2.0 (StepFun, sep-2024): 580M params end-to-end. Baseline obligatorio en cualquier benchmark 2025-26. arXiv 2409.01704.
  • Nougat (Meta, ago-2023): de facto abandonado. Sin updates desde 2023. arXiv 2308.13418.

Tabla comparativa OCR especializados

Modelo Fecha Params Benchmark estrella Idiomas Licencia
DeepSeek-OCR Oct 2025 3B (570M act.) OmniDocBench: bate GOT-OCR con 100 tok ~100 MIT
MinerU 2.5-Pro Abr 2026 1,2B OmniDocBench v1.6_full: 95,75 zh/en + multi Apache 2.0 / AGPL pesos
olmOCR 2 Oct 2025 7B olmOCR-Bench: 82,4 Solo EN Apache 2.0
dots.ocr Jul 2025 1,7B OmniDocBench Overall Edit 0,125 EN 100+ MIT
Mistral OCR 3 Dic 2025 N/D OmniDocBench 79,75 (CodeSOTA) · 74% win vs OCR 2 Multi EU Comercial
Chandra Oct 2025 9B olmOCR-Bench: 83,1 40+ OpenRAIL
RolmOCR Abr 2025 7B Equivalente a olmOCR, más rápido Multi Apache 2.0
Surya 2024–2026 Pipeline Layout AP ~0,90 90+ GPL-3.0 + RAIL-M

2.3 — Capa 2: VLMs generalistas (cerrados y abiertos)

Modelos cerrados por API

Anthropic — Claude 4 family

Variante Release Pricing 1M tok (in/out)
Claude Opus 4 22-may-2025 $15 / $75
Claude Sonnet 4 22-may-2025 $3 / $15
Claude Sonnet 4.5 sep-2025 $3 / $15
Claude Opus 4.5 nov-2025 $5 / $25
Claude Sonnet 4.6 feb-2026 $3 / $15
Claude Opus 4.7 16-abr-2026 $5 / $25

⚠️ Sobre Claude Opus 4.7 y DocVQA: circula la cifra DocVQA 93,8% (vs 87,4% en 4.6) en blogs terceros. Anthropic NO publica DocVQA oficialmente — la cifra solo aparece en cobertura tercera (Mindstudio, Lushbinary). El blog oficial confirma "large jumps on DocVQA/ChartQA" sin tabla pública. Si se cita, siempre con caveat.

🟢 Resolución imagen Opus 4.7: Anthropic confirma "more than triple the capacity of earlier Claude versions" — consistente con 2.576 px lado largo / ~3,75 MP. Este salto es probablemente el cambio más relevante para facturas escaneadas en formato A4.

OpenAI — GPT-5 + GPT-4.1

  • GPT-4.1 / 4.1 mini / 4.1 nano (14-abr-2025): contexto 1M. Pricing: $2/$8, $0,40/$1,60, $0,10/$0,40 por 1M tokens.
  • GPT-5 (7-ago-2025): multimodal nativo. MMMU 84,2% (self-report). CharXiv: tasa de alucinación 9% vs 86,7% de o3. Pricing $1,25 / $10 por 1M.
  • DocVQA/OCRBench: OpenAI no publica oficialmente. Cifras circulantes vienen de leaderboards terceros.

Google — Gemini 2.5

  • Paper: arXiv 2507.06261"Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities".
  • Gemini 2.5 Pro (jun-2025 GA): contexto 1.048.576 input / 65.536 output. Pricing: $1,25 / $10 por 1M tokens.
  • Gemini 2.5 Flash: $0,30 / $2,50 por 1M tokens — relación coste/calidad para alto volumen.
  • Performance en facturas: Gemini 2.5 Pro es el top en Berghaus 2025 (ver §2.4). En OCRBench v2 EN era top a inicios 2026 con 59,3 — actualmente superado por KDL Frontier (68,1), Nemotron 3 Nano Omni (65,8) y Gemini 3 Pro Preview (63,4) (corregido tras auditoría).

Modelos open-source / open-weights

Qwen 2.5-VL (3B / 7B / 72B) — Alibaba

  • Release: ene-2025 · Paper: arXiv 2502.13923
  • Benchmarks (72B): DocVQA 96,4 · OCRBench 885/1.000 (corregido tras auditoría — es score sobre 1.000, NO porcentaje).
  • Idiomas: ~29 idiomas reportados por terceros incluyendo español 🟡 (el blog oficial Qwen NO enumera 29; la cifra es de fuentes terceras).
  • Licencia: Apache 2.0 (3B/7B), Qwen license (72B).
  • VRAM: 72B ≈ 140 GB fp16; 7B en una A100 40GB; 3B en consumer GPU.

Qwen3-VL — Alibaba

  • Release: primer drop 4-oct-2025 · Paper: arXiv 2511.21631
  • Variantes: 2B / 4B / 8B / 32B dense + 30B-A3B MoE + 235B-A22B MoE.
  • Arquitectura: contexto nativo 256K tokens interleaved (texto + imagen + vídeo).
  • Estado: demasiado nuevo (nov-2025) para tener benchmarks independientes consolidados en facturas.

InternVL3 / InternVL3.5 — Shanghai AI Lab + OpenGVLab

  • InternVL3 (abr-2025) · arXiv 2504.10479
  • InternVL3.5 (ago-2025) · arXiv 2508.18265
  • Benchmarks InternVL3-78B: OCRBench 906 (mejor open declarado en su momento), DocVQA ~94+%.
  • Benchmarks InternVL3-8B: DocVQA 92,7%.
  • InternVL3.5: Cascade RL + Visual Resolution Router (ViR). 4,05× speedup en inferencia vs InternVL3.
  • Licencia: MIT.

Llama 4 (Scout / Maverick / Behemoth) — Meta

  • Release: 5-abr-2025 (Scout + Maverick; Behemoth en training). Blog: ai.meta.com/blog/llama-4-multimodal-intelligence
  • Arquitectura: primer MoE de Meta. Native multimodal early-fusion. iRoPE para contexto extremo.
  • Contexto: Scout 10M tokens; Maverick 1M tokens.
  • Params: Scout 17B activos / 109B totales; Maverick 17B activos / 400B totales; Behemoth ~2T totales (declarado, no liberado).
  • Benchmarks: DocVQA 94,4% Scout y Maverick (en model card, NO en blog oficial).
  • ⚠️ Licencia: Llama 4 Community License — restricción multimodal explícita para individuos y empresas con sede en la UE. Cláusula equivalente en Llama 3.2. Punto bloqueante para clientes europeos.

DeepSeek-VL2 — DeepSeek

  • Release: 13-dic-2024 · Paper: arXiv 2412.10302
  • Arquitectura: MoE (DeepSeekMoE) + dynamic tiling vision encoder. 4,5B params activos en variante grande, ~27B totales.
  • Benchmarks: OCRBench 834 (vs GPT-4o ~736), DocVQA 93,3%.
  • Licencia: DeepSeek Model License (uso comercial permitido).
  • Por qué importa para facturas: mejor relación VRAM/rendimiento del catálogo open. 4,5B activos = corre en una sola GPU consumer-ish y rinde DocVQA 93,3%.

Otros

  • Molmo + PixMo (Ai2, sep-2024): arXiv 2409.17146. Apache 2.0. Diferenciador: dataset PixMo creado por anotadores humanos sin destilación.
  • Pixtral 12B (Mistral, sep-2024): arXiv 2410.07073. Obsoleto frente a Qwen 2.5-VL-7B / InternVL3-8B.
  • MiniCPM-V 2.6 + 4.5 (OpenBMB): arXiv 2408.01800. Foco edge/on-device.
  • Aria (Rhymes AI, oct-2024): arXiv 2410.05993. MoE multimodal nativo. Ecosistema pequeño.

Tabla comparativa VLMs (resumen)

Modelo Fecha Params DocVQA OCRBench $/1M tok Licencia
Claude Opus 4.7 16-abr-2026 N/D 93,8% 🟡 N/D $5/$25 Propietaria
Claude Sonnet 4.6 feb-2026 N/D N/D oficial N/D $3/$15 Propietaria
GPT-5 7-ago-2025 N/D N/D oficial N/D $1,25/$10 Propietaria
Gemini 2.5 Pro jun-2025 N/D top Berghaus invoice OCRBench v2 EN 59,3 (ya no top) $1,25/$10 Propietaria
Gemini 2.5 Flash jun-2025 N/D N/D N/D $0,30/$2,50 Propietaria
Qwen 2.5-VL-72B ene-2025 72B 96,4 885/1000 self-host Qwen License
InternVL3-78B abr-2025 78B ~94+ 906 self-host MIT
InternVL3-8B abr-2025 8B 92,7 N/D self-host MIT
Llama 4 Scout 5-abr-2025 17B act / 109B 94,4 (model card) N/D self-host Llama 4 ⚠️ UE
DeepSeek-VL2 13-dic-2024 4,5B act / ~27B 93,3 834 self-host DeepSeek License

2.4 — Benchmarks: qué medir y qué NO medir

Berghaus et al. 2025 — el único directo

  • Paper: arXiv 2509.04469"Multi-Modal Vision vs. Text-Based Parsing: Benchmarking LLM Strategies for Invoice Processing".
  • Autores: Berghaus, Berger, Hillebrand, Cvejoski, Sifa (Fraunhofer IAIS + Univ. Bonn).
  • Diseño: 8 modelos · 3 familias (GPT-5, Gemini 2.5, Gemma 3) · 3 datasets:
  • Clean Invoices (Donut, 500 sintéticos)
  • Scanned Receipts (ICDAR-2019-SROIE, 1.000)
  • Scanned Invoices (inv-cdip, 350 reales del Tobacco Collections)
  • Hallazgo principal: procesamiento nativo de imagen supera consistentemente al pipeline OCR→markdown→LLM.
  • Top: Gemini 2.5 Pro (native image) — Scanned Receipts 87,46% · Clean Invoices 96,50% · Scanned Invoices 92,71% 🟡 (verificar tabla del PDF antes de cita formal).
  • Caveat: ningún dataset español ni EU multi-idioma realista.

DocILE — el más serio de facturas, congelado en 2023

  • arXiv 2302.05658 · Šimsa et al. (Rossum + Czech TU). ICDAR 2023 + CLEF 2023.
  • Dataset: 6.680 documentos anotados + 100.000 sintéticos + ~1M no etiquetados. 55 clases de campos.
  • Tareas: KILE (Key Information Localization and Extraction con coordenadas) + LIR (Line Item Recognition).
  • Ganador competición ICDAR'23: GraphDoc (USTC-iFLYTEK).
  • Limitaciones críticas: solo inglés/checo. NO cubre ES/FR/DE/IT. Sintéticos con distribución no realista. Congelado desde 2023.

OmniDocBench — el holístico

  • arXiv 2412.07626 · 1.651 páginas · 9 fuentes documentales · 5 variantes lingüísticas. No incluye facturas comerciales.
  • Top a abr-2026 (v1.6_full):
  1. MinerU 2.5-Pro 95,75
  2. GLM-OCR 95,22
  3. PaddleOCR-VL-1.5 94,93
  4. PaddleOCR-VL 94,18
  5. Youtu-Parsing 93,74
  • Mistral OCR 3 a 79,75 — gran gap vs top chinos.

OCRBench v2 — el text-centric bilingüe

  • arXiv 2501.00321 · 10.000 QA pairs · 31 escenarios · 23 sub-tareas · bilingüe EN/ZH · test set privado.
  • Hallazgo: la mayoría de modelos puntúan <50/100 → no saturado.
  • Top EN (snapshot 2026.03) corregido tras auditoría:
  1. KDL Frontier 68,1
  2. Nemotron 3 Nano Omni 65,8
  3. Gemini 3 Pro Preview 63,4
  4. Gemini-2.5-Pro 59,3
  5. Llama-3.1-Nemotron-Nano-VL-8B-V1 56,4

OHR-Bench — el de RAG real

  • arXiv 2412.02592 — título oficial: "OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation".
  • 8.561 PDFs en 7 dominios · 8.498 QA pairs.
  • Hallazgo brutal: "even the best OCR solutions exhibit a performance gap of 14% minimum vs. ground truth structured data".

Otros relevantes

  • MMLongBench-Doc (arXiv 2407.01523): 130 PDFs largos · GPT-4o baseline 42,7% F1.
  • MTVQA (arXiv 2405.11985): 9 idiomas incluyendo FR/DE/IT (no ES). Gap brutal humano-modelo (~50 puntos).
  • VRDU (arXiv 2211.15421): Google Research KDD 2023. Sub-dataset Ad-Buy Forms con line items reales.

Los saturados — no usar como decisor

  • CORD (NeurIPS DI'19): F1 ~97-98. Saturado desde 2022. Solo indonesio.
  • SROIE (arXiv 2103.10213): F1 ~98. Solo 4 campos.
  • FUNSD (arXiv 1905.13538): F1 entity ~0,93. Solo 199 formularios USA antiguos.
  • DocVQA (arXiv 2007.00398): top en 95-96% ANLS. Humanos a 98,4%. Saturado.

El gap detectado

Ningún benchmark público mide exactamente lo que importa para el caso Intelia:

  • Cobertura ES/FR/DE/IT/PT con volumen suficiente.
  • Line items con jerarquía y validación matemática.
  • Reconciliación con plan contable español (PGC).
  • Regímenes fiscales reales: IVA reverse charge, OSS, retenciones IRPF, suplidos.
  • Métricas de coste/latencia/confianza calibrada para HITL routing.

Eval interno propio sobre corpus del cliente real es la única evaluación válida. Cualquier número público es señal direccional, no veredicto.

2.5 — Capa 3: structured output / constrained decoding

Esto es la diferencia entre "el modelo intenta dar JSON" y "es matemáticamente imposible que el JSON no valide contra el schema".

XGrammar — Dong et al., MLSys 2025

  • arXiv 2411.15100
  • Divide el vocabulario en tokens context-independent (99%, precomputables en bitmasks) y context-dependent (1%, inspección de stack en runtime) → CFG expressiveness con FSM performance.
  • Backend por defecto de vLLM (dic-2024), SGLang (nov-2024) y TensorRT-LLM (mar-2026).
  • <40 μs/token, overhead casi cero en JSON.

XGrammar-2 — may-2026

  • blog.mlc.ai/2026/05/04/xgrammar-2
  • Introduce Structural Tag — protocolo JSON composable que unifica OpenAI harmony, tool calling, reasoning channels y outputs custom.
  • Cross-grammar caching + speculative decoding.

Frameworks Python

  • Instructor: ~11k stars, 3M downloads/mes. Pydantic-based, retry automático con feedback de validación, streaming. Patrón estándar para invoice schemas.
  • PydanticAI: agent framework (tool registration, multi-step loops, DI, result validation). Ideal cuando la factura dispara llamadas a VIES/AEAT.
  • BAML: lenguaje propio con code generator. Para facturas con campos heterogéneos por país, escala mejor el mantenimiento de schemas.
  • Outlines: ⚠️ regresión. arXiv 2501.10868 — pionero del approach FSM, pero compliance rate más bajo entre engines testados; compile times de 40s a 10+ min con schemas complejos. Descartado para producción con jerarquías profundas (line items anidados).
  • OpenAI Structured Outputs / Strict Mode (ago-2024) → estándar de facto 2025-2026.

2.6 — Capa 4: validación cruzada y self-correction

LLM-as-a-judge para extracción de facturas

  • towardsai.net — From extraction to accuracy
  • Patrón documentado: extractor (Modelo A) → judge (Modelo B) que evalúa cada campo contra el OCR raw con scoring por categoría.
  • Recomendación clave: el judge debe ver el documento original, no solo la extracción. Si no, solo valida coherencia interna.

Survey EMNLP 2025 LLMs-as-Judges

  • arXiv 2412.05579
  • Cubre biases (position, verbosity, self-preference) y limitaciones de self-correction "puro".
  • Implicación: NO confiar en self-refine sin reglas deterministas.

Reconciliación matemática determinista — la capa crítica

No es paper, es ingeniería estándar pero crítica para alcanzar <1% error:

  • sum(line_items.amount) == subtotal
  • subtotal * (1 + vat_rate) == total
  • Formato NIF español (regex + checksum letra)
  • Validación IBAN (mod-97)
  • Fecha en rango razonable vs invoice_date
  • Coherencia base imponible × tipo IVA = cuota IVA (con tolerancia de redondeo)

Esta capa atrapa más errores que cualquier LLM judge. Es la base de cualquier pipeline serio.

Unit Test Rewards (olmOCR 2) — el patrón paradigmático

  • arXiv 2510.19817
  • En lugar de LLM-as-judge fuzzy, entrenan con RLVR donde el reward es un conjunto diverso de unit tests binarios deterministas.
  • olmOCR-Bench: 7.010 unit tests sobre 1.402 PDFs.
  • Idea trasladable a facturas: convertir "validation" en suite de tests binarios y usarlos tanto en eval como en RL fine-tuning. Probablemente la mejor idea del año para producción.

2.7 — Capa 5: agentes con tool use para facturas

LandingAI Agentic Document Extraction (ADE)

V7 Go VAT Compliance Agent

  • v7labs.com/agents/vat-compliance-agent
  • Caso público con tool use real: extrae supplier name + VAT number + invoice date + line items y llama a VIES (Comisión Europea) para validar VAT.
  • Requisito de auditoría en operaciones intra-EU exentas.

VATCalc Agentic AI

  • vatcalc.com/products/agentic-ai-for-vat
  • Primer agente VAT-dedicated en 2025.
  • Usa su propio MCP server para conectar el LLM al motor fiscal legislation-coded.
  • Determina IVA aplicable, traza la cadena de reglas legislativas y explica outcomes — auditable.
  • Es el patrón que probablemente Intelia debería replicar para clientes españoles con AEAT.

Anthropic — Advanced Tool Use

  • anthropic.com/engineering/advanced-tool-use
  • Tool Search Tool: acceso a miles de tools sin consumir context window.
  • Programmatic Tool Calling: ejecuta tools en sandbox de código para reducir el blow-up del context.
  • Crítico para facturas: un agente puede orquestar VIES + AEAT + Holded API + matcher fuzzy en un loop sin saturar el context.

Anthropic Economic Index (ene-2026)

Ramp — invoice processing pattern

Patrón Stripe / Coinbase / Ramp de agentes internos (2025)

  • Stripe (Minions ~500 tools), Ramp (Inspect), Coinbase (Cloudbot).
  • Convergencia independiente en: sandbox aislado, toolset curado, subagent orchestration, integración con Slack/Linear/GitHub.

⚠️ Gap detectado para España: ningún caso público con arquitectura documentada llamando a la API de AEAT/SII en este periodo. Hay productos cerrados (Holded, Sage) pero no engineering blogs. Oportunidad de contenido propio Intelia.

2.8 — Capa 6: serving para volumen masivo

vLLM V1 (ene-2025)

  • Rewrite del core; PagedAttention + scheduler reescrito. Soporte day-one de modelos nuevos vía plugin architecture.

vLLM Encoder Disaggregation (EPD, nov-2025)

  • blog.vllm.ai/2025/12/15/vllm-epd.html
  • Separa el vision encoder en servicio centralizado → cache cross-request.
  • Una factura escaneada con el mismo logo/template reutiliza embeddings. Cached requests = zero encoder cost.
  • Crítico para volumen masivo con templates repetidos (factura recurrente del mismo proveedor).

LMCache para multimodales (jul-2025)

SGLang vs vLLM 2026

  • SGLang ~5–8% TTFT p95 mejor en concurrency alta; mejor en raw throughput de modelos pequeños.
  • vLLM mejor para batch templated.
  • SGLang explícitamente diseñado para multi-step structured generation — encaja con extracción que llama tools.

2.9 — Capa 7: compresión visual y long-context

  • DeepSeek-OCR (arXiv 2510.18234) — el paper paradigmático. Una factura entera puede comprimirse a unos cientos de vision tokens.
  • Optical Context Compression Is Just (Bad) Autoencoding (arXiv 2512.03643) — crítica académica al paradigma.
  • Context Cascade Compression (arXiv 2511.15244) — límites superiores de compresión de texto.
  • FCoT-VL (arXiv 2502.18512) — compresión de visual tokens específica para text-oriented VLMs en alta resolución (el caso de facturas).
  • LUVC (arXiv 2512.09010) — 2× speedup en inferencia con degradación accuracy despreciable.
  • HybridToken-VLM (arXiv 2512.08240) — dual pathway: continuous compression para semántica + discrete quantization para detalles finos.
  • Adaptive-VoCo (arXiv 2512.18496) — compresión variable según complejidad visual de cada bloque del documento.

2.10 — Pipelines híbridos y document AI toolkits

Docling — IBM Research

  • arXiv 2501.17887
  • Qué es: toolkit OSS Apache 2.0 que produce un DoclingDocument unificado (layout + reading order + table cells + bounding boxes) y exporta a Markdown/HTML/JSON/DocTags.
  • Update ene-2026: sustituyó SmolDocling-256M por backbone Granite 3 + SigLIP2.
  • Integraciones: LangChain, LlamaIndex, Haystack, CrewAI nativas.
  • Claim IBM: "evitar OCR reduce errores y acelera time-to-solution 30×".

Reducto — hybrid agentic OCR

  • llms.reducto.ai/hybrid-architecture-agentic-ocr-deep-dive
  • Pipeline en cascada: computer vision para layout segmentation → OCR clásico + VLM en paralelo → "Agentic OCR" como capa de QA que detecta columnas mal asignadas, mismatches campo/valor, tablas corruptas.
  • Cuando las confidence scores caen bajo umbral, re-procesa el bloque con segmentación alternativa.

LlamaParse + LlamaIndex Document

LangExtract — Google

Trade-off central: VLM-first vs hybrid

  • VLM-first (Gemini 2.5 Pro, Qwen 2.5-VL, Mistral OCR 3) → elimina la fragilidad multi-etapa, pero pierde grounding pixel-exacto.
  • Hybrid (Reducto, Docling, LandingAI ADE) → preserva bounding boxes y permite auditoría humana — obligatorio para error <1% en NIF/importes con trazabilidad regulatoria.

Para facturas españolas con Verifactu en horizonte, la trazabilidad pesa: cualquier campo cuestionable necesita poder mostrarse en el documento original. Eso favorece arquitecturas hybrid.

2.11 — Mercado comercial: proveedores y matriz de decisión

Hyperscalers

  • AWS Textract AnalyzeExpense: $0,01/pág primer 1M, $0,008 después. AnalyzeDocument: $0,07/pág. BDA (Bedrock Data Automation, GA dic-2024) capa managed.
  • Azure Document Intelligence: prebuilt-invoice $10/1.000 páginas; commitment tier alto baja a $0,53/1.000 a 8M páginas/mes. Custom neural model entrenable con 5 docs.
  • Google Document AI: Invoice Parser $0,01/pág. Custom Extractor con Gemini 3 Pro: $30/1.000 (1–1M). Custom processor hosting: $438/año por versión.

IDP especialistas

  • Rossum (Coupa): desde $18.000/año. Modelo Aurora propio. 276 idiomas. SAP/NetSuite/Dynamics. Adquirida por Coupa 12-may-2026.
  • Klippa → Doxis AI.dp: pay-as-you-go EUR. Soporte UBL/PEPPOL nativo — único con foco e-invoicing compliance EU. Adquirida por SER Group 18-mar-2025 → rebrand a Doxis 19-ene-2026.
  • Hypatos: enterprise opaco. Integración SAP profunda. xSuite partnership (firmada dic-2024, anunciada mar-2025).
  • Veryfi: $0,16/factura plan Starter. Receipt OCR es claramente lo mejor del mercado. SDKs móvil iOS/Android.
  • Mindee: Starter €44/mes · Pro €179/mes · Business €584/mes. docTR open source. Mejor producto API-first europeo.
  • Nanonets: workflow típico factura = 4–6 bloques = ~$1,20–$1,80/factura. Workflow builder no-code.
  • Docsumo / Affinda / Koncile / Sensible.so: variantes específicas por vertical.

Startups disruptores 2025-2026

  • Reducto: Series A $24,5M (Benchmark, abr-2025) + Series B $75M (a16z, feb-2026) = $108M total. RolmOCR open-source + API ($0,015/pág).
  • Extend AI: $17M Series A (Innovation Endeavors, jun-2025). 5 APIs: Parse/Extract/Split/Classify/Edit. ~$0,05/pág en plan Scale. Self-hosted disponible en Enterprise.
  • Invofox: Madrid, YC. Único con foco nativo España + Holded/A3/ContaSimple. API B2B2B (white-label).
  • DDD Invoices: Ljubljana. €1,31M Seed (Fil Rouge + 500 Global, may-2026). "Una API para 50+ regímenes tributarios".

Open source / open core comercial

  • Unstructured.io: $40M Series B (2024). OSS Apache + API $1/1.000 páginas. 64+ tipos de archivo.
  • LlamaParse: $19M Series A (2024). v2 (2025) parsing agentic + validación.

Tabla comparativa final

Proveedor Modelo subyacente $/factura (1 pág) ES nativo Integraciones ERP ES
AWS Textract AnalyzeExpense OCR propio $0,010 No
Azure DocInt prebuilt-invoice Modelo propio $0,010 No
Google DocAI Invoice Parser Propio + Gemini $0,010 No
Rossum (Coupa) Aurora TLLM propio Enterprise (~$0,10-0,50) SAP, NetSuite
Doxis AI.dp (ex-Klippa) OCR+LLM, UBL/PEPPOL Pay-as-you-go EUR UBL/PEPPOL, SAP
Hypatos Deep learning propio Enterprise opaco SAP profundo
Veryfi OCR propio $0,16 Limitado QuickBooks, Concur
Mindee Propio + docTR ~€0,04-0,07 API only
Nanonets OCR-3 + workflows ~$1,20-1,80 QB, Xero, SAP, NS
Reducto RolmOCR + API $0,015 API only
Extend AI LLM full-stack ~$0,05 API only
Invofox Propio B2B2B No público Nativo ES Holded/A3/ContaSimple
Mistral OCR 3 Mistral OCR propio $0,002 (Batch $0,001) API self-host
Unstructured.io OSS + API $0,001 OSS + connectors
LlamaParse Propio + LLM tiers $0,003-0,09 LlamaCloud + RAG

2.12 — Build vs Buy: análisis operativo

Cuándo BUILD tiene sentido

  • Volumen >1M facturas/año — el ahorro vs $0,015–0,10/pág compone.
  • ≥1 ML/data engineer dedicado al mantenimiento.
  • Formatos repetitivos (5–20 layouts recurrentes representan 80% del volumen).
  • Compliance / data residency obliga a self-host (aunque Mistral en Frankfurt ya cumple).
  • Quieres capacidad de aprender de tus errores con un loop propio (unit-test-as-reward al estilo olmOCR 2).

Componentes 2026 de un stack BUILD

  • OCR: RolmOCR (Reducto, Apache 2.0) o Mistral OCR 3 self-hosted o MinerU 2.5 (Apache 2.0).
  • VLM estructura: Qwen 2.5-VL-72B / InternVL3-78B / Llama 4 ⚠️ (problema licencia UE) o Gemini 2.5 Flash API ($0,30/1M input).
  • Validación: regex deterministas + tablas hash + LLM-as-judge para fields críticos.
  • HITL UI: construir o adoptar Label Studio.
  • Coste real estimado all-in: $0,003–0,008/factura (cómputo + storage + revisión humana del 5–10%).

Cuándo BUY tiene sentido

  • Volumen <200k facturas/año — la curva no compensa el FTE.
  • Time-to-market <1 mes.
  • Cliente paga premium por SLA y certificaciones (SOC2, HIPAA).
  • No tienes ML/data eng dedicado.
  • Mix de tipos de doc va más allá de facturas (recibos, contratos, POs, BoLs).

La opción HÍBRIDA (recomendada para consultoras)

  • Capa cliente: producto comercial barato (Mistral OCR 3 API o Mindee Pro).
  • Capa de validación propia: Python + reglas + LLM small (Haiku 4.5 / Gemini Flash).
  • Reservar build interno solo si un cliente pasa de ~500k facturas/año.

2.13 — Recomendación de stack para Intelia 2026

Opción A — Stack ligero "POC rápido al cliente" (recomendada)

Para clientes SMB/mid-market españoles con Holded/A3/Sage:

  1. Mistral OCR 3 como motor OCR.
  • Coste: $0,001–0,002/pág.
  • EU data residency (servidores Frankfurt).
  • Modelo francés → story de venta favorable a clientes españoles.
  1. Claude Sonnet 4.6 o Gemini 2.5 Flash para extracción structured + razonamiento contable (mapeo PGC, IVA, retenciones).
  2. Validación determinista propia en Python (regex NIF/CIF, IBAN, cuadre IVA, fechas Verifactu).
  3. Integración Holded vía su API REST (Intelia ya conoce Holded por Hispania Hearing Partners).

Métricas objetivo:

  • Coste por factura: $0,005–0,01.
  • F1 esperado: >97% con HITL en 5–10% del flujo.
  • Latencia: <10s end-to-end por factura simple.

Opción B — Cliente con Sage Intacct o SAP en mid-market

Hypatos para SAP-heavy, o partner con Esker o Quadient como integrador.

  • Margen consultoría más alto. Ciclo de venta 6–12 meses.

Opción C — Acelerar y centrarse en valor de capa superior

Partner con Invofox (Madrid, mismo perfil cultural).

  • Invofox provee el parsing nativo ES con integración Holded/A3.
  • Intelia construye el agente contable encima (mapeo PGC, razonamiento, reconciliación con ERP).
  • Reduce time-to-market a semanas en lugar de meses.

Qué NO comprar para perfil SMB español

  • Rossum (Coupa): caro para SMB. MOQ $18k/año excluye gran parte del mercado.
  • Nanonets: pricing por bloque sale caro, $1,20–1,80/factura no compite con Mistral.
  • Hypatos: solo si el cliente es SAP-heavy enterprise.
  • Veryfi: si el caso es recibos puros sí; para facturas B2B españolas no es el ajuste.
  • Llama 4 (Scout/Maverick): restricción multimodal UE — bloqueante para clientes europeos.

2.14 — Tracker M&A y consolidación 2025-2026

Movimiento Fecha Implicación mercado
Coupa adquiere Cirtuo mayo 2025 Coupa entra en sourcing IA
Coupa adquiere Scoutbee oct 2025 Coupa consolida supplier intel
SER Group adquiere Klippa 18-mar-2025 DocHorizon entra en ECM enterprise alemán
Reducto Series A $24,5M (Benchmark) abr 2025 Disruptor open-source con respaldo VC tier-1
Hypatos × xSuite OEM partnership firmada dic 2024 (anuncio 11-mar-2025) SAP integración OEM
Extend AI Series A $17M (Innovation Endeavors) 17-jun-2025 Document processing cloud emerge
GPT-5 lanzamiento 7-ago-2025 Multimodal nativo, $1,25/$10/1M
Berghaus invoice benchmark publicado ago 2025 Primer benchmark serio facturas con VLMs
MinerU 2.5 release 26-sep-2025 1,2B model que bate a gigantes
DeepSeek-OCR paper 21-oct-2025 Contexts optical compression paradigma nuevo
olmOCR 2 con Unit Test Rewards 22-oct-2025 Patrón RL-with-tests para producción
Verifactu retrasado (RD-Ley) 2-dic-2025 Pista de ejecución 12-18 meses para España
Mistral OCR 3 release 17-dic-2025 $2/1k pág rompe el suelo de precio
Anthropic Economic Index ene-2026 ene 2026 Invoice processing = 0,24% tráfico API enterprise
SER Group → rebrand Doxis 19-ene-2026 Klippa DocHorizon → Doxis AI.dp
Reducto Series B $75M (a16z lead) feb 2026 Total $108M, posicionamiento enterprise
MinerU 2.5-Pro release 6-abr-2026 OmniDocBench v1.6_full 95,75
Claude Opus 4.7 16-abr-2026 Resolución imagen 3×, contexto 1M
DDD Invoices Seed €1,31M 14-may-2026 E-invoicing compliance global como categoría
Coupa adquiere Rossum 12-may-2026 3ª compra IA en 12 meses; Rossum pierde independencia

2.15 — Contexto regulatorio España / EU

Verifactu — las DOS fechas

Real Decreto-Ley publicado en BOE el 2-dic-2025 retrasa Verifactu:

  • 1-enero-2027: obligación para contribuyentes del Impuesto sobre Sociedades.
  • 1-julio-2027: obligación para el resto (autónomos, profesionales).

⚠️ Decir "enero 2027" a secas es incompleto. Hay dos fechas distintas según tipo de contribuyente. (Nota AEAT oficial)

e-invoicing PEPPOL / UBL

  • PEPPOL como estándar de facto en EU para facturación electrónica intra-EU.
  • UBL (Universal Business Language) como formato XML.
  • Crítico: cualquier pipeline que aspire a Verifactu-ready debe generar UBL/PEPPOL.

VIES — el validador de VAT intra-EU

  • API pública de la Comisión Europea.
  • Validación obligatoria de VAT de cliente intra-EU para exención.
  • Patrón habitual: el agente que extrae la factura llama a VIES como tool.

SII (Suministro Inmediato de Información)

  • Ya obligatorio desde 2017 para grandes contribuyentes.
  • Los registros de IVA se envían a AEAT en tiempo cuasi-real.
  • Cualquier pipeline de facturas para empresa SII-obligada debe poder generar el registro SII correctamente desde la extracción.

2.16 — Gap analysis: "InteliaInvoiceBench"

Gaps detectados en el ecosistema actual

Gap Severidad
Facturas EU multi-idioma (ES/FR/DE/IT/PT) con line items Crítico — no existe
Facturas con regímenes fiscales reales (IVA reverse charge, OSS, retenciones, IRPF, suplidos) Crítico — no existe
Coste/latencia como métrica nativa (no solo accuracy) Alto
Eval con OCR ruidoso (móvil, foto torcida, fax) en facturas Alto
Long-tail de plantillas (>1.000 templates distintos) Alto
Reconciliación campo-cuenta contable (mapping al plan contable) Crítico — no existe
Métricas de confianza calibrada para HITL routing Medio

Propuesta de diseño

Composición:

  • 10.000 facturas reales anonimizadas en 5 idiomas EU (ES/FR/DE/IT/PT), 2.000 por idioma.
  • Diversidad: 50% B2B, 30% B2C, 20% intracomunitarias.
  • 3 niveles de calidad: digitally-born / scan limpio / foto móvil.
  • Plantillas: cobertura long-tail (target: >800 emisores distintos).

Tareas:

  1. KILE-EU — extracción cabecera + 30 campos canónicos con coordenadas.
  2. LIR-EU — line items con conciliación cantidad × precio = subtotal.
  3. Tax-Reasoning — IVA aplicado correctamente (tipo, base, cuota, regímenes especiales).
  4. Account-Mapping — mapeo a plan contable PGC español como gold.
  5. Multi-page Concat — factura + albarán = matching de items.

Métricas:

  • Field F1 por campo (no agregado — críticos como NIF/IBAN/total deben ser >99,5%).
  • Line-Item Tree-Edit-Distance.
  • Tax-Consistency-Check (boolean: ¿los números cuadran?).
  • Calibrated Confidence ECE (Expected Calibration Error para HITL routing).
  • Cost-per-correct-field ($USD por campo correctamente extraído incluyendo coste API).
  • p95 latency end-to-end.

Diferenciador frente a DocILE:

  • DocILE no cubre idiomas EU latinos ni regímenes fiscales locales.
  • DocILE no tiene reconciliación contable.
  • DocILE no tiene métrica de coste.
  • DocILE quedó congelado en 2023.

Angle para paper académico Intelia: "El primer benchmark de facturas EU con conciliación fiscal-contable" — gap real, valor real para CFO/contables, y aprovecha la posición de Intelia en el espacio.

Estimación de esfuerzo: 3–6 meses de un FTE para liberar v0.1 con 1.000 facturas + tareas KILE-EU + Tax-Reasoning.

2.17 — Conclusiones operativas

Para Intelia como consultora

  1. El stack ganador para SMB español es híbrido y barato: Mistral OCR 3 + Claude/Gemini Flash + validación propia + Holded API. Coste $0,005–0,01/factura, F1 >97%.
  2. Verifactu retrasado a 2027 da margen — usarlo para construir relaciones con clientes ahora y posicionarse como el proveedor cuando llegue la obligación.
  3. Invofox es competidor o partner natural — explorar conversación.
  4. El gap de benchmark EU es real y monetizable. Un "InteliaInvoiceBench" sería contenido top para SEO técnico, citas académicas y diferenciación comercial.
  5. El patrón Unit Tests as RL Reward (olmOCR 2) es probablemente el más prometedor del año para llegar a <1% error en producción.

Para clientes Intelia

  1. No hacer evaluación con DocVQA/CORD/SROIE — están saturados.
  2. Hacer evaluación con corpus propio del cliente — 200–500 facturas etiquetadas, field F1 por campo.
  3. Cualquier pipeline serio debe incluir reconciliación matemática determinista.
  4. La trazabilidad pixel-exacta (bounding boxes) será un requisito de auditoría con Verifactu.

Tres apuestas Intelia para los próximos 6 meses

  1. Pilot interno con stack Mistral OCR 3 + validación propia sobre Hispania Hearing Partners — caso real con ledger Excel/Metabase.
  2. Conversación con Invofox — explorar partnership o coopetición clara.
  3. Versión draft de InteliaInvoiceBench con 500 facturas propias + KILE-EU + Tax-Reasoning. No para publicar académicamente todavía, sino como herramienta interna + material de marketing técnico.

Referencias

Papers arXiv (verificados verbatim contra arxiv.org)

Comunicados y press releases verificados

Leaderboards y benchmark sites

Pricing pages verificadas en mayo 2026

Recursos open source clave


Convenciones del documento: 🟢 verificado contra fuente primaria oficial · 🟡 reportado solo por terceros · ⚠️ requiere verificación adicional

Decay esperado: este documento envejece. Modelos nuevos salen cada 4–8 semanas; pricing puede moverse. Próxima revisión sugerida: agosto 2026.