intelia-sota-research

OCR + LLMs para facturas: lo que cambió en 2025 y el stack que gana en 2026

El espacio cambió tres veces en doce meses: Mistral OCR 3 rompe el precio a $2/1.000 páginas, DeepSeek-OCR introduce compresión visual de contexto, y MinerU 2.5-Pro lidera con solo 1.2B parámetros.

Pablo Muñiz

27 may. 2026 — 32 min read

Cómo leer esta nota. Está dividida en dos partes. La Parte 1 está pensada para cualquiera con interés en automatización contable o en hacia dónde va la IA aplicada al back-office, sin requisitos técnicos. La Parte 2 entra en arquitectura, benchmarks, papers y decisiones de stack. Puedes leer una, la otra, o las dos. El TL;DR de abajo aplica a ambas.

TL;DR

El espacio cambió tres veces en doce meses. Mistral OCR 3 (dic-2025) rompe el suelo de precio a $2/1.000 páginas — 5–50× más barato que el incumbente. DeepSeek-OCR (oct-2025) introduce contexts optical compression — comprimir texto en tokens visuales con >97% precisión y procesar 200k+ páginas/día en una sola A100. Y MinerU 2.5-Pro (abr-2026) lidera OmniDocBench con solo 1.2B parámetros, batiendo a modelos 200× más grandes.
El primer benchmark serio de facturas con VLMs ya existe. Berghaus et al. (Fraunhofer IAIS + Univ. Bonn, ago-2025) — Gemini 2.5 Pro lidera en los tres datasets (87,46% / 96,50% / 92,71%). Antes solo había DocILE (de Rossum) que quedó congelado en 2023 y no cubre ES/FR/DE/IT.
Consolidación brutal del mercado. Coupa compra Rossum (mayo 2026, tercera adquisición IA del año), SER Group compra Klippa y se renombra Doxis (mar-2025 → ene-2026), Reducto cierra Series B de $75M con a16z (feb-2026). Los IDP tradicionales se cierran hacia enterprise; los disruptores nacen API-first.
El stack ganador para SMB español es híbrido y barato. Mistral OCR 3 + Claude Sonnet 4.6 o Gemini 2.5 Flash + validación determinista propia (NIF, IVA, cuadre matemático) + integración Holded. Coste objetivo: $0,005–0,01 por factura. F1 >97% con human-in-the-loop en 5–10% del flujo. Alternativa: partnership con Invofox (Madrid, único proveedor con foco nativo España).
Verifactu retrasado a 2027 en dos fechas distintas. El RD-Ley de 2-dic-2025 separa: 1-ene-2027 para sociedades, 1-jul-2027 para autónomos y profesionales. Da 12–18 meses de pista de ejecución. Cualquier pipeline serio debe diseñarse pensando en trazabilidad pixel-exacta para auditoría, no solo en accuracy.

Parte 1 — Para entender de qué va, sin tecnicismos

El problema

Imagínate un becario contable al que le llegan cada día sesenta facturas mezcladas: facturas en PDF nativo, escaneos torcidos hechos con el móvil, recibos en alemán, facturas de proveedor con líneas de producto enrevesadas, suplidos sin IVA, y una de Andorra que es B2B intracomunitaria con reverse charge. Su trabajo es extraer los campos clave (CIF del emisor, base imponible, cuota de IVA, total, fecha, número de factura, líneas), validarlos contra el ERP, y meterlos en Holded o A3 con el código contable correcto. Si se equivoca una sola vez en una factura grande, el cliente lo nota. Si se equivoca un 0,5% de las veces, sale del trabajo en una semana.

Llevamos diez años intentando que un software haga esto. Los OCR clásicos (Textract, Tesseract) leen letras pero no entienden estructura. Los IDP tradicionales (Rossum, Klippa, Mindee) entienden estructura pero cuestan caro y no manejan bien casos largo-tail. Y los modelos generalistas tipo ChatGPT entienden todo pero alucinan números y no son auditables.

Lo que ha cambiado en los últimos doce meses es que esa frontera entre OCR especializado y modelo generalista se ha hecho difusa: los modelos multimodales (los que entienden texto e imagen a la vez) han alcanzado paridad con los IDP tradicionales en facturas estándar y los superan en casos complejos. A la vez, han aparecido modelos especializados open-source que rinden mejor que los closed-source de antes a un coste 50× menor. Y, como guinda, una empresa francesa (Mistral) ha lanzado en diciembre de 2025 un servicio que cobra dos dólares por mil páginas — un nivel de precio que hace dos años nadie habría imaginado.

Esto plantea una pregunta directa para cualquiera que tenga el dolor de procesar facturas: ¿qué se compra y qué se construye, hoy, en mayo de 2026, para tener un sistema que funcione bien con poco error y a coste razonable?

Por qué importa esto para tu negocio

Procesamiento de facturas suena a problema operativo aburrido, pero es exactamente donde más se está aplicando IA en empresas reales. Anthropic publicó en enero de 2026 que "build and maintain invoice processing systems" representa el 0,24% de todo el tráfico de su API enterprise — el mismo orden de magnitud que automatización de email o de calendario. Es un caso de uso ya consolidado en producción, no un experimento. Tres ejemplos concretos de impacto:

Caso 1 — SMB español con Holded/A3 (perfil cliente Intelia). Una empresa que procesa 5.000–50.000 facturas al año (la mayoría de las que llaman a Intelia) gasta hoy entre 15.000 y 80.000 € al año entre IDP comercial + horas humanas de revisión. El stack moderno (Mistral OCR + VLM frontier + validación propia) lo baja a 5.000–15.000 € al año en infraestructura + un comercial part-time supervisando excepciones. La diferencia es el margen del proyecto.
Caso 2 — Mid-market con SAP. Empresa con 100.000+ facturas/año, exigencia de audit trail y certificaciones (SOC 2, GDPR). Aquí el cálculo cambia: la decisión NO es coste por factura, es velocidad de cierre contable + trazabilidad para auditoría. Vencedor: proveedor especializado con integración SAP profunda (Hypatos, Rossum) o stack propio con bounding boxes pixel-exactos.
Caso 3 — Software contable que quiere embed. Plataformas tipo Holded, ContaSimple o A3 que ya tienen el cliente y quieren que el cliente nunca tenga que volver a teclear una factura. Empotrar parsing dentro del producto. Hueco que ya está ocupado por Invofox (Madrid, YC) — el único proveedor con foco nativo en el mercado español.

En los tres casos el bottleneck no es la inteligencia del modelo. Claude Opus 4.7, GPT-5 o Gemini 2.5 Pro entienden de sobra una factura. El bottleneck es el pipeline completo: cómo orquestas OCR + razonamiento + validación + reconciliación con el ERP + trazabilidad para auditoría. Quien mejor diseñe ese pipeline gana, no quien tenga el modelo más grande.

Y hay una restricción específica para España: Verifactu, el nuevo sistema de facturación verificada de la AEAT, entra en vigor en 2027 (1 de enero para sociedades, 1 de julio para autónomos y profesionales). Cualquier pipeline que aspire a ser comprable por un cliente español a partir de 2026 tiene que poder generar/leer formato Verifactu y cuadrar con el sistema SII en tiempo cuasi-real. Esto descarta proveedores cuyo soporte español sea superficial.

Las apuestas: quién está construyendo qué

Si quitas el marketing y miras el mercado serio, hay cinco ángulos de ataque distintos al problema de extraer datos de facturas. Cada uno con sus ganadores actuales:

Hyperscalers cloud (AWS Textract, Azure Document Intelligence, Google Document AI). El default cuando una empresa ya está en una nube concreta. Precios razonables ($0,01–0,03 por página), latencia variable, integración limitada con ERPs españoles. No es la mejor opción técnica, pero es la opción de mínimo esfuerzo en empresas con cloud preestablecida.
IDP especialistas tradicionales (Rossum, Klippa→Doxis, Hypatos, Veryfi, Mindee, Nanonets). Modelos propios entrenados sobre millones de documentos transaccionales, UI human-in-the-loop pulida, certificaciones enterprise. Caros (Rossum desde $18.000/año), pero el ajuste perfecto si compras "AP automation" como producto cerrado. Mindee es la mejor opción europea API-first. Hypatos es lo que se compra si el cliente vive dentro de SAP.
Modelos VLM frontier por API (Claude 4.x, GPT-5, Gemini 2.5). Los grandes de OpenAI, Anthropic y Google ya leen una factura tan bien como un IDP especializado, especialmente en formatos no estándar. Gemini 2.5 Pro es el único modelo cerrado con benchmark público específico de facturas en cabeza (Berghaus 2025). El coste por factura sale parecido a un IDP barato (~$0,01–0,03), pero la flexibilidad para razonar sobre el contenido (mapear a plan contable, detectar duplicados, justificar IVA aplicado) no tiene comparación.
Modelos open-source / self-hosted (Qwen 2.5-VL, InternVL3, DeepSeek-VL2, MinerU 2.5). Si tu volumen pasa de cierto umbral o tienes restricciones de data residency, montar tu propio modelo es defendible. Qwen 2.5-VL-72B y InternVL3-78B lideran benchmarks abiertos. MinerU 2.5-Pro (1,2B parámetros) lidera el OmniDocBench global — un modelo pequeño chino batiendo a gigantes. ⚠️ Atención con Llama 4: la licencia excluye explícitamente uso multimodal en la UE.
Disruptores 2025-2026 (Mistral OCR 3, Reducto, Extend AI, Invofox, DDD Invoices). Aquí está la innovación reciente. Mistral OCR 3 es la commodity de precio. Reducto ofrece un modelo open-source (RolmOCR) + API comercial + acaba de cerrar $75M en febrero 2026 con a16z liderando. Invofox (Madrid, YC) es el único con foco nativo español + Holded/A3/ContaSimple. DDD Invoices (Eslovenia) está construyendo "compliance multi-país en una API".

Y hay una sexta categoría híbrida que probablemente sea el patrón que va a ganar en producción: combinar capas. Un OCR especializado barato (Mistral OCR 3 o un modelo open) para extracción bruta + un VLM frontier (Claude o Gemini) para razonamiento y mapeo a plan contable + reglas deterministas propias para validación matemática + integración directa con el ERP del cliente. No hay un proveedor que venda ese stack completo. Hay que construirlo.

Hacia dónde va esto

Mi lectura del rumbo en los próximos 12–18 meses, a partir de lo que hace cada player y de los movimientos regulatorios:

El precio del OCR va a cero. Mistral OCR 3 a $0,002/página es el suelo "público" hoy. Para finales de 2026 veremos modelos open-source con calidad equivalente a coste cero (solo computación). Cualquier proveedor que cobre >$0,05/página por OCR puro tendrá que justificarlo con UI, integraciones y SLA — no con tecnología.
El valor se mueve hacia razonamiento contable y trazabilidad. Si extraer texto es commodity, lo diferencial es: ¿el sistema entiende que esto es un suplido y va a cuenta 627 en vez de 629? ¿detecta que el cliente está aplicando reverse charge intra-EU y necesita VAT VIES? ¿puede mostrar exactamente dónde leyó el "21%" en la factura para una auditoría? Ahí está el margen.
El stack ganador va a ser híbrido y construido, no comprado en una sola pieza. Capa de OCR/extract barata + capa de razonamiento con un VLM frontier + capa de validación propia + integración nativa con el ERP local. Nadie va a vender "factura procesada llave en mano" para SMB español con margen sano — quien lo intente compite contra una stack DIY que cuesta $0,01/factura.
Consolidación seguirá. Coupa acaba de comprar Rossum. Klippa ya es Doxis. Es predecible que algún hyperscaler (probablemente Google o Microsoft) compre uno de los IDP medianos restantes (Mindee, Klippa, Docsumo) en los próximos 12 meses para reforzar su oferta de Document AI. Para el comprador SMB, esto significa: cuidado con apostar por un vendor que pueda desaparecer o cambiar drásticamente bajo nuevo dueño.
Verifactu (España) cambia las reglas. A partir de 1-ene-2027 (sociedades) / 1-jul-2027 (resto), cualquier sistema de facturación en España tiene que generar registros verificables y enviarlos a AEAT/SII. Esto separa proveedores serios de oportunistas. Los que ya soportan UBL/PEPPOL nativo (Doxis, DDD Invoices) tienen ventaja temporal. Hueco claro para Intelia o un partner local: el "stack Verifactu-ready over Holded/A3".

Para un decisor (CFO, director ops, fundador SMB): no compres "extracción de facturas" como producto cerrado todavía. Lo que está pasando va demasiado rápido. Monta un pilot pequeño con Mistral OCR 3 + Claude o Gemini en la capa de razonamiento + validación propia, mide qué falla con tu corpus real (no con benchmarks públicos), y decide en seis meses si build vs buy. Y si tu cliente es 100% Holded/A3 español, mira Invofox — probablemente sea más rápido partnerar que construir.

Si quieres entender cómo funciona cada una de estas líneas, qué modelos exactos elegir, qué benchmarks miran de verdad, y qué hay debajo de la palabra "VLM", sigue a la Parte 2.

A partir de aquí, la Parte 2 entra en arquitectura, matemáticas y papers. Si solo te interesaba el "qué" y no el "cómo", puedes parar aquí.

Parte 2 — Cómo funciona por dentro (técnica)

2.1 — Fundamentos

El espacio se descompone en siete capas que combinas en un pipeline real. Entender los trade-offs de cada capa es lo que distingue a un sistema que rinde >99% en producción de un POC que demo bonito y muere en la primera factura larga.

Las capas:

[INPUT: PDF / imagen / escaneo móvil]
            │
            ▼
   ┌────────────────────────────┐
   │ Capa 1: OCR / Document AI  │  ←─ extracción de texto + layout
   │  (modelo especializado)    │
   └────────────────────────────┘
            │
            ▼
   ┌────────────────────────────┐
   │ Capa 2: VLM / razonamiento │  ←─ comprensión semántica + structured output
   └────────────────────────────┘
            │
            ▼
   ┌────────────────────────────┐
   │ Capa 3: Structured output  │  ←─ JSON garantizado por schema
   │  (constrained decoding)    │
   └────────────────────────────┘
            │
            ▼
   ┌────────────────────────────┐
   │ Capa 4: Validación         │  ←─ reglas deterministas + LLM judge
   │  matemática + semántica    │
   └────────────────────────────┘
            │
            ▼
   ┌────────────────────────────┐
   │ Capa 5: Tool use / agent   │  ←─ llamadas a VIES, AEAT, ERP
   └────────────────────────────┘
            │
            ▼
   ┌────────────────────────────┐
   │ Capa 6: Serving para       │  ←─ vLLM, SGLang, batch, cache
   │  volumen                   │
   └────────────────────────────┘
            │
            ▼
[OUTPUT: registro en ERP + trazabilidad para auditoría]

La capa transversal es Capa 7: compresión visual / long-context, que ataca el problema de meter facturas largas o batches grandes en el contexto sin reventar coste.

Veamos cada una con detalle, citando modelos, papers y números que rigen el estado del arte a 27 de mayo de 2026.

2.2 — Capa 1: modelos OCR / Document AI especializados

Esta categoría agrupa modelos diseñados específicamente para extraer texto y estructura de documentos. La mayoría ha pivotado a arquitecturas VLM compactas (1B–9B parámetros) fine-tuneadas sobre datasets curados.

A) DeepSeek-OCR — el disruptor de compresión

Lab: DeepSeek-AI · Release: 21-oct-2025 · Paper: arXiv 2510.18234 · Repo: github.com/deepseek-ai/DeepSeek-OCR
Arquitectura: DeepEncoder (vision encoder de alta resolución y baja activación) + DeepSeek3B-MoE-A570M (3B totales, ~570M activos por token).
Innovación central: contexts optical compression. Representan el texto como "vision tokens" para reducir tokens consumidos por el LLM. Con ratio <10× → 97% precisión OCR; a 20× → ~60%.
Benchmarks: supera GOT-OCR2.0 (256 tok/pág) usando 100 vision tokens; supera MinerU 2.0 (6000+ tok/pág) con <800 vision tokens en OmniDocBench.
Throughput: 200.000+ páginas/día en una sola A100-40G; en cluster 20×8 A100 → 33M páginas/día.
Licencia: MIT. Idiomas: ~100 lenguas declaradas (foco evaluativo chino/inglés).
Limitación: precisión degrada al aumentar el ratio de compresión; pensado para casos donde el coste de procesar documentos largos importa más que fidelidad línea-a-línea.
Crítica académica: arXiv 2512.03643 — "Optical Context Compression Is Just (Bad) Autoencoding" argumenta que el approach es esencialmente autoencoding subóptimo. Leer antes de comprometerse con el paradigma.

B) MinerU 2.5 / MinerU 2.5-Pro — el SOTA actual en parsing genérico

Lab: OpenDataLab (Shanghai AI Laboratory).
MinerU 2.5: 26-sep-2025 · arXiv 2509.22186
MinerU 2.5-Pro: 6-abr-2026 · arXiv 2604.04771
Weights: HF opendatalab/MinerU2.5-2509-1.2B
Arquitectura: VLM de 1,2B parámetros con estrategia coarse-to-fine en dos etapas — layout analysis sobre imagen downsampled + recognition sobre crops a resolución nativa guiados por el layout. 2.5-Pro mantiene la misma arquitectura, solo cambia data engineering (10M → 65,5M muestras) + alineamiento GRPO.
Benchmark estrella: MinerU 2.5-Pro = 95,75 overall en OmniDocBench v1.6_full (corregido tras auditoría — el primer reporte decía "v1.7", el paper reporta v1.6_full).
Comparativa: supera a Gemini 2.5 Pro, Qwen 2.5-VL-72B, GPT-4o, MonkeyOCR, dots.ocr y PP-StructureV3 en text/formula/table/reading-order — con 60× menos parámetros que muchos competidores.
Licencia: Apache 2.0 (código); pesos AGPL-3.0 según releases recientes.

C) olmOCR / olmOCR 2 — el del RL con unit tests

Lab: Allen Institute for AI (Ai2).
olmOCR: 25-feb-2025 · arXiv 2502.18443
olmOCR 2: 22-oct-2025 · arXiv 2510.19817
Weights: HF allenai/olmOCR-2-7B-1025
Arquitectura: VLM 7B fine-tuneado sobre Qwen 2.5-VL-7B. v2 entrenado con RLVR (Reinforcement Learning from Verifiable Rewards) — los rewards son unit tests binarios sobre conversión correcta de fórmulas, tablas y layouts.
Benchmark: olmOCR 2 = 82,4 ± 1,1 en olmOCR-Bench, +14,2 puntos sobre v1; supera Marker (76,1), MinerU (75,8), GPT-4o, Gemini Flash 2 y Qwen-2.5-VL.
Idiomas: oficialmente solo inglés — limitación crítica para casos europeos multi-idioma.
Coste: olmOCR v1 = $176 por millón de páginas vs $6.240 de GPT-4o (35× más barato).
Por qué importa para facturas: el patrón "unit tests as RL reward" es directamente trasladable a validación de extracción. Convertir "validation" en suite de tests binarios (¿NIF válido? ¿suma cuadra? ¿fecha presente?) y usarlos tanto en evaluación como en fine-tuning RL es probablemente la mejor idea del año para producción.

D) dots.ocr / dots.mocr — el compacto multilingüe

Org: rednote-hilab (Xiaohongshu) · Release: 30-jul-2025 (modelo); paper 2-dic-2025 · arXiv 2512.02498
Arquitectura: VLM unificado de 1,7B parámetros basado en Qwen 2.5-VL (dots.mocr crece a 3B). Aprendizaje conjunto end-to-end de layout detection + text recognition + relational understanding.
Benchmarks (OmniDocBench): Overall Edit↓ 0,125 (EN) / 0,160 (ZH); Text Edit↓ 0,032 (EN); Table TEDS↑ 88,6 (EN).
Innovación: XDocParse — benchmark interno con 126 idiomas; +10% mejora relativa vs SOTA.
Licencia: MIT. Idiomas: 100+ declarados.

E) Mistral OCR / Mistral OCR 3 — la commodity

Lab: Mistral AI (París).
Mistral OCR (v1): 6-mar-2025.
Mistral OCR 3: 17-dic-2025 (modelo mistral-ocr-2512).
Sin paper formal — solo blog y model card.
Benchmarks self-reported OCR 3: 88,9% handwriting (vs Azure 78,2%); 96,6% tablas (vs Textract 84,8%); 74% win rate vs Mistral OCR 2 (cifras embedded en imágenes del blog).
OmniDocBench: 79,75 (medición de CodeSOTA, no self-report Mistral). Gap significativo vs MinerU 2.5-Pro (95,75) — el marketing infla la calidad real.
Pricing: $2/1.000 páginas o $1/1.000 con Batch API (50% descuento). Hasta 2.000 páginas/min en single node.
Por qué es disruptivo: undercut del 97% vs AWS Textract, 93% vs Google Document AI, 50–75% vs Azure. Redefine la matriz build-vs-buy para volumen alto.
Limitación: cerrado (sin weights). Sin paper revisable. Calidad real en benchmarks independientes está por debajo del marketing.

F) Otros relevantes

RolmOCR (Reducto, abr-2025): VLM 7B fine-tuneado sobre Qwen 2.5-VL-7B. Optimización: elimina metadata PDF → menos tokens, menos VRAM. Apache 2.0. 190k downloads en HF en primer mes.
Chandra (Datalab, oct-2025): VLM 9B fine-tuneado sobre Qwen3-VL. Overall 83,1 ± 0,9 en olmOCR-Bench (mejor open-source oct-2025). Licencia OpenRAIL.
Surya + Marker (Datalab): pipelines modulares con modelos compactos. Surya soporta 90+ idiomas. Licencia GPL-3.0 + RAIL-M — gratuito para empresas <$2M ingresos.
GOT-OCR 2.0 (StepFun, sep-2024): 580M params end-to-end. Baseline obligatorio en cualquier benchmark 2025-26. arXiv 2409.01704.
Nougat (Meta, ago-2023): de facto abandonado. Sin updates desde 2023. arXiv 2308.13418.

Tabla comparativa OCR especializados

Modelo	Fecha	Params	Benchmark estrella	Idiomas	Licencia
DeepSeek-OCR	Oct 2025	3B (570M act.)	OmniDocBench: bate GOT-OCR con 100 tok	~100	MIT
MinerU 2.5-Pro	Abr 2026	1,2B	OmniDocBench v1.6_full: 95,75	zh/en + multi	Apache 2.0 / AGPL pesos
olmOCR 2	Oct 2025	7B	olmOCR-Bench: 82,4	Solo EN	Apache 2.0
dots.ocr	Jul 2025	1,7B	OmniDocBench Overall Edit 0,125 EN	100+	MIT
Mistral OCR 3	Dic 2025	N/D	OmniDocBench 79,75 (CodeSOTA) · 74% win vs OCR 2	Multi EU	Comercial
Chandra	Oct 2025	9B	olmOCR-Bench: 83,1	40+	OpenRAIL
RolmOCR	Abr 2025	7B	Equivalente a olmOCR, más rápido	Multi	Apache 2.0
Surya	2024–2026	Pipeline	Layout AP ~0,90	90+	GPL-3.0 + RAIL-M

2.3 — Capa 2: VLMs generalistas (cerrados y abiertos)

Modelos cerrados por API

Anthropic — Claude 4 family

Variante	Release	Pricing 1M tok (in/out)
Claude Opus 4	22-may-2025	$15 / $75
Claude Sonnet 4	22-may-2025	$3 / $15
Claude Sonnet 4.5	sep-2025	$3 / $15
Claude Opus 4.5	nov-2025	$5 / $25
Claude Sonnet 4.6	feb-2026	$3 / $15
Claude Opus 4.7	16-abr-2026	$5 / $25

⚠️ Sobre Claude Opus 4.7 y DocVQA: circula la cifra DocVQA 93,8% (vs 87,4% en 4.6) en blogs terceros. Anthropic NO publica DocVQA oficialmente — la cifra solo aparece en cobertura tercera (Mindstudio, Lushbinary). El blog oficial confirma "large jumps on DocVQA/ChartQA" sin tabla pública. Si se cita, siempre con caveat.

🟢 Resolución imagen Opus 4.7: Anthropic confirma "more than triple the capacity of earlier Claude versions" — consistente con 2.576 px lado largo / ~3,75 MP. Este salto es probablemente el cambio más relevante para facturas escaneadas en formato A4.

OpenAI — GPT-5 + GPT-4.1

GPT-4.1 / 4.1 mini / 4.1 nano (14-abr-2025): contexto 1M. Pricing: $2/$8, $0,40/$1,60, $0,10/$0,40 por 1M tokens.
GPT-5 (7-ago-2025): multimodal nativo. MMMU 84,2% (self-report). CharXiv: tasa de alucinación 9% vs 86,7% de o3. Pricing $1,25 / $10 por 1M.
DocVQA/OCRBench: OpenAI no publica oficialmente. Cifras circulantes vienen de leaderboards terceros.

Google — Gemini 2.5

Paper: arXiv 2507.06261 — "Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities".
Gemini 2.5 Pro (jun-2025 GA): contexto 1.048.576 input / 65.536 output. Pricing: $1,25 / $10 por 1M tokens.
Gemini 2.5 Flash: $0,30 / $2,50 por 1M tokens — relación coste/calidad para alto volumen.
Performance en facturas: Gemini 2.5 Pro es el top en Berghaus 2025 (ver §2.4). En OCRBench v2 EN era top a inicios 2026 con 59,3 — actualmente superado por KDL Frontier (68,1), Nemotron 3 Nano Omni (65,8) y Gemini 3 Pro Preview (63,4) (corregido tras auditoría).

Modelos open-source / open-weights

Qwen 2.5-VL (3B / 7B / 72B) — Alibaba

Release: ene-2025 · Paper: arXiv 2502.13923
Benchmarks (72B): DocVQA 96,4 · OCRBench 885/1.000 (corregido tras auditoría — es score sobre 1.000, NO porcentaje).
Idiomas: ~29 idiomas reportados por terceros incluyendo español 🟡 (el blog oficial Qwen NO enumera 29; la cifra es de fuentes terceras).
Licencia: Apache 2.0 (3B/7B), Qwen license (72B).
VRAM: 72B ≈ 140 GB fp16; 7B en una A100 40GB; 3B en consumer GPU.

Qwen3-VL — Alibaba

Release: primer drop 4-oct-2025 · Paper: arXiv 2511.21631
Variantes: 2B / 4B / 8B / 32B dense + 30B-A3B MoE + 235B-A22B MoE.
Arquitectura: contexto nativo 256K tokens interleaved (texto + imagen + vídeo).
Estado: demasiado nuevo (nov-2025) para tener benchmarks independientes consolidados en facturas.

InternVL3 / InternVL3.5 — Shanghai AI Lab + OpenGVLab

InternVL3 (abr-2025) · arXiv 2504.10479
InternVL3.5 (ago-2025) · arXiv 2508.18265
Benchmarks InternVL3-78B: OCRBench 906 (mejor open declarado en su momento), DocVQA ~94+%.
Benchmarks InternVL3-8B: DocVQA 92,7%.
InternVL3.5: Cascade RL + Visual Resolution Router (ViR). 4,05× speedup en inferencia vs InternVL3.
Licencia: MIT.

Llama 4 (Scout / Maverick / Behemoth) — Meta

Release: 5-abr-2025 (Scout + Maverick; Behemoth en training). Blog: ai.meta.com/blog/llama-4-multimodal-intelligence
Arquitectura: primer MoE de Meta. Native multimodal early-fusion. iRoPE para contexto extremo.
Contexto: Scout 10M tokens; Maverick 1M tokens.
Params: Scout 17B activos / 109B totales; Maverick 17B activos / 400B totales; Behemoth ~2T totales (declarado, no liberado).
Benchmarks: DocVQA 94,4% Scout y Maverick (en model card, NO en blog oficial).
⚠️ Licencia: Llama 4 Community License — restricción multimodal explícita para individuos y empresas con sede en la UE. Cláusula equivalente en Llama 3.2. Punto bloqueante para clientes europeos.

DeepSeek-VL2 — DeepSeek

Release: 13-dic-2024 · Paper: arXiv 2412.10302
Arquitectura: MoE (DeepSeekMoE) + dynamic tiling vision encoder. 4,5B params activos en variante grande, ~27B totales.
Benchmarks: OCRBench 834 (vs GPT-4o ~736), DocVQA 93,3%.
Licencia: DeepSeek Model License (uso comercial permitido).
Por qué importa para facturas: mejor relación VRAM/rendimiento del catálogo open. 4,5B activos = corre en una sola GPU consumer-ish y rinde DocVQA 93,3%.

Otros

Molmo + PixMo (Ai2, sep-2024): arXiv 2409.17146. Apache 2.0. Diferenciador: dataset PixMo creado por anotadores humanos sin destilación.
Pixtral 12B (Mistral, sep-2024): arXiv 2410.07073. Obsoleto frente a Qwen 2.5-VL-7B / InternVL3-8B.
MiniCPM-V 2.6 + 4.5 (OpenBMB): arXiv 2408.01800. Foco edge/on-device.
Aria (Rhymes AI, oct-2024): arXiv 2410.05993. MoE multimodal nativo. Ecosistema pequeño.

Tabla comparativa VLMs (resumen)

Modelo	Fecha	Params	DocVQA	OCRBench	$/1M tok	Licencia
Claude Opus 4.7	16-abr-2026	N/D	93,8% 🟡	N/D	$5/$25	Propietaria
Claude Sonnet 4.6	feb-2026	N/D	N/D oficial	N/D	$3/$15	Propietaria
GPT-5	7-ago-2025	N/D	N/D oficial	N/D	$1,25/$10	Propietaria
Gemini 2.5 Pro	jun-2025	N/D	top Berghaus invoice	OCRBench v2 EN 59,3 (ya no top)	$1,25/$10	Propietaria
Gemini 2.5 Flash	jun-2025	N/D	N/D	N/D	$0,30/$2,50	Propietaria
Qwen 2.5-VL-72B	ene-2025	72B	96,4	885/1000	self-host	Qwen License
InternVL3-78B	abr-2025	78B	~94+	906	self-host	MIT
InternVL3-8B	abr-2025	8B	92,7	N/D	self-host	MIT
Llama 4 Scout	5-abr-2025	17B act / 109B	94,4 (model card)	N/D	self-host	Llama 4 ⚠️ UE
DeepSeek-VL2	13-dic-2024	4,5B act / ~27B	93,3	834	self-host	DeepSeek License

2.4 — Benchmarks: qué medir y qué NO medir

Berghaus et al. 2025 — el único directo

Paper: arXiv 2509.04469 — "Multi-Modal Vision vs. Text-Based Parsing: Benchmarking LLM Strategies for Invoice Processing".
Autores: Berghaus, Berger, Hillebrand, Cvejoski, Sifa (Fraunhofer IAIS + Univ. Bonn).
Diseño: 8 modelos · 3 familias (GPT-5, Gemini 2.5, Gemma 3) · 3 datasets:
Clean Invoices (Donut, 500 sintéticos)
Scanned Receipts (ICDAR-2019-SROIE, 1.000)
Scanned Invoices (inv-cdip, 350 reales del Tobacco Collections)
Hallazgo principal: procesamiento nativo de imagen supera consistentemente al pipeline OCR→markdown→LLM.
Top: Gemini 2.5 Pro (native image) — Scanned Receipts 87,46% · Clean Invoices 96,50% · Scanned Invoices 92,71% 🟡 (verificar tabla del PDF antes de cita formal).
Caveat: ningún dataset español ni EU multi-idioma realista.

DocILE — el más serio de facturas, congelado en 2023

arXiv 2302.05658 · Šimsa et al. (Rossum + Czech TU). ICDAR 2023 + CLEF 2023.
Dataset: 6.680 documentos anotados + 100.000 sintéticos + ~1M no etiquetados. 55 clases de campos.
Tareas: KILE (Key Information Localization and Extraction con coordenadas) + LIR (Line Item Recognition).
Ganador competición ICDAR'23: GraphDoc (USTC-iFLYTEK).
Limitaciones críticas: solo inglés/checo. NO cubre ES/FR/DE/IT. Sintéticos con distribución no realista. Congelado desde 2023.

OmniDocBench — el holístico

arXiv 2412.07626 · 1.651 páginas · 9 fuentes documentales · 5 variantes lingüísticas. No incluye facturas comerciales.
Top a abr-2026 (v1.6_full):

MinerU 2.5-Pro 95,75
GLM-OCR 95,22
PaddleOCR-VL-1.5 94,93
PaddleOCR-VL 94,18
Youtu-Parsing 93,74

Mistral OCR 3 a 79,75 — gran gap vs top chinos.

OCRBench v2 — el text-centric bilingüe

arXiv 2501.00321 · 10.000 QA pairs · 31 escenarios · 23 sub-tareas · bilingüe EN/ZH · test set privado.
Hallazgo: la mayoría de modelos puntúan <50/100 → no saturado.
Top EN (snapshot 2026.03) corregido tras auditoría:

KDL Frontier 68,1
Nemotron 3 Nano Omni 65,8
Gemini 3 Pro Preview 63,4
Gemini-2.5-Pro 59,3
Llama-3.1-Nemotron-Nano-VL-8B-V1 56,4

OHR-Bench — el de RAG real

arXiv 2412.02592 — título oficial: "OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation".
8.561 PDFs en 7 dominios · 8.498 QA pairs.
Hallazgo brutal: "even the best OCR solutions exhibit a performance gap of 14% minimum vs. ground truth structured data".

Otros relevantes

MMLongBench-Doc (arXiv 2407.01523): 130 PDFs largos · GPT-4o baseline 42,7% F1.
MTVQA (arXiv 2405.11985): 9 idiomas incluyendo FR/DE/IT (no ES). Gap brutal humano-modelo (~50 puntos).
VRDU (arXiv 2211.15421): Google Research KDD 2023. Sub-dataset Ad-Buy Forms con line items reales.

Los saturados — no usar como decisor

CORD (NeurIPS DI'19): F1 ~97-98. Saturado desde 2022. Solo indonesio.
SROIE (arXiv 2103.10213): F1 ~98. Solo 4 campos.
FUNSD (arXiv 1905.13538): F1 entity ~0,93. Solo 199 formularios USA antiguos.
DocVQA (arXiv 2007.00398): top en 95-96% ANLS. Humanos a 98,4%. Saturado.

El gap detectado

Ningún benchmark público mide exactamente lo que importa para el caso Intelia:

Cobertura ES/FR/DE/IT/PT con volumen suficiente.
Line items con jerarquía y validación matemática.
Reconciliación con plan contable español (PGC).
Regímenes fiscales reales: IVA reverse charge, OSS, retenciones IRPF, suplidos.
Métricas de coste/latencia/confianza calibrada para HITL routing.

Eval interno propio sobre corpus del cliente real es la única evaluación válida. Cualquier número público es señal direccional, no veredicto.

2.5 — Capa 3: structured output / constrained decoding

Esto es la diferencia entre "el modelo intenta dar JSON" y "es matemáticamente imposible que el JSON no valide contra el schema".

XGrammar — Dong et al., MLSys 2025

arXiv 2411.15100
Divide el vocabulario en tokens context-independent (99%, precomputables en bitmasks) y context-dependent (1%, inspección de stack en runtime) → CFG expressiveness con FSM performance.
Backend por defecto de vLLM (dic-2024), SGLang (nov-2024) y TensorRT-LLM (mar-2026).
<40 μs/token, overhead casi cero en JSON.

XGrammar-2 — may-2026

blog.mlc.ai/2026/05/04/xgrammar-2
Introduce Structural Tag — protocolo JSON composable que unifica OpenAI harmony, tool calling, reasoning channels y outputs custom.
Cross-grammar caching + speculative decoding.

Frameworks Python

Instructor: ~11k stars, 3M downloads/mes. Pydantic-based, retry automático con feedback de validación, streaming. Patrón estándar para invoice schemas.
PydanticAI: agent framework (tool registration, multi-step loops, DI, result validation). Ideal cuando la factura dispara llamadas a VIES/AEAT.
BAML: lenguaje propio con code generator. Para facturas con campos heterogéneos por país, escala mejor el mantenimiento de schemas.
Outlines: ⚠️ regresión. arXiv 2501.10868 — pionero del approach FSM, pero compliance rate más bajo entre engines testados; compile times de 40s a 10+ min con schemas complejos. Descartado para producción con jerarquías profundas (line items anidados).
OpenAI Structured Outputs / Strict Mode (ago-2024) → estándar de facto 2025-2026.

2.6 — Capa 4: validación cruzada y self-correction

LLM-as-a-judge para extracción de facturas

towardsai.net — From extraction to accuracy
Patrón documentado: extractor (Modelo A) → judge (Modelo B) que evalúa cada campo contra el OCR raw con scoring por categoría.
Recomendación clave: el judge debe ver el documento original, no solo la extracción. Si no, solo valida coherencia interna.

Survey EMNLP 2025 LLMs-as-Judges

arXiv 2412.05579
Cubre biases (position, verbosity, self-preference) y limitaciones de self-correction "puro".
Implicación: NO confiar en self-refine sin reglas deterministas.

Reconciliación matemática determinista — la capa crítica

No es paper, es ingeniería estándar pero crítica para alcanzar <1% error:

sum(line_items.amount) == subtotal
subtotal * (1 + vat_rate) == total
Formato NIF español (regex + checksum letra)
Validación IBAN (mod-97)
Fecha en rango razonable vs invoice_date
Coherencia base imponible × tipo IVA = cuota IVA (con tolerancia de redondeo)

Esta capa atrapa más errores que cualquier LLM judge. Es la base de cualquier pipeline serio.

Unit Test Rewards (olmOCR 2) — el patrón paradigmático

arXiv 2510.19817
En lugar de LLM-as-judge fuzzy, entrenan con RLVR donde el reward es un conjunto diverso de unit tests binarios deterministas.
olmOCR-Bench: 7.010 unit tests sobre 1.402 PDFs.
Idea trasladable a facturas: convertir "validation" en suite de tests binarios y usarlos tanto en eval como en RL fine-tuning. Probablemente la mejor idea del año para producción.

2.7 — Capa 5: agentes con tool use para facturas

LandingAI Agentic Document Extraction (ADE)

landing.ai/blog/invoice-parsing-at-scale
Parser que aprende structure + context vs templates fijos; produce schema-aligned output con grounding por campo.

V7 Go VAT Compliance Agent

v7labs.com/agents/vat-compliance-agent
Caso público con tool use real: extrae supplier name + VAT number + invoice date + line items y llama a VIES (Comisión Europea) para validar VAT.
Requisito de auditoría en operaciones intra-EU exentas.

VATCalc Agentic AI

vatcalc.com/products/agentic-ai-for-vat
Primer agente VAT-dedicated en 2025.
Usa su propio MCP server para conectar el LLM al motor fiscal legislation-coded.
Determina IVA aplicable, traza la cadena de reglas legislativas y explica outcomes — auditable.
Es el patrón que probablemente Intelia debería replicar para clientes españoles con AEAT.

Anthropic — Advanced Tool Use

anthropic.com/engineering/advanced-tool-use
Tool Search Tool: acceso a miles de tools sin consumir context window.
Programmatic Tool Calling: ejecuta tools en sandbox de código para reducir el blow-up del context.
Crítico para facturas: un agente puede orquestar VIES + AEAT + Holded API + matcher fuzzy en un loop sin saturar el context.

Anthropic Economic Index (ene-2026)

anthropic.com/research/anthropic-economic-index-january-2026-report
"Build and maintain invoice processing systems" = 0,24% del tráfico de la API enterprise.
Dato cuantitativo de que es un caso de uso ya consolidado en producción.

Ramp — invoice processing pattern

ramp.com/blog/ai-invoice-processing
99% accuracy en line-item data.
Bloqueo de 3,5–8,8% gasto out-of-policy en swipe. Agentic workflow que flaga SaaS duplicados.

Patrón Stripe / Coinbase / Ramp de agentes internos (2025)

Stripe (Minions ~500 tools), Ramp (Inspect), Coinbase (Cloudbot).
Convergencia independiente en: sandbox aislado, toolset curado, subagent orchestration, integración con Slack/Linear/GitHub.

⚠️ Gap detectado para España: ningún caso público con arquitectura documentada llamando a la API de AEAT/SII en este periodo. Hay productos cerrados (Holded, Sage) pero no engineering blogs. Oportunidad de contenido propio Intelia.

2.8 — Capa 6: serving para volumen masivo

vLLM V1 (ene-2025)

Rewrite del core; PagedAttention + scheduler reescrito. Soporte day-one de modelos nuevos vía plugin architecture.

vLLM Encoder Disaggregation (EPD, nov-2025)

blog.vllm.ai/2025/12/15/vllm-epd.html
Separa el vision encoder en servicio centralizado → cache cross-request.
Una factura escaneada con el mismo logo/template reutiliza embeddings. Cached requests = zero encoder cost.
Crítico para volumen masivo con templates repetidos (factura recurrente del mismo proveedor).

LMCache para multimodales (jul-2025)

blog.lmcache.ai/2025-07-03-multimodal-models
Externaliza KV cache; cachea image embeddings cross-request → reduce TTFT y GPU memory.

SGLang vs vLLM 2026

SGLang ~5–8% TTFT p95 mejor en concurrency alta; mejor en raw throughput de modelos pequeños.
vLLM mejor para batch templated.
SGLang explícitamente diseñado para multi-step structured generation — encaja con extracción que llama tools.

2.9 — Capa 7: compresión visual y long-context

DeepSeek-OCR (arXiv 2510.18234) — el paper paradigmático. Una factura entera puede comprimirse a unos cientos de vision tokens.
Optical Context Compression Is Just (Bad) Autoencoding (arXiv 2512.03643) — crítica académica al paradigma.
Context Cascade Compression (arXiv 2511.15244) — límites superiores de compresión de texto.
FCoT-VL (arXiv 2502.18512) — compresión de visual tokens específica para text-oriented VLMs en alta resolución (el caso de facturas).
LUVC (arXiv 2512.09010) — 2× speedup en inferencia con degradación accuracy despreciable.
HybridToken-VLM (arXiv 2512.08240) — dual pathway: continuous compression para semántica + discrete quantization para detalles finos.
Adaptive-VoCo (arXiv 2512.18496) — compresión variable según complejidad visual de cada bloque del documento.

2.10 — Pipelines híbridos y document AI toolkits

Docling — IBM Research

arXiv 2501.17887
Qué es: toolkit OSS Apache 2.0 que produce un DoclingDocument unificado (layout + reading order + table cells + bounding boxes) y exporta a Markdown/HTML/JSON/DocTags.
Update ene-2026: sustituyó SmolDocling-256M por backbone Granite 3 + SigLIP2.
Integraciones: LangChain, LlamaIndex, Haystack, CrewAI nativas.
Claim IBM: "evitar OCR reduce errores y acelera time-to-solution 30×".

Reducto — hybrid agentic OCR

llms.reducto.ai/hybrid-architecture-agentic-ocr-deep-dive
Pipeline en cascada: computer vision para layout segmentation → OCR clásico + VLM en paralelo → "Agentic OCR" como capa de QA que detecta columnas mal asignadas, mismatches campo/valor, tablas corruptas.
Cuando las confidence scores caen bajo umbral, re-procesa el bloque con segmentación alternativa.

LlamaParse + LlamaIndex Document

llamaindex.ai/services/invoice-data-extraction-software
Modos Fast / Balanced / Multimodal / Premium (5 → 60 créditos/página). Schema preconstruido "invoice".
Validation loops automáticos antes de devolver resultados.

LangExtract — Google

developers.googleblog.com/introducing-langextract · Apache 2.0
NO es full-stack IDP — opera sobre texto ya extraído.
Diferenciadores: source grounding (cada campo extraído ancla al offset exacto en el texto fuente) + hallucination filtering.

Trade-off central: VLM-first vs hybrid

VLM-first (Gemini 2.5 Pro, Qwen 2.5-VL, Mistral OCR 3) → elimina la fragilidad multi-etapa, pero pierde grounding pixel-exacto.
Hybrid (Reducto, Docling, LandingAI ADE) → preserva bounding boxes y permite auditoría humana — obligatorio para error <1% en NIF/importes con trazabilidad regulatoria.

Para facturas españolas con Verifactu en horizonte, la trazabilidad pesa: cualquier campo cuestionable necesita poder mostrarse en el documento original. Eso favorece arquitecturas hybrid.

2.11 — Mercado comercial: proveedores y matriz de decisión

Hyperscalers

AWS Textract AnalyzeExpense: $0,01/pág primer 1M, $0,008 después. AnalyzeDocument: $0,07/pág. BDA (Bedrock Data Automation, GA dic-2024) capa managed.
Azure Document Intelligence: prebuilt-invoice $10/1.000 páginas; commitment tier alto baja a $0,53/1.000 a 8M páginas/mes. Custom neural model entrenable con 5 docs.
Google Document AI: Invoice Parser $0,01/pág. Custom Extractor con Gemini 3 Pro: $30/1.000 (1–1M). Custom processor hosting: $438/año por versión.

IDP especialistas

Rossum (Coupa): desde $18.000/año. Modelo Aurora propio. 276 idiomas. SAP/NetSuite/Dynamics. Adquirida por Coupa 12-may-2026.
Klippa → Doxis AI.dp: pay-as-you-go EUR. Soporte UBL/PEPPOL nativo — único con foco e-invoicing compliance EU. Adquirida por SER Group 18-mar-2025 → rebrand a Doxis 19-ene-2026.
Hypatos: enterprise opaco. Integración SAP profunda. xSuite partnership (firmada dic-2024, anunciada mar-2025).
Veryfi: $0,16/factura plan Starter. Receipt OCR es claramente lo mejor del mercado. SDKs móvil iOS/Android.
Mindee: Starter €44/mes · Pro €179/mes · Business €584/mes. docTR open source. Mejor producto API-first europeo.
Nanonets: workflow típico factura = 4–6 bloques = ~$1,20–$1,80/factura. Workflow builder no-code.
Docsumo / Affinda / Koncile / Sensible.so: variantes específicas por vertical.

Startups disruptores 2025-2026

Reducto: Series A $24,5M (Benchmark, abr-2025) + Series B $75M (a16z, feb-2026) = $108M total. RolmOCR open-source + API ($0,015/pág).
Extend AI: $17M Series A (Innovation Endeavors, jun-2025). 5 APIs: Parse/Extract/Split/Classify/Edit. ~$0,05/pág en plan Scale. Self-hosted disponible en Enterprise.
Invofox: Madrid, YC. Único con foco nativo España + Holded/A3/ContaSimple. API B2B2B (white-label).
DDD Invoices: Ljubljana. €1,31M Seed (Fil Rouge + 500 Global, may-2026). "Una API para 50+ regímenes tributarios".

Open source / open core comercial

Unstructured.io: $40M Series B (2024). OSS Apache + API $1/1.000 páginas. 64+ tipos de archivo.
LlamaParse: $19M Series A (2024). v2 (2025) parsing agentic + validación.

Tabla comparativa final

Proveedor	Modelo subyacente	$/factura (1 pág)	ES nativo	Integraciones ERP ES
AWS Textract AnalyzeExpense	OCR propio	$0,010	Sí	No
Azure DocInt prebuilt-invoice	Modelo propio	$0,010	Sí	No
Google DocAI Invoice Parser	Propio + Gemini	$0,010	Sí	No
Rossum (Coupa)	Aurora TLLM propio	Enterprise (~$0,10-0,50)	Sí	SAP, NetSuite
Doxis AI.dp (ex-Klippa)	OCR+LLM, UBL/PEPPOL	Pay-as-you-go EUR	Sí	UBL/PEPPOL, SAP
Hypatos	Deep learning propio	Enterprise opaco	Sí	SAP profundo
Veryfi	OCR propio	$0,16	Limitado	QuickBooks, Concur
Mindee	Propio + docTR	~€0,04-0,07	Sí	API only
Nanonets	OCR-3 + workflows	~$1,20-1,80	Sí	QB, Xero, SAP, NS
Reducto	RolmOCR + API	$0,015	Sí	API only
Extend AI	LLM full-stack	~$0,05	Sí	API only
Invofox	Propio B2B2B	No público	Nativo ES	Holded/A3/ContaSimple
Mistral OCR 3	Mistral OCR propio	$0,002 (Batch $0,001)	Sí	API self-host
Unstructured.io	OSS + API	$0,001	Sí	OSS + connectors
LlamaParse	Propio + LLM tiers	$0,003-0,09	Sí	LlamaCloud + RAG

2.12 — Build vs Buy: análisis operativo

Cuándo BUILD tiene sentido

Volumen >1M facturas/año — el ahorro vs $0,015–0,10/pág compone.
≥1 ML/data engineer dedicado al mantenimiento.
Formatos repetitivos (5–20 layouts recurrentes representan 80% del volumen).
Compliance / data residency obliga a self-host (aunque Mistral en Frankfurt ya cumple).
Quieres capacidad de aprender de tus errores con un loop propio (unit-test-as-reward al estilo olmOCR 2).

Componentes 2026 de un stack BUILD

OCR: RolmOCR (Reducto, Apache 2.0) o Mistral OCR 3 self-hosted o MinerU 2.5 (Apache 2.0).
VLM estructura: Qwen 2.5-VL-72B / InternVL3-78B / Llama 4 ⚠️ (problema licencia UE) o Gemini 2.5 Flash API ($0,30/1M input).
Validación: regex deterministas + tablas hash + LLM-as-judge para fields críticos.
HITL UI: construir o adoptar Label Studio.
Coste real estimado all-in: $0,003–0,008/factura (cómputo + storage + revisión humana del 5–10%).

Cuándo BUY tiene sentido

Volumen <200k facturas/año — la curva no compensa el FTE.
Time-to-market <1 mes.
Cliente paga premium por SLA y certificaciones (SOC2, HIPAA).
No tienes ML/data eng dedicado.
Mix de tipos de doc va más allá de facturas (recibos, contratos, POs, BoLs).

La opción HÍBRIDA (recomendada para consultoras)

Capa cliente: producto comercial barato (Mistral OCR 3 API o Mindee Pro).
Capa de validación propia: Python + reglas + LLM small (Haiku 4.5 / Gemini Flash).
Reservar build interno solo si un cliente pasa de ~500k facturas/año.

2.13 — Recomendación de stack para Intelia 2026

Opción A — Stack ligero "POC rápido al cliente" (recomendada)

Para clientes SMB/mid-market españoles con Holded/A3/Sage:

Mistral OCR 3 como motor OCR.

Coste: $0,001–0,002/pág.
EU data residency (servidores Frankfurt).
Modelo francés → story de venta favorable a clientes españoles.

Claude Sonnet 4.6 o Gemini 2.5 Flash para extracción structured + razonamiento contable (mapeo PGC, IVA, retenciones).
Validación determinista propia en Python (regex NIF/CIF, IBAN, cuadre IVA, fechas Verifactu).
Integración Holded vía su API REST (Intelia ya conoce Holded por Hispania Hearing Partners).

Métricas objetivo:

Coste por factura: $0,005–0,01.
F1 esperado: >97% con HITL en 5–10% del flujo.
Latencia: <10s end-to-end por factura simple.

Opción B — Cliente con Sage Intacct o SAP en mid-market

Hypatos para SAP-heavy, o partner con Esker o Quadient como integrador.

Margen consultoría más alto. Ciclo de venta 6–12 meses.

Opción C — Acelerar y centrarse en valor de capa superior

Partner con Invofox (Madrid, mismo perfil cultural).

Invofox provee el parsing nativo ES con integración Holded/A3.
Intelia construye el agente contable encima (mapeo PGC, razonamiento, reconciliación con ERP).
Reduce time-to-market a semanas en lugar de meses.

Qué NO comprar para perfil SMB español

Rossum (Coupa): caro para SMB. MOQ $18k/año excluye gran parte del mercado.
Nanonets: pricing por bloque sale caro, $1,20–1,80/factura no compite con Mistral.
Hypatos: solo si el cliente es SAP-heavy enterprise.
Veryfi: si el caso es recibos puros sí; para facturas B2B españolas no es el ajuste.
Llama 4 (Scout/Maverick): restricción multimodal UE — bloqueante para clientes europeos.

2.14 — Tracker M&A y consolidación 2025-2026

Movimiento	Fecha	Implicación mercado
Coupa adquiere Cirtuo	mayo 2025	Coupa entra en sourcing IA
Coupa adquiere Scoutbee	oct 2025	Coupa consolida supplier intel
SER Group adquiere Klippa	18-mar-2025	DocHorizon entra en ECM enterprise alemán
Reducto Series A $24,5M (Benchmark)	abr 2025	Disruptor open-source con respaldo VC tier-1
Hypatos × xSuite OEM partnership firmada	dic 2024 (anuncio 11-mar-2025)	SAP integración OEM
Extend AI Series A $17M (Innovation Endeavors)	17-jun-2025	Document processing cloud emerge
GPT-5 lanzamiento	7-ago-2025	Multimodal nativo, $1,25/$10/1M
Berghaus invoice benchmark publicado	ago 2025	Primer benchmark serio facturas con VLMs
MinerU 2.5 release	26-sep-2025	1,2B model que bate a gigantes
DeepSeek-OCR paper	21-oct-2025	Contexts optical compression paradigma nuevo
olmOCR 2 con Unit Test Rewards	22-oct-2025	Patrón RL-with-tests para producción
Verifactu retrasado (RD-Ley)	2-dic-2025	Pista de ejecución 12-18 meses para España
Mistral OCR 3 release	17-dic-2025	$2/1k pág rompe el suelo de precio
Anthropic Economic Index ene-2026	ene 2026	Invoice processing = 0,24% tráfico API enterprise
SER Group → rebrand Doxis	19-ene-2026	Klippa DocHorizon → Doxis AI.dp
Reducto Series B $75M (a16z lead)	feb 2026	Total $108M, posicionamiento enterprise
MinerU 2.5-Pro release	6-abr-2026	OmniDocBench v1.6_full 95,75
Claude Opus 4.7	16-abr-2026	Resolución imagen 3×, contexto 1M
DDD Invoices Seed €1,31M	14-may-2026	E-invoicing compliance global como categoría
Coupa adquiere Rossum	12-may-2026	3ª compra IA en 12 meses; Rossum pierde independencia

2.15 — Contexto regulatorio España / EU

Verifactu — las DOS fechas

Real Decreto-Ley publicado en BOE el 2-dic-2025 retrasa Verifactu:

1-enero-2027: obligación para contribuyentes del Impuesto sobre Sociedades.
1-julio-2027: obligación para el resto (autónomos, profesionales).

⚠️ Decir "enero 2027" a secas es incompleto. Hay dos fechas distintas según tipo de contribuyente. (Nota AEAT oficial)

e-invoicing PEPPOL / UBL

PEPPOL como estándar de facto en EU para facturación electrónica intra-EU.
UBL (Universal Business Language) como formato XML.
Crítico: cualquier pipeline que aspire a Verifactu-ready debe generar UBL/PEPPOL.

VIES — el validador de VAT intra-EU

API pública de la Comisión Europea.
Validación obligatoria de VAT de cliente intra-EU para exención.
Patrón habitual: el agente que extrae la factura llama a VIES como tool.

SII (Suministro Inmediato de Información)

Ya obligatorio desde 2017 para grandes contribuyentes.
Los registros de IVA se envían a AEAT en tiempo cuasi-real.
Cualquier pipeline de facturas para empresa SII-obligada debe poder generar el registro SII correctamente desde la extracción.

2.16 — Gap analysis: "InteliaInvoiceBench"

Gaps detectados en el ecosistema actual

Gap	Severidad
Facturas EU multi-idioma (ES/FR/DE/IT/PT) con line items	Crítico — no existe
Facturas con regímenes fiscales reales (IVA reverse charge, OSS, retenciones, IRPF, suplidos)	Crítico — no existe
Coste/latencia como métrica nativa (no solo accuracy)	Alto
Eval con OCR ruidoso (móvil, foto torcida, fax) en facturas	Alto
Long-tail de plantillas (>1.000 templates distintos)	Alto
Reconciliación campo-cuenta contable (mapping al plan contable)	Crítico — no existe
Métricas de confianza calibrada para HITL routing	Medio

Propuesta de diseño

Composición:

10.000 facturas reales anonimizadas en 5 idiomas EU (ES/FR/DE/IT/PT), 2.000 por idioma.
Diversidad: 50% B2B, 30% B2C, 20% intracomunitarias.
3 niveles de calidad: digitally-born / scan limpio / foto móvil.
Plantillas: cobertura long-tail (target: >800 emisores distintos).

Tareas:

KILE-EU — extracción cabecera + 30 campos canónicos con coordenadas.
LIR-EU — line items con conciliación cantidad × precio = subtotal.
Tax-Reasoning — IVA aplicado correctamente (tipo, base, cuota, regímenes especiales).
Account-Mapping — mapeo a plan contable PGC español como gold.
Multi-page Concat — factura + albarán = matching de items.

Métricas:

Field F1 por campo (no agregado — críticos como NIF/IBAN/total deben ser >99,5%).
Line-Item Tree-Edit-Distance.
Tax-Consistency-Check (boolean: ¿los números cuadran?).
Calibrated Confidence ECE (Expected Calibration Error para HITL routing).
Cost-per-correct-field ($USD por campo correctamente extraído incluyendo coste API).
p95 latency end-to-end.

Diferenciador frente a DocILE:

DocILE no cubre idiomas EU latinos ni regímenes fiscales locales.
DocILE no tiene reconciliación contable.
DocILE no tiene métrica de coste.
DocILE quedó congelado en 2023.

Angle para paper académico Intelia: "El primer benchmark de facturas EU con conciliación fiscal-contable" — gap real, valor real para CFO/contables, y aprovecha la posición de Intelia en el espacio.

Estimación de esfuerzo: 3–6 meses de un FTE para liberar v0.1 con 1.000 facturas + tareas KILE-EU + Tax-Reasoning.

2.17 — Conclusiones operativas

Para Intelia como consultora

El stack ganador para SMB español es híbrido y barato: Mistral OCR 3 + Claude/Gemini Flash + validación propia + Holded API. Coste $0,005–0,01/factura, F1 >97%.
Verifactu retrasado a 2027 da margen — usarlo para construir relaciones con clientes ahora y posicionarse como el proveedor cuando llegue la obligación.
Invofox es competidor o partner natural — explorar conversación.
El gap de benchmark EU es real y monetizable. Un "InteliaInvoiceBench" sería contenido top para SEO técnico, citas académicas y diferenciación comercial.
El patrón Unit Tests as RL Reward (olmOCR 2) es probablemente el más prometedor del año para llegar a <1% error en producción.

Para clientes Intelia

No hacer evaluación con DocVQA/CORD/SROIE — están saturados.
Hacer evaluación con corpus propio del cliente — 200–500 facturas etiquetadas, field F1 por campo.
Cualquier pipeline serio debe incluir reconciliación matemática determinista.
La trazabilidad pixel-exacta (bounding boxes) será un requisito de auditoría con Verifactu.

Tres apuestas Intelia para los próximos 6 meses

Pilot interno con stack Mistral OCR 3 + validación propia sobre Hispania Hearing Partners — caso real con ledger Excel/Metabase.
Conversación con Invofox — explorar partnership o coopetición clara.
Versión draft de InteliaInvoiceBench con 500 facturas propias + KILE-EU + Tax-Reasoning. No para publicar académicamente todavía, sino como herramienta interna + material de marketing técnico.

Referencias

Papers arXiv (verificados verbatim contra arxiv.org)

2510.18234 — DeepSeek-OCR: Contexts Optical Compression · DeepSeek-AI · oct 2025
2509.22186 — MinerU2.5: A Decoupled Vision-Language Model · OpenDataLab · sep 2025
2604.04771 — MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale · OpenDataLab · abr 2026
2502.18443 — olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models · Ai2 · feb 2025
2510.19817 — olmOCR 2: Unit Test Rewards for Document OCR · Ai2 · oct 2025
2512.02498 — dots.ocr: Multilingual Document Layout Parsing · rednote-hilab · dic 2025
2502.13923 — Qwen2.5-VL Technical Report · Alibaba · feb 2025
2511.21631 — Qwen3-VL Technical Report · Alibaba · nov 2025
2504.10479 — InternVL3 · OpenGVLab · abr 2025
2508.18265 — InternVL3.5 · OpenGVLab · ago 2025
2412.10302 — DeepSeek-VL2 · DeepSeek · dic 2024
2409.17146 — Molmo and PixMo · Ai2 · sep 2024
2410.07073 — Pixtral 12B · Mistral · sep 2024
2408.01800 — MiniCPM-V · OpenBMB · ago 2024
2410.05993 — Aria · Rhymes AI · oct 2024
2507.06261 — Gemini 2.5: Pushing the Frontier · Google DeepMind · jul 2025
2501.17887 — Docling · IBM · ene 2025
2411.15100 — XGrammar · Dong et al. · nov 2024
2412.05579 — Survey LLMs-as-Judges · EMNLP 2025
2412.07626 — OmniDocBench · OpenDataLab · dic 2024
2501.00321 — OCRBench v2 · HUST + Baidu · ene 2025
2302.05658 — DocILE · Rossum + Czech TU · feb 2023
2412.02592 — OCR Hinders RAG (OHR-Bench) · OpenDataLab + HKU · dic 2024
2509.04469 — Multi-Modal Vision vs. Text-Based Parsing: Benchmarking LLM Strategies for Invoice Processing · Fraunhofer IAIS · ago 2025
2510.15727 — Invoice Information Extraction · Sai Yashwant et al. · oct 2025
2511.05547 — Automated Invoice Data Extraction · Khanchandani et al. · nov 2025
2407.01523 — MMLongBench-Doc · NTU + Shanghai AI Lab · jul 2024
2405.11985 — MTVQA · ByteDance · may 2024
2211.15421 — VRDU · Google Research · nov 2022
2007.00398 — DocVQA · Mathew et al. · jul 2020
2103.10213 — SROIE · Huang et al. · mar 2021
1905.13538 — FUNSD · EPFL · may 2019
2502.18512 — FCoT-VL · feb 2025
2512.03643 — Optical Context Compression Is Just (Bad) Autoencoding · dic 2025
2511.15244 — Context Cascade Compression · nov 2025
2512.09010 — LUVC · dic 2025
2512.08240 — HybridToken-VLM · dic 2025
2512.18496 — Adaptive-VoCo · dic 2025
2409.01704 — GOT-OCR 2.0 · StepFun · sep 2024
2308.13418 — Nougat · Meta · ago 2023
2501.10868 — JSONSchemaBench (Outlines) · ene 2025

Comunicados y press releases verificados

Coupa adquiere Rossum — 12-may-2026
Rossum confirmación adquisición
SER Group adquiere Klippa — 18-mar-2025
SER Group → rebrand Doxis — 19-ene-2026
Reducto Series B $75M — feb 2026
a16z invests in Reducto
Reducto Series A $24,5M (Benchmark) — abr 2025
Extend AI Series A $17M — 17-jun-2025
DDD Invoices Seed €1,31M — 14-may-2026
Mistral OCR 3 launch — 17-dic-2025
xSuite × Hypatos partnership — 11-mar-2025
Verifactu retrasado a 2027 — Nota AEAT
El Economista — Verifactu 2027
Anthropic Economic Index ene-2026
Claude Opus 4.7 announcement — 16-abr-2026
Claude Sonnet 4.6 — feb 2026
OpenAI GPT-5 announcement — 7-ago-2025
Meta Llama 4 blog — 5-abr-2025

Leaderboards y benchmark sites

Pricing pages verificadas en mayo 2026

Recursos open source clave

Convenciones del documento: 🟢 verificado contra fuente primaria oficial · 🟡 reportado solo por terceros · ⚠️ requiere verificación adicional

Decay esperado: este documento envejece. Modelos nuevos salen cada 4–8 semanas; pricing puede moverse. Próxima revisión sugerida: agosto 2026.