Funciones de transferencia

Nota viva — sigue evolucionando.v11 · 15 may 2026

un framework para automatizar empresas

Funciones
de transferencia.

Un modelo para construir negocios donde la IA hace el grueso del trabajo — sin convertirse en una caja negra ni colapsar en complejidad.

En Intelia llevamos tiempo cocinando esto. Empezó hace meses intentando romper procesos de negocio en sub-procesos manejables, y ha ido decantando en el modelo que recoge este documento. La hipótesis que lo motiva es directa: una compañía se compone de procesos — operativos y de decisión — y si somos capaces de automatizar procesos de forma sistémica, podemos automatizar compañías enteras. Al menos en todo lo que no requiera interacción humana física.

Una función de transferencia (FT, en corto) es la representación matemática de un sistema que toma un input y produce un output según una caracterización propia. Es el término que vamos a usar para hablar de cualquier trozo del negocio — al nivel que sea, ya sea un proceso operativo o uno de decisión.

§ 1

La FT, unidad mínima

Un proceso de negocio es una función de transferencia. Tiene una entrada, una salida y, entre medias, una caracterización propia — el cómo — que es precisamente lo que vamos a descubrir y optimizar. Da igual el dominio: "facturar a un cliente", "cerrar el mes contable", "onboardear un proveedor", "contestar una consulta de soporte": todos se modelan con el mismo lenguaje.

y = H(x; θ) — lo que sale (y) es lo que entra (x) transformado según la caracterización del sistema (H) y su configuración (θ).

in
Config

Función de transferencia

p. ej. cerrar el mes contable

out

Cada FT lleva un Config. No es un input en sentido estricto — los inputs varían en cada ejecución; el Config se reutiliza entre ejecuciones del mismo proceso. Es información de contexto que la FT necesita para razonar de forma consistente sobre cualquier input que reciba:

Dicho de otra forma: si una skill es "el manual de procedimiento", el Config es qué manuales tiene a mano esta FT para hacer su trabajo. Cuando llega un input nuevo, el Config sigue siendo el mismo; lo que cambia es lo que el sistema ve.

§ 2

Descomponer es la jugada

Pocos procesos de negocio reales se resuelven de una pasada por un LLM frontera. La FT gorda del negocio no es un bloque monolítico: es una secuencia de FTs hijas encadenadas, cada una con su entrada, su salida y su Config propio. Descomponer en sub-procesos tiene sentido por tres razones que vienen casi gratis con el modelo:

razón 1

Manejable

Cada FT tiene que ser lo bastante pequeña para que un LLM frontera, con sus tools, la pueda resolver sin perderse.

razón 2

Evaluable

Si todo es un único bloque, no sabes dónde falla. Romper permite medir cada decisión por separado y aislar qué se rompe cuando algo se rompe.

razón 3

Optimizable

Cada FT se afina por su cuenta — con su propio dataset golden y su propio objetivo de coste/accuracy/latencia. No tienes que reentrenar el negocio entero para mejorar un paso.

Config
in

FT A

out
Config
in

FT B

out
Config
in

FT C

out
Config
in

FT D

out

Composición matemática estándar: H = H_D \circ H_C \circ H_B \circ H_A. Decidir cómo descompones es decidir la arquitectura: cualquier corte impone una opinión sobre los pasos del proceso, los handoffs y qué información viaja entre FTs. No hay descomposición neutra. Lo asumimos y seguimos.

§ 3

Anatomía interna de una FT

Dentro de una FT pueden vivir distintos modelos. El contenido varía:

  • Una capa determinista previa que filtra/ordena, seguida de una capa no-determinista que decide.
  • Una capa no-determinista que decide, seguida de una capa determinista que ejecuta las operaciones complejas derivadas de esa decisión.
  • FTs puramente deterministas (cuando la decisión ya está calcificada del todo).
  • Un agente no-determinista que usa tools deterministas (la línea entre capas se difumina).
  • Cualquier combinación secuencial de las anteriores.

Por simplificar, usamos un modelo básico de referencia: capa determinista previa + capa no-determinista de decisión. Es el patrón más común para procesos que aún no están del todo destilados, y es donde vive la mayor parte del trabajo de optimización que viene después.

determinista

Capa 1 — Filtros y preparación

Reglas y filtros que actúan como shortcuts: cosas que el sistema ya aprendió y no necesita re-derivar cada vez. Atrapa los casos triviales, formatea, normaliza, enriquece — prepara y simplifica el input para que la siguiente capa tome una mejor decisión.

  • Mapeos conocidos (este NIF → este cliente)
  • Reglas duras (si fecha > X, ruta Y)
  • Enrichments (añadir contexto desde otras fuentes)
  • Validaciones tempranas
no-determinista

Capa 2 — Decisión

Un LLM razona sobre el input ya preparado y aplica el Config (skills, memoria procedimental, contexto) para tomar la decisión que no puede expresarse con reglas duras.

  • Cuando hay ambigüedad real
  • Cuando el contexto importa
  • Cuando hay que combinar señales
  • Cuando hay que justificar la elección

El reparto entre capas se mueve. No es estático. Cada iteración del loop diario empuja cosas de la capa 2 a la capa 1: lo que era ambiguo se vuelve regla, lo que requería razonamiento se vuelve shortcut. La FT se calcifica.

día 1
día 30
día 180

determinista (filtros + shortcuts)  ·  no-determinista (decisión LLM)

§ 4

El ciclo de vida de una FT

Automatizar un proceso es, primero, descomponerlo (§ 2). Y después, pasar cada sub-FT por cuatro fases: descubrimiento, optimización, promoción y re-optimización.

1

discovery

Descubrir cómo se ejecuta el proceso

Ponemos un LLM frontera — el modelo más caro y capaz disponible — a ejecutar la FT end-to-end. Recibe el input, lleva su Config, accede a las herramientas y produce el output. Es ineficiente, lento y comete errores. Pero genera ejecuciones reales que podemos analizar.

Otro LLM evaluador clasifica cada output como correct, doubt o failed. Las dudas escalan a un reviewer: idealmente un LLM más caro con capacidad de razonamiento y mucho contexto, alternativamente un humano. Los casos resueltos se quedan como golden dataset.

Doubt = donde el LLM evaluador no puede asegurar si la respuesta es correcta o incorrecta. Es la materia prima de la siguiente fase.

2

optimization

Optimizar el proceso

Un modelo de 2ª capa — el auto-optimizador — observa todas las ejecuciones del modelo frontera y trata de descomponer la FT en una parte determinista y otra no-determinista con un LLM mucho más barato. Va iterando contra el golden dataset hasta que llega al objetivo o agota su budget.

Qué se mide aquí

€ Coste / run

tokens, llamadas a tools, infra

✓ Accuracy

contra el golden dataset

⏱ Latencia

tiempo total end-to-end

Estas son las estándar. Cada FT puede añadir métricas ad-hoc según su dominio: tasa de fallback a humano, drift respecto a una distribución conocida, métricas de negocio acopladas a la decisión. No se prescriben.

Side effect importante: durante el análisis del comportamiento del frontera, el sistema va destilando aprendizajes generales que eventualmente alimentan decisiones de mayor nivel — cambiar la arquitectura, romper FTs, crear FTs nuevas, modificar procedimientos. Ese flujo lo desarrollamos en el § 5.

3

promote

Promocionar y seguir evaluando

La FT optimizada entra en producción. Sigue generando outputs; el LLM evaluador sigue clasificándolos. Los casos nuevos amplían el golden dataset y alimentan la siguiente re-optimización.

4

re-optimize

Re-optimizar periódicamente

Cada noche, cada semana, cada cierto tiempo — el auto-optimizador vuelve a entrar sobre los runs nuevos. Cada vuelta calcifica más reglas, refina más prompts, mueve más casos a la capa determinista. Pasos 3 y 4 son el latido continuo del sistema.

🔁 cada noche: re-ejecutar · re-evaluar · re-destilar

§ 5 · en producción

Ejemplo: contabilizar una factura

Esto no es teoría. En Intelia tenemos un pipeline así corriendo en producción para procesar facturas reales: las recibe por email, WhatsApp, web o sync inverso de Holded, las clasifica, extrae, valida y las acaba sincronizando con el ERP. Mirado en bruto son 13 pasos orquestados por Temporal. Mirado a través del framework, son 6 FTs encadenadas.

La FT-negocio, sin descomponer

Visto desde arriba, el proceso entero es una sola caja: entra un documento de cualquier canal, sale un asiento contable sincronizado con Holded.

documento
de cualquier canal
Config

Contabilizar documento

v2d accounting

asiento
en Holded

Descompuesta en 6 sub-FTs

Cada sub-FT tiene su propio Config (skills, plantillas, reglas de dominio) y produce un snapshot estructurado que es input verificable de la siguiente. La cadena es de izquierda a derecha:

Config
archivo

1. Ingerir

DocFile
Config
DocFile

2. Clasificar

tipo
Config
DocFile+tipo

3. Extraer

StructDoc
Config
StructDoc

4. Promover

Justif
Config
Justif

5. Revisar

status
Config
Justif OK

6. Sincronizar

Holded
FTQué haceAnatomíaConfig
1. IngerirRecibe el archivo de cualquier fuente, deduplica por hash, valida MIME, recorta si es PDF largo.deterministacanales de origen, límites de archivo, política de dedup
2. ClasificarLLM multimodal mira el documento y decide tipo: factura, recibo, nómina, otros (+ 17 subtipos).no-deterministaskills (cómo identificar cada tipo), taxonomía, ejemplos del dominio
3. ExtraerLLM saca proveedor, NIF, fechas, líneas, impuestos. Validación de sumas y formato. Enriquece con VIES y currency.no-detdetschema de campos esperados, tasas de IVA legales, APIs externas (VIES, BCE)
4. PromoverConvierte el StructuredDocument en un Justificante con su propio ciclo de vida. Crea entidades fiscales, detecta duplicados (edges), auto-asigna cliente si hace falta (LLM).det + no-det opcionalreglas de matching de proveedores, política de tax entities, locks de concurrencia
5. RevisarTres checks paralelos: errores de validación, riesgo fiscal, compliance de retención. Cierra con status: READY_TO_SEND o HUMAN_REVIEW.deterministareglas de riesgo fiscal, tablas de retención, política de auto-aprobación
6. SincronizarEmpuja el justificante a Holded vía API. Reconcilia si ya existía. Maneja errores y reintentos.deterministamapeo a estructuras de Holded, reglas de reconciliación, política de retry

Dos anatomías reales (§ 3 en la práctica)

Las sub-FTs no comparten anatomía interna — tal como decía el § 3, el patrón básico es una guía, no una receta. Dos ejemplos reales del pipeline lo demuestran:

FT.clasificar — casi puro LLM

determinista

Casi inexistente. Solo descarga del storage y pasa al LLM. Aquí no hay nada que calcificar todavía: la decisión es "qué tipo de documento es esto" y depende de la variedad infinita de formatos del mundo real.

no-determinista

LLM multimodal mira la imagen/PDF y devuelve el tipo + descripción + contexto. El 90% del trabajo vive aquí. Si el documento no encaja en una clase soportada, se descarta el pipeline entero.

FT.extraer — no-det seguido de det

no-determinista

LLM multimodal extrae todos los campos: proveedor, NIF, fechas, líneas, importes, IVAs. Es la parte ambigua — cada factura tiene un layout distinto.

determinista

Validación de sumas (líneas = base imponible, IVA = base × tipo), enriquecimiento vía VIES, normalización de NIFs, detección de swap proveedor↔receptor. Reglas duras que se aplican sobre el JSON que sacó el LLM.

Es el modelo "no-det → det posterior" mencionado en § 3: el LLM toma la decisión difícil, las reglas verifican que el output es coherente.

Los snapshots viajan entre FTs

Cada vez que una sub-FT termina, produce un snapshot estructurado que es input verificable de la siguiente. El pipeline tiene cuatro tiers de datos canónicos, y son exactamente los snapshots que el § 2 propone:

tier 1

DocumentFile

Archivo físico tal cual entró. Hash, MIME, origen, blob en S3.

tier 2

StructuredDocument

JSON con campos extraídos, validados y enriquecidos.

tier 3

ExpenseJustificative

Justificante con ciclo de vida y status propio.

tier 4

Holded

Asiento sincronizado en el ERP.

Cualquier sub-FT puede re-ejecutarse stateless a partir del snapshot del tier anterior — igual en producción que en evals. Si quiero probar una versión nueva de FT.clasificar, le doy los DocumentFile que ya tengo y comparo su output contra los tipos que sacó la versión vieja. Si cambio FT.extraer, le doy DocumentFile + tipo y comparo el StructuredDocument resultante contra el golden dataset. Sin esto, los evals serían irreproducibles.

Qué demuestra este ejemplo

  1. La descomposición no es teórica: un proceso real con 13 pasos cabe en 6 sub-FTs cuyas fronteras tienen sentido para el negocio (no para el ingeniero).
  2. La anatomía interna varía: ninguna FT es solo det o solo no-det. Cada una ajusta el reparto según la naturaleza del trabajo. Clasificar es casi todo LLM; extraer es LLM seguido de reglas; revisar es casi todo reglas.
  3. Los snapshots hacen que el sistema sea reproducible: cualquier FT puede aislarse, re-ejecutarse y evaluarse contra cualquier tier anterior. Esta es la condición que hace posible la calcificación gradual del § 3.

§ 6

La memoria del sistema

El side effect de la fase 2 (§ 4) tiene su propio circuito. Cada aprendizaje destilado durante la optimización de una FT no se queda en su FT: va a una memoria del sistema que el resto del organigrama puede consultar.

data lake

Lake de aprendizajes

Append-only. Cada FT vuelca aquí lo que aprende: patrones, reglas candidatas, casos límite, fallos. Sin curación, sin formato estricto. Crudo.

FT meta

Extractor / curador

Otra FT en sí misma. Procesa el lake periódicamente, identifica patrones de alto nivel y propone cambios fuera de la FT origen.

Cambios a procedimientos

Actualizar skills y memoria procedimental: el Config de unas u otras FTs se enriquece con lo aprendido.

Cambios a arquitectura

Re-descomponer la cadena: dividir las FTs que se han hecho demasiado complejas, fusionar las que han convergido, crear nuevas para casos emergentes.

Y por encima de eso, un nivel superior que toma decisiones de alto nivel a partir de los aprendizajes agregados: qué procesos priorizar, cuándo invertir en una nueva FT, qué partes del negocio están listas para automatizarse.

La memoria es jerárquica, no plana. Aprendizajes crudos abajo, procedimientos curados en medio, decisiones arquitectónicas arriba.

§ 7 · bonus

Fractal y orgánico

Si todo lo anterior funciona, lo siguiente cae por gravedad: esto es fractal. El extractor del § 5 ya es una FT. La fase 2 del § 4 es una FT que optimiza FTs. Si las FTs pueden ejecutar procesos y los procesos pueden ser "crear una FT", entonces podemos tener FTs que crean FTs.

Cuando el sistema detecta en el lake que un tipo de caso emerge con frecuencia, propone una nueva FT para tratarlo. Cuando una FT se ha vuelto demasiado grande, propone romperla. Cuando dos FTs convergen, propone fusionarlas. La arquitectura misma se vuelve dinámica.

Si conseguimos desbloquear esto, lo que queda es un modelo orgánico que se auto-aprende y se auto-mejora — la empresa entera entendida como un organismo de FTs que se reorganizan solas en función de lo que va llegando por la puerta.

Es la pieza más especulativa de todo el framework. Pero es la consecuencia lógica del resto. Si las primeras cinco secciones se sostienen, esta sale gratis.

§ 8

Cómo se relaciona con el espacio

Hay un puñado de jugadores construyendo algo lo bastante parecido como para hacerse mirar. Conviene situar el framework frente a ellos, no como ejercicio defensivo, sino para entender qué problema resuelve cada cual, qué vocabulario están consolidando y dónde está la cuña diferencial del modelo de FTs.

Maisa

— Valencia · $25M Series A · 400% growth YoY · Santander, Indigo, Jobandtalent, Elecnor como clientes

Es el jugador del espacio que más se parece al modelo de FT — merece detalle. Fundada por Manuel Romero y David Villalón en Valencia. $25M Series A en ago 2025 (Creandum + Forgepoint), inversor estratégico vía joint venture con Santander. Reconocida como "Rising Star" por Deloitte y "Front-Runner" por Gartner en abril 2026. Equipo escalando de 35 a 65 personas. Crece 400% YoY.

Venden "digital workers" auditables a empresa grande. Casos públicos con métricas concretas (no marketing genérico):

  • Large financial services firm: automatizó transaction checking y reconciliación con Maisa Studio. "Filter out 99% of false positives, 10x improvement in productivity per person. The entire rollout was completed with no engineering work — just three onboarding sessions."
  • Global investment bank: reemplazó el proceso manual de media screening con digital workers que "extract relevant facts from news articles, assess reputational risk and produce audit-ready summaries in minutes, at scale."
  • Elecnor (engineering global). El director de Digital Transformation: "within a matter of weeks, we moved from semi-structured operational guidance to a fully functional Digital Worker that enables us to manage our first AI-driven business operation."

Su modelo: la KPU

La unidad fundamental es la KPU (Knowledge Processing Unit). La analogía de Villalón es directa:

"Think about it as if models were CPUs and the KPU is the GPU for knowledge management and processing."
Diagrama de la arquitectura del KPU de Maisa: Virtual Context Window arriba, Reasoning Engine y Execution Engine en paralelo, con LLM y External Systems & Services como conexiones externas
Diagrama oficial de la arquitectura KPU. Fuente: the-decoder, marzo 2024.

La KPU se compone de tres engines que colaboran. La clave para entenderla es la distinción información ≠ datos:

  • Información = lo que necesitas saber para razonar (que existe un archivo de 50.000 facturas, qué estructura tiene, qué columnas hay, qué patrón se observa).
  • Datos = los bytes en sí (las 50.000 filas).

El KPU está diseñado para que el LLM solo vea información, nunca los datos crudos. Eso es lo que permite manejar volúmenes arbitrariamente grandes sin reventar la ventana de contexto.

Reasoning Engine — el cerebro

donde piensa el LLM

Es el componente donde un LLM construye y mantiene un plan estructurado de ejecución: descompone el objetivo en pasos, decide qué acción tomar a continuación, qué herramienta usar, en qué orden. No es chain-of-thought ad-hoc en un solo prompt; es un loop iterativo donde cada acción va informada por las observaciones anteriores.

Su contexto contiene solo razonamiento: descripciones, planes, decisiones, observaciones de alto nivel. Nunca payload pesado de datos. Eso lo hace barato en tokens y mantiene al LLM enfocado.

Execution Engine — el brazo

donde ocurren las acciones reales

Es el componente que ejecuta físicamente las acciones que el Reasoning Engine decide: corre código en un intérprete (típicamente Python), llama a APIs externas, consulta bases de datos, lee/escribe ficheros. Aquí viven los datos crudos — las facturas, los registros, los documentos.

Cuando termina una acción, devuelve al Reasoning Engine un resumen estructurado de lo que pasó: "ejecutado correctamente, 1.247 registros procesados, 3 duplicados detectados". No le devuelve los 1.247 registros. Le devuelve la información sobre los 1.247 registros.

Virtual Context Window (VCW) — el filtro

la membrana entre razonamiento y datos

Es la pieza más original y la que da nombre al resto. El VCW es la capa que orquesta qué llega al Reasoning Engine y qué se queda en el Execution Engine. Filtra, resume, prioriza, indexa. Convierte datos en información digerible para el LLM.

"Information arrives at the Reasoning engine, and data stays at the Execution engine. The LLM context window underlying the Reasoning engine is maintained only with reasoning and not with data, maximizing the value of the tokens."

En la práctica: si el Reasoning Engine necesita revisar 50.000 facturas, el VCW no le pasa las facturas. Le pasa una descripción de la colección (esquema, conteos, estadísticas, ejemplos representativos) y, si hace falta, una API que el Reasoning Engine puede llamar pidiendo subconjuntos concretos: "dame las que tienen importe > 10.000€ y proveedor desconocido". Ese subconjunto se consulta vía Execution Engine, se procesa, y solo el resultado relevante vuelve al razonamiento.

El VCW es lo que permite a Maisa hablar de "unlimited multimodal data" sin que el LLM se ahogue: la ventana de contexto real es finita, pero el sistema presenta al razonamiento una ventana virtualmente ilimitada gracias a esta orquestación.

Los tres engines juntos hacen que la KPU se comporte como una unidad de procesamiento de conocimiento (no de datos), de ahí la analogía CPU/GPU: igual que la GPU paraleliza aritmética para que la CPU no se ahogue, la KPU separa razonamiento de manipulación de datos para que el LLM no se ahogue.

Para FT esto es relevante por dos motivos. Primero, el VCW formaliza con un mecanismo técnico la idea de separar el Config del input que aparece en el § 1 — aunque va más allá: separa información de datos también dentro del input mismo. Segundo, sugiere que en la capa determinista del § 3 hay una sub-función concreta que merece nombre propio: la que prepara los datos crudos convirtiéndolos en información antes de que el LLM razone sobre ellos. Es prior art legítimo en este punto del framework.

Chain of Work, HALP, Self-Refine

Encima de la KPU hay tres conceptos-marca:

  • Chain of Work (vs chain-of-thought): "structured, traceable log that records every step of AI execution. Every decision, process, and action is systematically logged." Determinismo en el log: "same input, same configuration, same output."
  • HALP (Human-Augmented LLM Processing): "HALP doesn't require labeled datasets or offline feedback loops. The learning happens in context, during real tasks." El humano explica el proceso en lenguaje natural y comparte las herramientas. Rechazo explícito a los datasets etiquetados.
  • Self-Refine: cuando el outcome diverge del goal, el sistema genera review interno, propone alternativa y reintenta. Loop de auto-corrección en runtime.

El lifecycle de un Digital Worker en Studio es: Onboard → Test → Deploy → Monitor. El citizen developer describe en lenguaje natural y adjunta conocimiento; el sistema genera código a runtime, no flujos pre-encodeados: "generate and execute code at runtime, adapting to each case as it unfolds."

Convergencias y divergencias con FT

Convergencias: la división determinista (intérprete de código, Execution Engine) + no-determinista (Reasoning Engine) es idéntica a la del § 3. El Chain of Work es un primo del golden dataset trazable. Self-Refine es el latido continuo del § 4.

Divergencias confirmadas a mayo 2026 (tres, todas afiladas):

  1. HALP rechaza datasets etiquetados. Sin cambio. Es ideológico, no táctico. La apuesta de FT por el golden dataset como activo central es la divergencia más afilada.
  2. Sin calcificación gradual observable. Chain of Work registra cada ejecución, pero el log es traza, no transformación: no hay mecanismo público que mueva decisiones de la capa LLM a una capa determinista de reglas con el tiempo. El runtime genera código nuevo por caso, pero ese código no se promueve a regla calcificada reutilizable entre casos.
  3. Sin meta-loop arquitectural. Los Digital Workers se crean human-triggered. No hay sistema que detecte huecos y proponga workers nuevos autónomamente. La memoria del sistema jerárquica del § 5 no existe en Maisa — el VCW es memoria de ejecución, no memoria de aprendizajes que alimente decisiones de alto nivel.

Análisis crítico externo casi inexistente. El único en profundidad es Robert Maciejko (Medium, paywall): "The KPU, as described by Maisa, straddles the lines between a framework, an architecture, and a system, leaving its exact nature somewhat enigmatic." El espacio agentic AI tiene poca crítica técnica seria todavía — hay hueco editorial.

Sierra

— Bret Taylor, $15B valuation, $150M ARR

Plataforma "Agent OS" para customer experience en enterprise (Sonos, ADT, WeightWatchers, SiriusXM). Su arquitectura interna es una constellation of models — 15+ modelos especializados: uno de baja latencia para tool calling, uno de alta precisión para clasificación, uno de contexto largo para política, modelos de tono para la conversación, supervisores que aplican guardrails. Cada modelo hace lo suyo bien; la composición hace el agente.

En marzo 2026 lanzaron dos piezas que, juntas, son el ejemplo más cercano al meta-loop fractal del § 6 ya en producción comercial:

  • Ghostwriter"agent as a service to build other agents". Acepta SOPs, transcripts, fotos de whiteboards o descripciones en lenguaje natural y genera+despliega un agente nuevo. Es human-triggered: alguien tiene que decir qué falta. El sistema no propone agentes por sí solo.
  • Explorer — corre autónomo escaneando todas las conversaciones con clientes, detecta señales y propone ajustes aplicables con un click en Ghostwriter. Pero solo optimiza agentes existentes: nunca propone agentes nuevos ni rediseña la arquitectura.

La pareja Ghostwriter + Explorer cubre, en el vocabulario de este framework, el loop 3↔4 del § 4 (re-optimización continua) más una creación human-triggered de FTs nuevas. Lo que no cubre es el meta-loop arquitectural del § 6: detectar autónomamente que una FT nueva hace falta o que la descomposición tiene que cambiar. Y Sierra se excluye explícitamente del dominio backoffice:

"Ghostwriter builds customer experience agents, and if you need agents that operate inside internal tools, manage supply chains, or automate back-office workflows, Sierra isn't the right choice."

Fonoa

— tax compliance vertical, 110+ países, 500M tx/año

Tienen el split determinista/no-determinista más explícito que existe públicamente en este espacio. Su modelo es un three-tier framework:

  1. Determinism-critical — formatos estatutarios, cálculo fiscal a nivel de transacción. Reglas duras, no toca IA.
  2. Hybrid — monitoreo regulatorio, excepciones de reglas. Combinación de reglas y AI.
  3. AI-advantaged — detección de anomalías, fraude, análisis de patrones. Aquí la IA aporta cosas que las reglas no pueden.

Y un concepto operativo precioso: shadow mode deployment — el AI corre en paralelo a los procesos viejos y se compara antes de promover.

"Transaction-level tax determination demands deterministic precision; anomaly detection across those same millions of invoices is something only AI can do effectively."

Es la validación más nítida del modelo det/no-det que proponemos en el § 3, con un caso productivo a 500M de transacciones/año. La diferencia clave: Fonoa tiene tiers estáticos, no hay un mecanismo de movimiento entre tiers a medida que el sistema aprende. En FT, la calcificación gradual hace que un caso pueda viajar del tier 3 al tier 1 con el tiempo.

Cognition

— Devin, software engineering agent

El caso más limpio del "golden dataset como activo central". Cognition construye su negocio entero alrededor de cognition-golden: "realistic evaluations for economically valuable tasks, sometimes on codebases with millions of lines of code."

Estructura: train split + test split"the train split is used as an autonomous learning environment for self-improvement and the test split for quantitative capabilities evaluation."Simulated users con los que Devin conversa para simular interacción real. Evaluator agents que tienen acceso a las mismas herramientas que Devin (browsing, shell, code editing) para juzgar outcomes autónomamente. Métricas de los evaluadores: "precision and recall on ground truth sets", con revisión humana continua.

Es el contraargumento público al HALP de Maisa: cuando alguien diga "no necesitas datasets etiquetados", la respuesta es Cognition — la empresa de agentic coding más seria del mercado se monta sobre exactamente eso. Limitación: monodominio (software eng), no hablan de descomposición en sub-agentes componibles ni de capas det/no-det internas.

Dónde está la cuña

El framework de FT no inventa la rueda en ninguna pieza aislada. Cada una existe ya en alguien. Lo que propone es una intersección que ninguno de los cuatro tiene completa:

  • a)Calcificación gradual explícita. Fonoa tiene el three-tier framework pero los tiers son estáticos. Maisa lo rechaza por filosofía (HALP).
  • b)Golden dataset como activo central. Cognition lo valida industrialmente en su dominio. Maisa lo niega.
  • c)Meta-loop arquitectural fractal. Sierra tiene Ghostwriter + Explorer (creación human-triggered + optimización autónoma) en CX, pero no el detector autónomo de huecos arquitecturales que proponga descomposición, fusión o creación de FTs nuevas. Y se excluye explícitamente del dominio backoffice.

Cada jugador tiene una de las tres patas. El framework propone las tres juntas como sistema único — el sistema de gestión del activo golden dataset que se calcifica con el tiempo dentro de una arquitectura de FTs que se reorganizan solas.

§ 9

Lo que queda por resolver

El framework está deliberadamente incompleto. Hay tres piezas que sé que requieren más cocción antes de soltarlas en producción a gran escala:

  1. i.

    Procesos stateful.

    La inmensa mayoría de procesos reales son stateful. Tienes una base de datos que cambia, un sistema externo que evoluciona, una conversación que avanza. La idea del snapshot como input (§ 2) resuelve la reproducibilidad, pero no resuelve cómo gestionas el estado en producción: cuándo se hace el snapshot, qué granularidad tiene, cómo se reconcilia si entre snapshot y ejecución el estado real cambió, cómo se versiona. Esta es la pieza menos resuelta.

  2. ii.

    El meta-loop, en concreto.

    FTs que crean FTs es conceptualmente impecable, pero en la práctica es difícil — Google lo intentó con resultados modestos. ¿Cómo evita el sistema generar FTs redundantes? ¿Cómo mide si una nueva FT propuesta mejora el sistema agregado antes de aprobarla? La parte fractal vive en frontera de investigación, no de producto.

  3. iii.

    El auto-evaluador y el overfitting.

    El auto-optimizador de la fase 2 va generando código y reglas para destilar la capa determinista. Hay un riesgo real de overfitting al golden dataset: código que pasa los evals que existen y se rompe en cuanto aparece un caso ligeramente distinto. Hace falta una disciplina explícita de validación cruzada, generación adversarial de casos límite, y posiblemente un meta-evaluador que vigile que el código generado no esté memorizando el dataset en vez de generalizar.

Lo que sí está claro: si esto funciona, el código deja de ser el artefacto principal del negocio. Lo es la arquitectura de FTs, el golden dataset y la memoria del sistema que mantienen ambos vivos. El código aparece como subproducto de la calcificación, en sitios concretos donde merece la pena que aparezca.