intelia-sota-research
Eficiencia en LLMs: por qué la atención cuadrática es el techo, y qué viene después
La atención de los Transformers crece al cuadrado: doblar el contexto cuadruplica el coste. La industria ataca este techo desde cinco frentes; los precios de inferencia van a bajar 5-50x en 18-24 meses.