Créditos de la imagen: Flow Computing
Una startup finlandesa llamada Flow Computing está haciendo una de las afirmaciones más descabelladas jamás escuchadas en la ingeniería de silicio: al agregar su chip complementario patentado, cualquier CPU puede duplicar instantáneamente su rendimiento, aumentando hasta 100 veces con ajustes de software.
Si funciona, podría ayudar a la industria a mantenerse al día con la insaciable demanda de computación de los fabricantes de IA.
Flow es una spin-out de VTT, una organización de investigación respaldada por el estado de Finlandia que es un poco como un laboratorio nacional. La tecnología de chips que está comercializando, a la que ha denominado Unidad de Procesamiento Paralelo, es el resultado de la investigación realizada en ese laboratorio (aunque VTT es un inversor, la propiedad intelectual es propiedad de Flow).
La afirmación, Flow es el primero en admitir, es ridícula a primera vista. No se puede exprimir mágicamente el rendimiento adicional de las CPU en todas las arquitecturas y bases de código. Si es así, Intel o AMD o quien sea lo habría hecho hace años.
Pero Flow ha estado trabajando en algo que ha sido teóricamente posible, solo que nadie ha sido capaz de llevarlo a cabo.
Las unidades centrales de procesamiento han recorrido un largo camino desde los primeros días de los tubos de vacío y las tarjetas perforadas, pero en algunos aspectos fundamentales siguen siendo las mismas. Su principal limitación es que, como procesadores en serie en lugar de en paralelo, solo pueden hacer una cosa a la vez. Por supuesto, cambian esa cosa mil millones de veces por segundo a través de múltiples núcleos y rutas, pero todas estas son formas de acomodar la naturaleza de un solo carril de la CPU. (Una GPU, por el contrario, realiza muchos cálculos relacionados a la vez, pero está especializada en ciertas operaciones).
"La CPU es el eslabón más débil de la computación", dijo el cofundador y CEO de Flow, Timo Valtonen. "No está a la altura de su tarea, y esto tendrá que cambiar".
Las CPU se han vuelto muy rápidas, pero incluso con una capacidad de respuesta de nivel de nanosegundos, hay una enorme cantidad de desperdicio en la forma en que se llevan a cabo las instrucciones simplemente debido a la limitación básica de que una tarea debe terminar antes de que comience la siguiente. (Estoy simplificando aquí, no soy un ingeniero de chips).
Lo que Flow afirma haber hecho es eliminar esta limitación, convirtiendo la CPU de una calle de un solo carril en una autopista de varios carriles. La CPU todavía está limitada a hacer una tarea a la vez, pero la PPU de Flow, como la llaman, esencialmente realiza una gestión de tráfico a escala de nanosegundos en la matriz para mover las tareas dentro y fuera del procesador más rápido de lo que era posible anteriormente.
Piense en la CPU como un chef que trabaja en una cocina. El chef solo puede trabajar hasta cierto punto, pero ¿qué pasaría si esa persona tuviera un asistente sobrehumano que intercambiara cuchillos y herramientas dentro y fuera de las manos del chef, limpiando la comida preparada y colocando nuevos ingredientes, eliminando todas las tareas que no son cosas reales del chef? El chef todavía solo tiene dos manos, pero ahora el chef puede trabajar 10 veces más rápido.
Gráfico (en el registro, nota) que muestra las mejoras en un chip mejorado con PPU de FPGA en comparación con los chips Intel no modificados. Aumentar el número de núcleos PPU mejora continuamente el rendimiento. Créditos de la imagen: Flow Computing
No es una analogía perfecta, pero te da una idea de lo que está sucediendo aquí, al menos de acuerdo con las pruebas y demostraciones internas de Flow con la industria (y están hablando con todos). La PPU no aumenta la frecuencia del reloj ni empuja el sistema de otras maneras que conduzcan a calor o energía adicionales; En otras palabras, no se le pide al chef que corte el doble de rápido. Simplemente utiliza de manera más eficiente los ciclos de CPU que ya se están llevando a cabo.
Este tipo de cosas no son nuevas, dice Valtonen. "Esto ha sido estudiado y discutido en la academia de alto nivel. Ya se puede hacer paralelización, pero rompe el código heredado y luego es inútil".
Así que se podría hacer. Simplemente no se podría hacer sin reescribir todo el código del mundo desde cero, lo que lo convierte en un fracaso. Un problema similar fue resuelto por otra empresa de computación nórdica, ZeroPoint, que logró altos niveles de compresión de memoria mientras mantenía la transparencia de los datos con el resto del sistema.
El gran logro de Flow, en otras palabras, no es la gestión del tráfico de alta velocidad, sino hacerlo sin tener que modificar ningún código en ninguna CPU o arquitectura que haya probado. Suena un poco desquiciado decir que el código arbitrario se puede ejecutar dos veces más rápido en cualquier chip sin ninguna modificación más allá de la integración de la PPU con la matriz.
Ahí radica el principal desafío para el éxito de Flow como negocio: a diferencia de un producto de software, la tecnología de Flow debe incluirse a nivel de diseño de chips, lo que significa que no funciona retroactivamente, y el primer chip con PPU necesariamente estaría bastante lejos. Flow ha demostrado que la tecnología funciona en configuraciones de prueba basadas en FPGA, pero los fabricantes de chips tendrían que comprometer bastantes recursos para ver las ganancias en cuestión.
El equipo fundador de Flow, de izquierda a derecha: Jussi Roivainen, Martti Forsell y Timo Valtonen.Créditos de imagen: Flow Computing
Sin embargo, la escala de esas ganancias, y el hecho de que las mejoras de la CPU han sido iterativas y fraccionadas en los últimos años, pueden hacer que los fabricantes de chips llamen a la puerta de Flow con bastante urgencia. Si realmente puede duplicar su rendimiento en una generación con un cambio de diseño, eso es una obviedad.
Otras mejoras de rendimiento provienen de la refactorización y la recompilación de software para que funcione mejor con la combinación PPU-CPU. Flow dice que ha visto aumentos de hasta 100 veces con código que ha sido modificado (aunque no necesariamente completamente reescrito) para aprovechar su tecnología. La compañía está trabajando en ofrecer herramientas de recompilación para simplificar esta tarea a los fabricantes de software que desean optimizar los chips habilitados para Flow.
El analista Kevin Krewell deInvestigación de Tirias, a quien se le informó sobre la tecnología de Flow y se refirió a él como una perspectiva externa sobre estos asuntos, estaba más preocupado por la aceptación de la industria que por los fundamentos.
Señaló, con razón, que la aceleración de la IA es el mercado más grande en este momento, algo a lo que se puede apuntar con silicio especial como el popular H100 de Nvidia. Aunque una CPU acelerada por PPU conduciría a ganancias en todos los ámbitos, es posible que los fabricantes de chips no quieran agitar demasiado el barco. Y simplemente está la cuestión de si esas empresas están dispuestas a invertir recursos significativos en una tecnología en gran medida no probada cuando es probable que tengan un plan de cinco años que se vería alterado por esa elección.
¿Se convertirá la tecnología de Flow en un componente imprescindible para todos los fabricantes de chips, catapultándolo a la fortuna y la prominencia? ¿O los fabricantes de chips que ahorran dinero decidirán mantener el rumbo y seguir extrayendo rentas del mercado informático en constante crecimiento? Probablemente en algún punto intermedio, pero es revelador que, incluso si Flow ha logrado una gran hazaña de ingeniería aquí, como todas las startups, el futuro de la empresa depende de sus clientes.
Flow acaba de salir del sigilo, con 4 millones de euros (unos 4,3 millones de dólares) en financiación pre-semilla liderada por Butterfly Ventures, con la participación de FOV Ventures, Sarsia, Stephen Industries, Superhero Capital y Business Finland.