DeepSeek, el hallazgo chino que amenaza el dominio norteamericano en IA

publicado
DURACIÓN LECTURA: 9min.
DeepSeek, el hallazgo chino que amenaza el dominio norteamericano en IA
CC Thiện Ân

Las grandes empresas tecnológicas norteamericanas han sentido que una modesta competidora china las adelantaba por la derecha con un sistema de inteligencia artificial (IA) bueno y barato. La aparición de DeepSeek parece inaugurar una revolución en el mercado de la IA. Aunque, como a veces sucede con lo que viene de China, no todo está claro.

Marc Andreessen, un pionero en navegadores para la web, ha llamado a lo sucedido la semana pasada un “momento Sputnik”, en recuerdo de la conmoción que sufrieron los Estados Unidos en 1957, cuando la Unión Soviética se les anticipó poniendo en órbita el primer satélite artificial.

El lanzamiento de la aplicación gratuita de DeepSeek, que en sus primeros quince días registró más de tres millones de descargas, provocó un desplome de las tecnológicas en la Bolsa de Nueva York. La más perjudicada fue Nvidia, fabricante de los procesadores más refinados que se usan en IA: el año pasado se convirtió en la segunda empresa con mayor capitalización bursátil, después de Apple, y el 27 de enero perdió el 17% de su valor, la mayor caída en un día que ha registrado Wall Street.

Ahorro de recursos

Hasta entonces se creía que, para desarrollar y usar la IA hacían falta los chips más sofisticados, inversiones colosales en centros de datos y electricidad a chorros. De hecho, poco antes de la sacudida en Bolsa, se anunciaron grandes inversiones en IA: 500.000 millones de dólares por parte del consorcio Stargate (OpenAI –la creadora de ChatGPT–, SoftBank, Oracle y el fondo MGX), presentado en la Casa Blanca, con apoyo del presidente Donald Trump; 60.000 millones de Meta; 80.000 millones de Microsoft.

Ya en 2022, para que China no se alzara con la corona, la Administración Biden prohibió exportar a aquel país los chips más avanzados.

Y ahora resulta que una empresa china ha logrado un modelo de IA, comparable a la estrella del ramo, el GPT de Open AI, con procesadores “de segunda”, en mucho menos tiempo y con mucho menos dinero. Según dice DeepSeek, usó 2.048 chips H800, los de capacidad limitada que Nvidia preparó para cumplir con las restricciones norteamericanas a la exportación. Los tuvo funcionando un total acumulado de 2,8 millones de horas. Y al coste de 5,6 millones de dólares.

En comparación, Open AI usó unos 25.000 chips en el desarrollo de GPT-4 en 2023. Meta, para entrenar a su IA Llama 3.1 necesitó 39,3 millones de horas de chips, catorce veces más que DeepSeek. Según Dario Amodei, director general de Anthropic AI, desarrollar un modelo cuesta no menos de 100 millones de dólares.

La carrera por la IA que “razona”

Pero antes, China llevaba retraso. OpenAI, la reina del sector, fue la primera en presentar, en septiembre de 2024, el primer modelo de IA “razonante”, GPT-o1. Los grandes modelos lingüísticos (LLM) –los anteriores GPT y demás– aprenden (se entrenan, como suele decirse) leyendo ingentes cantidades de datos, en los que descubren patrones que se repiten. Cuando se les hace una pregunta, buscan la respuesta que, según sus algoritmos, es la más probable.

La IA razonante no responde por probabilidad, sino que procede por pasos para resolver problemas. Ofrece mejor rendimiento no tanto por el entrenamiento, sino por la inferencia, que es el proceso de extraer respuestas de los datos y parámetros obtenidos en el entrenamiento.

China entra en escena

Tras el lanzamiento de GPT-o1 comenzó una carrera para entrar en el nuevo mercado de la IA razonante, y esta vez las empresas chinas ganaron terreno rápidamente. De hecho, la primera que logró emular a OpenAI fue el gigante chino de comercio electrónico Alibaba, con la nueva versión de su chatbot, QwQ, en diciembre pasado.

Ese mismo mes entró en escena DeepSeek, fundada por un fondo, High-Flyers, con sede en Hangzhou, que utiliza IA para escoger las inversiones más rentables en cada momento. El día 26 publicó su modelo V3 (un LLM), bueno y barato: con 671.000 millones de parámetros (los valores con que se afinan los algoritmos), es el más grande de código abierto; el otro modelo de código abierto y muy voluminoso, Llama 3.1 de Meta, lanzado cinco meses antes, tiene 405.000 millones de parámetros.

DeepSeek ha logrado un gran aumento de eficiencia mediante procedimientos que nunca se habían aplicado en un mismo modelo

En enero siguiente, DeepSeek presentó su modelo razonante, R1, y lo incorporó como opción de prueba gratuita a su flamante chatbot, el que arrasó en las tiendas de aplicaciones.

A juicio de los expertos que han publicado reseñas, DeepSeek es mejor que ChatGPT en algunas tareas: responder a preguntas de cultura general, escribir mensajes, resolver problemas matemáticos de nivel universitario… Pero la reina no ha sido destronada aún: en conjunto, ChatGPT es superior.

La inventiva de DeepSeek

¿Cómo ha logrado DeepSeek un progreso tan rápido con menos recursos y gasto? Ha aplicado unos “trucos”, no todos de su propia invención, pero que nunca antes se habían usado a la vez, y con éxito, en un mismo modelo.

Uno es la llamada “cuantificación”. Cuando se ponderan los parámetros obtenidos de la lectura masiva de información, se puede elegir el grado de precisión con que se guardan: mayor precisión implica mayor tamaño de la base de datos. DeepSeek almacenó las ponderaciones en bytes de 16 o 32 bits, pero después bajó la resolución a 8 bits para entrenar el modelo. Así consiguió, a costa de una ligera pérdida de precisión, un gran ahorro de tiempo y una mejora mayor aun de eficiencia en el entrenamiento.

Otro procedimiento es el llamado “Mixture of Experts” (MoE), que se usa en la última versión del GPT razonante. Normalmente, los modelos se entrenan leyendo todos los datos, lo que exige mucho poder de computación y mucha electricidad. Con MoE, el modelo se entrena leyendo en cada fase un subconjunto de datos relativos a una materia. Cuando se le hace una consulta, acude al “experto” correspondiente. Así, DeepSeek es un modelo grande que, al responder, funciona con la agilidad de uno pequeño.

Finalmente, DeepSeek aporta una importante innovación en el proceso de entrenamiento. Lo normal es que el aprendizaje empiece con datos preparados por personas, que han definido la solución que el modelo debe aprender, y luego se haga con datos de toda clase, y el modelo aprende las soluciones a base ensayo y error.

DeepSeek buscó un atajo. Primero entrenó el modelo con una base pequeña de datos preparados, a fin de que aprendiera lo imprescindible para empezar a funcionar. Y enseguida pasó al aprendizaje por ensayo y error, sin necesidad de cargar en su memoria tantos datos como en el procedimiento tradicional. Total: DeepSeek ha gastado menos en la preparación de datos, así como en procesadores y energía en el aprendizaje, y el resultado es sorprendentemente bueno

Dudas

Por ser sorprendente, ha suscitado dudas. En su informe para los inversores tras la caída de la Bolsa, Goldman Sachs señala algunas incógnitas en la explicación publicada por DeepSeek.

Primera, ¿qué chips se usaron para desarrollar R1, el modelo razonante? DeepSeek no lo ha dicho, a diferencia del otro modelo, V3. Pero incluso con respecto a este, no todos los especialistas creen a la empresa china. Pudo haber hecho acopio de procesadores H100 –los mejores, que Nvidia tiene prohibido vender en China– antes de las restricciones a la exportación. O pudo haber alquilado el uso de procesadores situados en terceros países.

DeepSeek está sometida a las normas de control de la comunicación vigentes en China, lo que hace temer por la privacidad de los usuarios

Más incógnitas: ¿empleó modelos ya existentes?, y ¿con qué datos? La rapidez del desarrollo mueve a algunos a sospechar que no partieron de cero. Podrían haber sido modelos de código abierto y bases de datos libres. Pero Sam Altman, de Open AI, cree que DeepSeek se sirvió de respuestas de ChatGPT para entrenar sus modelos, lo que supondría haber infringido las condiciones de uso de ChatGPT.

Todos esos puntos oscuros conducen a dudas respecto al coste. Si DeepSeek no usó solo procesadores H800, V3 no pudo salir tan barato. Y si tuvo se apoyó en otros modelos con mucho mayores gastos de infraestructura –anota Goldman Sachs–, los 5,6 millones no reflejan el coste total.

¿Nuestros datos en malas manos?

Es verdad que DeepSeek no ha dicho todo, pero las objeciones no dejan de ser conjeturas, y quizá delaten una suspicacia excesiva. Más base tienen otras críticas, relativas a la privacidad.

DeepSeek sabe muchísimo, pero no le preguntes por Tiananmén. De la represión de manifestantes el 4 de junio de 1989 no debía de haber nada en las bases de datos que leyó. El tema, responde, “no entra en mis competencias”, y propone un cambio de conversación: “¡Hablemos de matemáticas, informática, o problemas de lógica!” En general, advierte que no trata asuntos delicados para China.

Esto indica que DeepSeek está sometida a las normas de control de la comunicación vigentes en China, lo que hace temer por la privacidad de los usuarios. Para utilizar su chatbot, pide un nombre de usuario, una dirección de correo electrónico y a veces, la fecha de nacimiento. Guarda datos sobre los usuarios, como el historial de consultas y –según el Prof. Harin Sellahewa (Universidad de Buckingham)– patrones de tecleado (lo que puede equivaler a datos biométricos). En su política de privacidad, advierte que los datos de usuarios podrán ser analizados y utilizados por la empresa, transferidos a servidores ubicados en su país y entregados a las autoridades si los reclaman.

DepSeek introduce la competencia en los precios y facilita que se extienda aún más el uso de la IA

En realidad, en eso DeepSeek es prácticamente igual a las plataformas occidentales. Lo malo, anota Sellahewa, es dónde guarda los datos, y las obligaciones legales que tiene con el Gobierno chino, como las tienen las empresas que facilitan a DeepSeek infraestructuras de comunicaciones y de almacenamiento. No es de temer un espionaje masivo de China a ciudadanos; pero las empresas e instituciones que quieran recurrir a DeepSeek necesitarán garantías adicionales sobre la protección de sus datos.

Competencia en precios

Aun con esos reparos y dudas, el balance es que DeepSeek supone un gran avance en la eficiencia de la IA, aunque no tanto en perfección. Tal vez no llegará a ser el modelo que sirva para sistemas sofisticados, como los coches autónomos; pero es buena, y será cada vez mejor, para la mayoría de los usos.

Goldman Sachs destaca que DeepSeek ha introducido competencia en los precios justo cuando se está extendiendo la aplicación de la IA a fines empresariales. En efecto, las tarifas de DeepSeek para empresas son entre diez y cuarenta veces más bajas que las de OpenAI, lo que se justifica por el menor uso de recursos que exige su modelo.

Desde ese punto de vista, el “Sputnik chino” puede haber hecho un gran servicio, al resquebrajar el dominio de los gigantes tecnológicos norteamericanos. Sus modelos de código abierto podrían ser adoptados y adaptados por otros, de manera que surgirían más competidores. Si así ocurre, no cabe esperar, sin embargo, que la IA “sobria” de DeepSeek reduzca la descomunal cantidad de energía que demandan los centros de datos: la paradoja de Jevons avisa que la ganancia en eficiencia acabará multiplicando el uso total de chips y de electricidad.

Contenido exclusivo para suscriptores de Aceprensa

Estás intentando acceder a una funcionalidad premium.

Si ya eres suscriptor conéctate a tu cuenta. Si aún no lo eres, disfruta de esta y otras ventajas suscribiéndote a Aceprensa.

Funcionalidad exclusiva para suscriptores de Aceprensa

Estás intentando acceder a una funcionalidad premium.

Si ya eres suscriptor conéctate a tu cuenta para poder comentar. Si aún no lo eres, disfruta de esta y otras ventajas suscribiéndote a Aceprensa.