Publicidad

Este texto de Alberto Muñoz, escrito el 28 de enero de 2025, analiza el modelo de inteligencia artificial DeepSeek R1, desmintiendo mitos y aclarando su impacto real. Se destaca la importancia de la transparencia y la colaboración en el desarrollo de la IA.

El costo real de entrenar DeepSeek R1 fue mucho mayor a los 6 millones de dólares inicialmente rumoreados, involucrando 50.000 GPUs de alta gama.

Resumen:

  • El modelo de IA DeepSeek R1, respaldado por High-Flyer, un fondo de cobertura chino con activos superiores a 7 mil millones de dólares, se ha convertido en un referente tecnológico.
  • El costo de entrenamiento del modelo base fue significativamente superior a los 6 millones de dólares reportados inicialmente, requiriendo aproximadamente 50.000 GPUs NVIDIA H100 y una gran inversión en infraestructura y personal.
  • Publicidad

  • DeepSeek R1 utiliza una arquitectura innovadora basada en Mixture of Experts (MoE) con 671 mil millones de parámetros, lo que lo hace eficiente y especializado.
  • A diferencia de versiones más pequeñas como Qwen o Llama, DeepSeek R1 posee una capacidad y sofisticación superiores.
  • La versión alojada en chat.deepseek.com utiliza datos de usuario para entrenar nuevos modelos, según sus términos de servicio.
  • La contribución de DeepSeek R1 al código abierto y la comunidad científica ha sido significativa. Hugging Face está trabajando en una reproducción abierta de su entrenamiento.
  • Se especula sobre una posible relación entre DeepSeek R1 y la caída de las acciones de NVIDIA entre el 25 y 26 de enero de 2025, debido a la percepción de una menor dependencia del hardware de NVIDIA.
  • La reacción en redes sociales a las acusaciones de robo de datos ("cookies") ha sido mayoritariamente de ironía y escepticismo, considerando que esta práctica es común en la industria tecnológica.

Conclusión:

  • DeepSeek R1 representa un hito en la IA, demostrando el potencial de la colaboración y la innovación.
  • Su compromiso con el código abierto promueve la democratización del acceso a tecnologías avanzadas.
  • La polémica en torno a la recopilación de datos destaca la necesidad de un debate más informado y menos sensacionalista sobre la privacidad en el mundo digital.
  • El modelo es un ejemplo de lo que se puede lograr con recursos, talento y una visión clara, desafiando los límites tecnológicos actuales.
  • La innovación en DeepSeek R1 podría reducir el consumo de energía en el futuro.
Sección: Tecnología

 Este análisis con resumen se realiza con IA (🤖) y puede tener imprecisiones. leer el texto original 📑

Publicidad

La toma de control del C4 por la Guardia Nacional en Acapulco revela la profunda desconfianza en la policía municipal y la gravedad de la infiltración del crimen organizado.

Un dato importante es la posible implicación de Banco Mifel en un nuevo paquete de acusaciones por parte del Departamento del Tesoro de Estados Unidos.

Un dato importante es la posible implicación de Gonzalo López Beltrán, hijo de AMLO, en el negocio de Value tras la muerte de Carlos Bremer.