Skip to main content
  1. Casa
  2. Computación

DeepSeek coder: qué es y cómo funciona

DeepSeek
DTES

¿Cómo se construye el modelo de lenguaje de DeepSeek?, ¿Necesita cierta capacidad de GPU para desarrollarse? y ¿Cómo le va contra la competencia?.

Bueno, comencemos por una definición del DeepSeek coder: DeepSeek-Coder-V2 es un modelo de lenguaje de código abierto Mixture-of-Experts (MoE) que logra un rendimiento comparable al de GPT4-Turbo en tareas específicas de código.

Recommended Videos

En concreto, DeepSeek-Coder-V2 se entrena previamente desde un punto de control intermedio de DeepSeek-V2 con 6 billones de tokens adicionales. A través de este entrenamiento previo continuo, DeepSeek-Coder-V2 mejora sustancialmente las capacidades de codificación y razonamiento matemático de DeepSeek-V2, al tiempo que mantiene un rendimiento comparable en tareas generales del lenguaje. 

DeepSeek Coder comprende una serie de modelos de lenguaje de código entrenados desde cero con un 87 % de código y un 13 % de lenguaje natural en inglés y chino, con cada modelo pre entrenado en tokens 2T. Proporcionamos varios tamaños del modelo de código, que van desde las versiones 1B hasta 33B.

«Cada modelo se entrena previamente en un corpus de código a nivel de repositorio mediante el empleo de un tamaño de ventana de 16K y una tarea adicional de rellenar los espacios en blanco, lo que da como resultado modelos fundamentales (DeepSeek-Coder-Base). Ajustamos aún más el modelo base con 2 mil millones de tokens de datos de instrucción para obtener modelos ajustados a la instrucción, denominados DeepSeek-Coder-Instruct», dicen en DeepSeek.

  • Entrenado previamente en 2 billones de tokens en más de 80 lenguajes de programación.
  • Varios tamaños de modelo (1.3B5.7B6.7B y 33B) para cumplir con diferentes requisitos.
  • Un tamaño de ventana de 16K, que ite la finalización y el relleno de código a nivel de proyecto.
  • Rendimiento de última generación entre modelos de código abierto.
  • Código abierto y gratuito para investigación y uso comercial.

En su sitio de GitHub, DeepSeek afirma que  «Si desea utilizar DeepSeek-Coder-V2 en formato BF16 para la inferencia, se requieren GPU de 80 GB*8».

Rendimiento de DeepSeek coder

En las evaluaciones de referencia estándar, y según ellos mismos muestran, DeepSeek-Coder-V2 logra un rendimiento superior en comparación con los modelos de código cerrado como GPT4-Turbo, Claude 3 Opus y Gemini 1.5 Pro en las pruebas comparativas de codificación y matemáticas:

Imagen utilizada con permiso del titular de los derechos de autor

«DeepSeek-Coder-V2 demuestra avances significativos en varios aspectos de las tareas relacionadas con el código, así como en el razonamiento y las capacidades generales. Además, DeepSeek-Coder-V2 amplía su compatibilidad con lenguajes de programación de 86 a 338, al tiempo que amplía la longitud del contexto de 16K a 128K», dice la compañía china.

ACÁ EL CÓDIGO EN GITHUB DE DEEPSEEK

ACÁ EL CÓDIGO EN GITHUB DE DEEPSEEK
Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Por qué Elon Musk y SpaceX no llevarán humanos a Marte en 2028
Nave Starship

Esta semana se vio otra prueba dramática de la nave Starship de SpaceX, cuando el poderoso cohete explotó una vez más, y tanto la etapa superior como la inferior se perdieron. La prueba no fue un fracaso total, ya que la etapa superior llegó al espacio por primera vez, pero está claro que todavía hay mucho trabajo por hacer para hacer que el cohete más poderoso del mundo sea algo en lo que se pueda confiar para su uso previsto: llevar tripulación a Marte.

Sin dejarse intimidar por este último revés, el CEO de SpaceX, Elon Musk, anunció en una charla compartida ayer, 29 de mayo, que la compañía enviaría a "millones de personas" a Marte, con el fin de crear una "civilización autosuficiente" allí. El objetivo, dice Musk, es lanzar una nave espacial a Marte para 2026, y si eso sale bien, lanzar una misión tripulada dos años después, a fines de 2028 o principios de 2029.

Leer más
Disney+ Perks: la nueva suscripción con descuentos en experiencias y tiendas y que llegará al resto del mundo
Disney Perks

Estados Unidos se está preparando para un nuevo plan de membresía de Disney+ llamado Perks, que no tan solo dará beneficios en el mundo virtual y del streaming, sino también una serie de recompensas en tiendas, experiencias y varias situaciones más del mundo real y físico.

Un plan que además agrega sorteos, pruebas gratuitas y premios y que OJO, a finales de 2025 llegará a los mercados internacionales, incluido seguramente Hispanoamérica.

Leer más
No tendrás que hacer nada y Gmail te resumirá tus correos
Pantalla de celular con el icono de Gmail – Cómo encontrar correos archivados en tu cuenta de Gmail.

Llegó el momento en que no será necesario leer todo un correo electrónico lleno de lugares comunes para llegar al meollo del asunto: porque Google finalmente anunció que Gmail automáticamente, sin que hagas nada, te resumirá tus correos.

La compañía de Mountain View reveló en su blog Workspace Updates que los resúmenes generados por IA ahora se mostrarán automáticamente en la parte superior de algunos correos electrónicos en Gmail para Android e iOS. Anteriormente, tenías que tocar el botón "resumir este correo electrónico" en la aplicación para generar un resumen.

Leer más