Como configurar un LLM para obtener mejores respuestas de código

(Según chatgpt)

Para configurar un modelo de lenguaje grande (LLM) para generar código de la manera más eficiente y con la menor cantidad de errores posible, es crucial ajustar los parámetros de acuerdo con las características del tipo de tarea que deseas realizar, en este caso, generación de código. Aquí te doy una guía detallada basada en la transcripción proporcionada y mi conocimiento en el uso de LLMs:

1. Temperatura (`temperature`)

La temperatura controla la aleatoriedad de las respuestas generadas. Para tareas de generación de código, se recomienda usar una temperatura baja (cerca de 0.2 a 0.3). Esto hará que el modelo sea más conservador, favoreciendo las respuestas más predecibles y coherentes, lo que es crucial para evitar errores en código.

2. Tamaño del Contexto (`num_ctx`)

El tamaño del contexto se refiere a cuántos tokens (palabras, símbolos, etc.) el modelo puede recordar y usar para generar una respuesta. Un tamaño de contexto mayor permite que el modelo mantenga más información durante una sesión, lo que es útil para tareas complejas o con mucho código. Para generación de código, especialmente si estás trabajando con un gran bloque de código o documentación, sería ideal configurar num_ctx lo más alto posible dentro de los límites de tu hardware (por ejemplo, 8k o más si es posible).

3. Penalización por Repetición (`repeat_penalty`)

Este parámetro reduce la probabilidad de que el modelo repita palabras o frases. En generación de código, la repetición innecesaria puede introducir bugs o redundancias, por lo que una penalización por repetición moderada (ej. 1.1 a 1.2) podría ser útil.

4. Número de Últimos Tokens a Revisar (`repeat_last_n`)

Este parámetro define la ventana de tokens recientes que el modelo considera para evitar repeticiones. Para código, un valor moderado (ej. 64) puede ayudar a evitar repeticiones sin limitar demasiado la generación.

5. `top_k` y `top_p`

Estos parámetros controlan la diversidad de las respuestas. top_k limita el número de opciones que el modelo considera para el siguiente token, y top_p establece un umbral de probabilidad acumulativa. Para código, donde la precisión es más importante que la creatividad, se recomienda un top_k bajo (por ejemplo, 40) y un top_p relativamente alto (0.9-0.95) para asegurar que se elijan los tokens más probables.

6. Semilla (`seed`)

Si deseas que el modelo genere la misma respuesta ante la misma entrada, especialmente útil durante pruebas o para depuración, debes configurar una semilla fija. Esto hará que el modelo sea determinista, útil cuando se desea consistencia en las respuestas.

7. Número de Tokens a Predecir (`num_predict`)

Este es el número máximo de tokens que el modelo generará. Para código, es útil establecer un límite razonable para evitar que el modelo genere código demasiado extenso o no relevante. Configurar num_predict a un valor como 200-500 tokens podría ser útil, dependiendo de la longitud esperada del código.

8. Sampling Tail-Free (`tfs_z`)

Este parámetro podría no ser necesario para la generación de código, ya que corta las opciones menos probables, lo que podría reducir la precisión. Para tareas de código, te sugeriría mantener este valor alto (cerca de 0.99 o 1).

1. Temperatura (temperature)

2. Tamaño del Contexto (num_ctx)

3. Penalización por Repetición (repeat_penalty)

4. Número de Últimos Tokens a Revisar (repeat_last_n)

5. top_k y top_p

6. Semilla (seed)

7. Número de Tokens a Predecir (num_predict)

8. Sampling Tail-Free (tfs_z)

9. Mirostat (opcional)