El Viaje de una Pregunta en un LLM: De tu prompt al token final

Escribes una pregunta en ChatGPT:

“Explícame por qué el cielo es azul”

Y, unos segundos después, aparece una respuesta clara, fluida y aparentemente instantánea.

Pero entre tu mensaje y ese texto final pasan muchas cosas. No hay una “mente” pensando como humano: hay una pipeline de procesamiento, contexto, cálculo probabilístico y generación token a token.

Este es el viaje completo de una pregunta en un sistema tipo ChatGPT.

Escena 1: La interfaz captura tu mensaje

Todo empieza en el cliente: navegador, app móvil o integración vía API.

El sistema normalmente envía algo más que tu última frase:

Tu mensaje actual
Parte del historial de conversación
Instrucciones del sistema
Metadatos de sesión
A veces herramientas disponibles o documentos recuperados

Es decir: el modelo casi nunca recibe “solo una pregunta”. Recibe un paquete de contexto.

Modelo mental:

[System prompt]
[Historial resumido o reciente]
[Mensaje del usuario]
[Contexto adicional]

Escena 2: Orquestación antes del modelo

Antes de llegar al LLM, suele haber una capa de backend que prepara la request.

Allí pueden ocurrir tareas como:

Autenticación del usuario
Validación de límites de uso
Moderación básica del input
Recuperación de memoria conversacional
Búsqueda de contexto externo (RAG)
Selección del modelo a usar

En productos reales, esta capa importa tanto como el modelo. Muchas veces la calidad percibida depende más de la orquestación que del LLM en sí.

Escena 3: Tokenización, el texto deja de ser texto

El modelo no trabaja directamente con palabras humanas. Primero convierte el texto en tokens.

Un token puede ser:

una palabra completa
parte de una palabra
un signo de puntuación
un espacio o fragmento frecuente

Por ejemplo, una frase como:

El cielo es azul

puede dividirse en unidades internas que el modelo sí sabe procesar.

Esto importa porque:

el costo suele medirse por tokens
la ventana de contexto se mide en tokens
la generación también ocurre token por token

No hay magia aquí: primero se transforma lenguaje en piezas numéricas manejables.

Escena 4: Embeddings internos y representación numérica

Una vez tokenizado, cada token se transforma en un vector numérico interno.

Ese paso permite que el modelo opere matemáticamente sobre el texto. Ya no está viendo "azul" como una palabra, sino como una representación en un espacio de alta dimensión.

Aquí conviene separar dos ideas:

Embeddings de retrieval: se usan en búsqueda semántica o RAG
Embeddings internos del modelo: se usan para procesar el prompt durante la inferencia

Ambos convierten texto en números, pero no cumplen exactamente el mismo rol.

Escena 5: El Transformer procesa todo el contexto

Aquí entra el corazón del sistema: la arquitectura Transformer.

El modelo toma todos los tokens del contexto y calcula relaciones entre ellos mediante mecanismos de atención.

La idea simplificada es esta:

cuando aparece “azul”, el modelo puede relacionarlo con “cielo”
cuando aparece “por qué”, reconoce una intención explicativa
cuando ve historial previo, ajusta tono, continuidad y contexto

No “entiende” como una persona. Calcula qué partes del contexto son más relevantes para predecir lo siguiente.

Una intuición útil:

Prompt completo
   ↓
Tokens
   ↓
Capas del transformer
   ↓
Distribución de probabilidad del siguiente token

Escena 6: El modelo no genera una respuesta, genera el siguiente token

Este es el punto más importante para entender un LLM.

El modelo no escribe una respuesta entera de una vez. Hace algo mucho más mecánico:

mira el contexto completo
predice cuál es el siguiente token más probable
agrega ese token al contexto
repite el proceso

Así, una respuesta larga nace como una cadena de pequeñas decisiones sucesivas.

Ejemplo simplificado:

Pregunta: "¿Por qué el cielo es azul?"

El modelo podría generar:
"Porque" → "la" → "atmósfera" → "dispersa" → "más" ...

Cada paso depende de todos los anteriores.

Escena 7: Decodificación y control de estilo

La elección del siguiente token no siempre es “el más probable y listo”.

Existen parámetros y reglas que afectan el comportamiento:

temperature: más alta, más variación; más baja, más estabilidad
top-k / top-p: limitan el espacio de opciones
instrucciones de sistema
formato exigido, por ejemplo JSON

Por eso el mismo prompt puede producir respuestas distintas según configuración.

Un modelo de soporte técnico probablemente use menor temperatura. Uno creativo para brainstorming tolera más variación.

Escena 8: Herramientas, memoria y RAG si la arquitectura lo requiere

En algunos productos, el modelo no responde solo con su conocimiento entrenado.

Puede apoyarse en componentes externos:

Memoria conversacional: resumen o historial previo
RAG: búsqueda de documentos relevantes
Tools: calculadoras, navegadores, bases de datos, APIs
Function calling: salida estructurada para que otro sistema ejecute acciones

En ese caso, el flujo se parece más a esto:

Usuario pregunta
   ↓
Orquestador prepara contexto
   ↓
LLM decide o recibe contexto externo
   ↓
Se consulta herramienta o documentos
   ↓
Se arma un nuevo prompt enriquecido
   ↓
LLM genera respuesta final

Esto explica por qué dos asistentes que usan “el mismo modelo” pueden comportarse de forma muy distinta: el producto no es solo el LLM, es toda la arquitectura alrededor.

Escena 9: Guardrails, moderación y validaciones

Antes, durante o después de la generación, muchos sistemas aplican controles adicionales:

detección de contenido riesgoso
filtrado de datos sensibles
validación de formato
límites de longitud
reglas de seguridad del producto

Si pides salida estructurada, también puede haber validación posterior:

“esto no es JSON válido”
“faltan campos requeridos”
“la herramienta devolvió error”

Es decir, la respuesta final que ves puede ser el resultado de:

generación del LLM
postprocesamiento
validación
posible reintento

Escena 10: Streaming, la respuesta aparece en pantalla

Muchos sistemas no esperan a tener todo el texto terminado. Hacen streaming.

Eso significa que envían fragmentos a medida que el modelo genera tokens.

Por eso ves el texto aparecer poco a poco:

"Porque..."
"Porque la atmósfera..."
"Porque la atmósfera dispersa..."

El streaming mejora la percepción de velocidad, incluso cuando el tiempo total de generación no cambia demasiado.

Escena 11: La respuesta se guarda como contexto futuro

Cuando termina la respuesta, el sistema normalmente guarda parte del intercambio:

mensaje del usuario
respuesta del asistente
identificadores de sesión
herramientas invocadas
a veces resúmenes de memoria

Eso permite continuidad conversacional.

Pero también introduce límites:

el contexto no es infinito
conversaciones largas deben resumirse o truncarse
si el resumen es malo, la calidad futura cae

Un chatbot útil no depende solo de “recordar”. Depende de recordar bien lo relevante.

El diagrama completo

Usuario escribe pregunta
        ↓
Interfaz envía mensaje al backend
        ↓
Orquestación:
- historial
- system prompt
- moderación
- RAG / tools
        ↓
Tokenización
        ↓
Representación numérica
        ↓
Transformer procesa contexto
        ↓
Predicción del siguiente token
        ↓
Generación token a token
        ↓
Validaciones / guardrails
        ↓
Streaming al cliente
        ↓
Respuesta visible + guardado de contexto

Qué parte suele consumir más tiempo

En una arquitectura real, la latencia total puede venir de varios lugares:

Etapa	Qué puede demorar
Orquestación	cargar historial, auth, rate limiting
RAG	embeddings, búsqueda vectorial, re-rank
Inferencia	ejecución del modelo
Tools	llamadas a APIs o bases externas
Postproceso	validación de formato o reintentos

No toda la demora es “el modelo pensando”. Muchas veces el cuello de botella está alrededor del modelo.

Errores comunes al imaginar cómo funciona

Pensar que el modelo “busca en internet” cada vez que responde.
Pensar que entiende palabras como un humano, cuando opera sobre tokens y vectores.
Creer que redacta una respuesta completa de una sola vez.
Asumir que toda respuesta sale solo del entrenamiento, ignorando memoria, RAG o tools.
Confundir fluidez con veracidad.

La respuesta puede sonar convincente y aun así ser incorrecta.

Resumen del viaje

Cuando preguntas algo en ChatGPT o en un sistema similar, normalmente ocurre esto:

La interfaz captura tu mensaje y arma contexto.
Un backend orquesta historial, reglas y posibles fuentes externas.
El texto se tokeniza.
El modelo transforma esos tokens en representaciones numéricas.
El transformer calcula relaciones dentro del contexto.
El sistema genera la salida token a token.
Se aplican controles, formato y posibles herramientas.
La respuesta se transmite en streaming y se guarda para el siguiente turno.

Lo que parece una conversación natural es, en realidad, una cadena de decisiones estadísticas cuidadosamente envueltas en producto, UX y arquitectura.

Y ahí está la clave: un buen asistente no es solo un buen modelo. Es un buen sistema completo alrededor del modelo.