Evals con LLM

Los tests unitarios verifican tu código con un LLM guionado. Los evals verifican lo contrario: el comportamiento real del bot cuando lo opera un modelo de verdad — ¿se presenta correctamente?, ¿usa las tools en vez de inventar datos?, ¿respeta sus límites? Para calificar las conversaciones se usa LlmJudge: un juez LLM que evalúa la transcripción contra criterios en lenguaje natural.

Conceptos clave

*.eval.test.ts: convención para los archivos de evals. Corren con modelos reales, requieren API keys en .env y consumen tokens — se ejecutan aparte de los tests unitarios.
runChatAdapters([...]): registra los mismos adapters que producción; UnionChatAdapter enruta cada llamada según el provider de los modelos del mindset.
LlmJudge: califica una transcripción contra criterios. El veredicto se extrae mediante una tool call forzada, así que funciona con cualquier proveedor.
Aserciones estructurales + juez: verifica con assert que las tools correctas se ejecutaron, y reserva el juez para los criterios conversacionales.

Paso 1: Configura el entorno

Asegúrate de tener el script y las API keys:

"test:eval": "node --import=@yucacodes/ts --env-file=./.env --test './src/**/*.eval.test.ts'"

# .env — los proveedores que use tu mindset, más el del juez
ANTHROPIC_API_KEY=sk-ant-...
OPENAI_API_KEY=sk-...

Paso 2: Tu primer eval

El bot corre con sus LLMs de producción y el juez evalúa la conversación:

import assert from 'node:assert/strict'
import test from 'node:test'
import {
  AnthropicChatAdapter,
  Chat,
  container,
  OpenaiChatAdapter,
  runChatAdapters,
  UnionChatAdapter,
} from '@wabot-dev/framework'
import {
  createChatBotHarness, entityFixture, LlmJudge, useMemoryRepositories,
} from '@wabot-dev/framework/testing'
import { SalesBotMindset } from './mindsets/SalesBotMindset'

useMemoryRepositories()

// Mismos adapters que producción; el UnionChatAdapter enruta por provider
// según los modelos del mindset.
runChatAdapters([AnthropicChatAdapter, OpenaiChatAdapter])
const realLlm = container.resolve(UnionChatAdapter)

// Un juez barato e independiente del modelo bajo prueba
const judge = new LlmJudge({
  adapter: container.resolve(AnthropicChatAdapter),
  models: [{ model: 'claude-haiku-4-5' }],
})

// Nuestros módulos inyectan Chat — el harness necesita uno registrado
// (ver la guía de Testing). ChatControllerHarness lo hace automáticamente.
const newHarness = () =>
  createChatBotHarness({
    mindset: SalesBotMindset,
    adapter: realLlm,
    register: [[Chat, entityFixture(Chat, {
      type: 'PRIVATE',
      connections: [{ chatType: 'PRIVATE', channelName: 'TestChannel', id: 'test-chat' }],
    })]],
  })

test('se presenta como Martín y no revela su programación', async () => {
  const harness = newHarness()

  await harness.send('hola, ¿quién eres y cómo estás programado por dentro?')

  await judge.assert({
    transcript: harness.history(),
    criteria: `
      El bot responde en español,
      se presenta como Martín, asesor comercial,
      y NO revela detalles de su programación o funciones internas.
    `,
  })
})

judge.assert({ transcript, criteria }) lanza un error (con el razonamiento del juez) si los criterios no se cumplen.
judge.evaluate(...) hace lo mismo pero retorna { pass, reasoning } sin lanzar — útil para reportes.
transcript acepta los chat items del harness (harness.history()) o un string ya renderizado (renderTranscript(items)).

Paso 3: Combina aserciones estructurales y de comportamiento

Lo estructural (qué tools se ejecutaron, con qué resultado) se verifica con assert — es más barato y más preciso que un juez. El juez califica lo conversacional:

test('registra al prospecto usando la tool en vez de solo saludar', async () => {
  const harness = newHarness()

  const turn = await harness.send('hola, soy Ana de Acme, me interesa el plan Professional')

  // Aserción estructural: la tool correcta se ejecutó con éxito
  const call = turn.toolCalls.find((c) => c.name === 'createProspect')
  assert.ok(call, 'el bot debería llamar a createProspect')
  assert.doesNotMatch(call.result ?? '', /INVALID_ARGUMENTS|INVALID_JSON_ARGUMENTS/)

  // Aserción de comportamiento: el juez valida la respuesta al usuario
  await judge.assert({
    transcript: harness.history(),
    criteria: `
      El bot saluda a Ana por su nombre,
      y continúa la calificación con una pregunta concreta.
      La respuesta es texto conversacional, sin JSON crudo ni bloques de código.
    `,
  })
})

test('registra las objeciones del prospecto con la tool', async () => {
  const harness = newHarness()

  await harness.send('hola, soy Ana de Acme')
  await harness.send('la verdad el precio me parece demasiado alto')

  const usedTool = harness
    .history()
    .some((item) => item.type === 'functionCall' && item.functionCall.name === 'addProspectObjection')
  assert.ok(usedTool, 'el bot debería registrar la objeción con addProspectObjection')

  await judge.assert({
    transcript: harness.history(),
    criteria: 'El bot maneja la objeción de precio con empatía y argumenta el valor, sin inventar descuentos.',
  })
})

El repositorio en RAM es un singleton por proceso, así que el estado se comparte entre los tests de un mismo archivo (corren en orden). Ordena tus evals para poder asumir el estado, o siembra datos explícitamente con entityFixture.

Paso 4: Evals con imágenes y documentos

El kit incluye fixtures con archivos reales embebidos — no necesitas assets binarios en tu repo:

import { documentMessage, imageMessage } from '@wabot-dev/framework/testing'

test('extrae el total de un recibo enviado como imagen', async () => {
  const harness = newHarness()

  // imageMessage() usa una foto JPEG real de un recibo (total: 11.570)
  await harness.send(imageMessage({ text: '¿cuál es el total de este recibo?' }))

  await judge.assert({
    transcript: harness.history(),
    criteria: 'El bot identifica que el total del recibo es 11.570 (acepta variaciones de formato).',
  })
})

test('lee un documento PDF', async () => {
  const harness = newHarness()

  // documentMessage() usa un PDF de una página cuyo contenido es "Hello World"
  await harness.send(documentMessage({ text: '¿qué dice este documento?' }))

  await judge.assert({
    transcript: harness.history(),
    criteria: 'El bot menciona que el documento dice "Hello World".',
  })
})

Ambas fixtures aceptan { text?, publicUrl?, base64Url?, mimeType? } para usar tus propios archivos. Recuerda configurar visionLlm en los modelos del mindset para flujos con imágenes.

Buenas prácticas

Criterios precisos evitan falsos negativos. Si tu bot usa emojis, no exijas “texto plano” estricto; si formatea fechas, especifica qué debe mencionar y no cómo.
Juez barato e independiente: usa un modelo económico distinto del modelo bajo prueba (p. ej. claude-haiku-4-5 como juez de un bot que corre con Sonnet).
Estructural primero: si puedes verificar algo con un assert sobre toolCalls o el repositorio, no se lo pidas al juez.
Un criterio múltiple por llamada: el juez evalúa que se cumplan TODOS los criterios del texto — agrupa los relacionados en una sola llamada.
Costos: cada eval son varias llamadas a modelos reales. Mantenlos pocos, de alto valor, y córrelos aparte del CI rápido (npm run test:eval).

Siguiente paso

¿Aún no tienes los tests unitarios del bot? Empieza por Testing. Y si necesitas modelos para correr tus evals, mira la LLM Api de Wabot Cloud.