Backtesting: cómo probar correctamente estrategias de trading

El backtesting suele parecer la etapa más convincente en el desarrollo de una estrategia de trading: se cargan datos históricos, se ejecutan las reglas de entrada y salida, se obtiene una curva de capital, se calcula la rentabilidad y el drawdown. Si la curva sube, aparece la tentación de pensar que la estrategia ha quedado demostrada.

En la práctica, un backtest demuestra mucho menos. Muestra cómo se habría comportado un conjunto concreto de reglas sobre una versión concreta del pasado, bajo supuestos concretos sobre datos, comisiones, ejecución y liquidez disponible. Es una prueba de ingeniería útil para una hipótesis, pero no una garantía de resultados futuros. Un buen backtest no sirve para hacer que la rentabilidad pasada se vea bonita; sirve para detectar fragilidad antes de poner capital en riesgo.

Qué es el backtesting

Backtesting es reproducir una lógica de trading sobre datos históricos. En su forma mínima responde a una pregunta: qué habría ocurrido si la estrategia hubiera tomado decisiones en el pasado según reglas definidas de antemano.

Pero un backtest correcto no es solo una señal. Incluye:

el universo de trading: qué instrumentos podía ver la estrategia en cada momento;
datos: velas, operaciones, libro de órdenes, eventos fundamentales, comisiones, calendario de mercado;
reglas de posición: tamaño, apalancamiento, stop, rebalanceo, límites de riesgo;
modelo de ejecución: a qué precio y con qué retraso se considera ejecutada una orden;
registro del cálculo: versión de los datos, parámetros, fecha de ejecución, métricas y excepciones.

Si una de estas capas se sustituye por un supuesto cómodo, el resultado deja rápidamente de ser una prueba y se convierte en una ilustración de investigación. Por ejemplo, una estrategia sobre velas diarias puede parecer robusta si entra al precio de cierre de la misma vela que generó la señal. Pero si en la realidad la señal solo se conoce después del cierre, esa operación ya está usando información del futuro.

In-sample y out-of-sample

Una defensa básica contra el autoengaño es dividir la historia en periodos in-sample y out-of-sample.

In-sample es la parte en la que el investigador formula la idea, ajusta parámetros, compara filtros y descarta configuraciones débiles. Out-of-sample es un tramo separado que la estrategia no debería haber visto durante la selección. Su función no es comprobar qué tan bien memorizó el modelo el pasado, sino si su comportamiento se mantiene en datos nuevos.

El problema es que la separación formal por sí sola no basta. Si el investigador vuelve muchas veces al out-of-sample, mira el resultado, cambia parámetros y prueba de nuevo el mismo periodo, ese tramo se convierte poco a poco en un segundo in-sample. Por eso una investigación seria necesita disciplina experimental: fijar la hipótesis de antemano, limitar el número de pruebas y conservar el historial de ejecuciones.

Para estrategias sensibles a los regímenes de mercado se usa a menudo un enfoque walk-forward: los parámetros se estiman en una ventana, se prueban en la siguiente y luego la ventana se desplaza. Esto no hace que el resultado sea verdadero, pero imita mejor la realidad, donde la estrategia siempre decide con una historia limitada y sin acceso al futuro.

Overfitting

Overfitting es la situación en la que una estrategia está demasiado ajustada a una muestra histórica concreta y por eso se traslada mal a datos nuevos. En términos de modelado, no aprendió una regularidad estable, sino peculiaridades del periodo que ya vio: picos aleatorios, una tendencia puntual, una secuencia concreta de eventos, anomalías locales de liquidez.

En backtesting esto normalmente no ocurre por un único error evidente, sino por una serie de pequeñas mejoras. El investigador cambia el periodo de un indicador, añade un filtro de volatilidad, elige otro stop, excluye horas incómodas, cambia el conjunto de instrumentos, compara decenas de variantes y conserva la que tiene mejor Sharpe, menor drawdown o la curva de capital más limpia. Cada paso puede parecer racional, pero juntos pueden convertir la investigación en ajustar una llave a una historia que ya se conoce.

Es importante que overfitting no es lo mismo que operar poco. Una estrategia puede hacer pocas operaciones y aun así ser correcta si su lógica realmente está diseñada para eventos raros. El problema no está en el número de operaciones por sí mismo, sino en que, después de muchas pruebas, se puede elegir una variante que coincidió casi perfectamente con el pasado por casualidad. Ese backtest responde a la pregunta "qué encajó mejor con esta historia", no "qué tiene alta probabilidad de mantenerse fuera de ella".

Bailey, Borwein, López de Prado y Zhu describen este problema como probability of backtest overfitting: cuantas más estrategias y parámetros se prueban sobre la misma historia, mayor es la probabilidad de elegir una ilusión estadística que no sobrevivirá al trading real. 1 Por eso es importante mirar no solo el mejor resultado, sino también la distribución de resultados alrededor de él. Si una estrategia funciona solo en un rango estrecho de parámetros y los valores cercanos rompen rápidamente el PnL, eso es una señal de fragilidad, no de precisión en el ajuste.

Look-ahead bias y survivorship bias

Dos errores son especialmente peligrosos porque a menudo no se ven directamente en la curva final de capital.

Look-ahead bias es usar información que todavía no estaba disponible en el momento de la operación. No aparece solo en la forma obvia de "conocer el precio de mañana". Basta con usar el máximo o mínimo diario para una decisión intradía, utilizar datos fundamentales revisados después, aplicar a periodos pasados la composición final de un índice o normalizar variables sobre toda la historia de una vez. El resultado puede parecer limpio, pero la estrategia está operando con acceso al futuro.

Survivorship bias es otra forma de editar el pasado. Si en la prueba entran solo los instrumentos que sobrevivieron hasta hoy, de la historia desaparecen quiebras, delistings, tokens muertos, pares cerrados y mercados fallidos. La investigación sobre fondos mutuos muestra que el survivorship bias puede distorsionar de forma importante las estimaciones de rentabilidad media y persistencia. 2 En cripto este riesgo suele ser aún más bruto: no desaparecen solo activos individuales, sino también exchanges, pares, puentes de liquidez y regímenes completos de mercado.

Un backtest honesto debe trabajar con un universo point-in-time: la estrategia ve solo los instrumentos y datos que realmente existían en el momento de la decisión. Esto es técnicamente más difícil, pero sin ello la prueba a menudo responde a la pregunta "cómo habría operado la estrategia si ya supiera de antemano quién sobreviviría".

Transaction costs, slippage y latency

Una curva de capital limpia, sin costes, casi siempre sobreestima una estrategia. Especialmente si el sistema opera con frecuencia, trabaja con un edge pequeño o usa market orders.

Transaction costs son comisiones del exchange, broker fees, funding, borrow costs, spread y otros gastos directos. En cripto, incluso dentro de un mismo exchange, las comisiones dependen del estado maker/taker, del símbolo, del nivel de la cuenta y de condiciones especiales; Binance, por ejemplo, documenta por separado los tipos de comisión y el cálculo de commission rates. 3 Si un backtest pone comisión cero "por simplicidad", no está probando el mercado, sino un entorno ideal sin fricción.

Slippage es la diferencia entre el precio esperado de una operación y el precio real de ejecución. Surge por el spread, la profundidad insuficiente, el movimiento del precio durante la ejecución y el market impact. Para una orden pequeña en un par líquido, el slippage puede ser casi invisible. Para una orden grande o un libro poco profundo, puede comerse todo el edge esperado.

Latency es el retraso entre la aparición de la señal, el envío de la orden y su procesamiento por la plataforma. En estrategias de medio plazo puede ser secundario, pero en intraday, arbitraje y market making la latencia cambia la naturaleza misma de la prueba. Si el backtest supone ejecución instantánea al mejor precio, mientras el sistema real recibe el libro por WebSocket, procesa la señal, pasa risk checks y solo entonces envía la orden, el resultado ya debe tener en cuenta el tiempo y la posición en la cola. La documentación de exchanges sobre WebSocket streams muestra que los datos de mercado llegan como un flujo de operaciones y actualizaciones del libro, no como una vela ideal ya terminada. 4

Paper trading

Paper trading es útil como capa intermedia entre el backtest y el trading real. Comprueba que la estrategia se ejecuta según horario, recibe datos, genera señales, crea órdenes, escribe logs, aguanta reinicios y calcula correctamente el PnL en un modo cercano al live.

Pero paper trading no equivale a operar capital. En una simulación no hay impacto real de la orden sobre el mercado, no hay ejecución parcial en un libro poco profundo, no hay rechazos por cambios bruscos de margen, no hay presión psicológica y a menudo no existe la misma cola en la que estaría una orden real. FINRA, en la divulgación obligatoria de riesgos para day trading, subraya que el trading activo puede ser extremadamente arriesgado y exige estar preparado para pérdidas importantes. 5 Paper trading ayuda a verificar la mecánica, pero no elimina esos riesgos.

Por eso el papel correcto del paper trading no es ser "la prueba final de rentabilidad", sino un ensayo del sistema de producción: datos, tiempos, órdenes, límites, monitoreo y paradas de emergencia.

Por qué backtest no equivale a trading real

Un backtest trabaja con el pasado, mientras que el trading real ocurre en el futuro, donde cambian la liquidez, la competencia, la volatilidad, las comisiones, las condiciones regulatorias y el comportamiento de los participantes. Incluso si la prueba histórica se construyó honestamente, sigue siendo un modelo.

Las principales razones de la divergencia suelen ser estas:

el mercado cambia de régimen y la regularidad encontrada en la historia deja de funcionar;
los datos de investigación son más limpios y completos que los datos del entorno live;
la ejecución en la prueba es más simple que el order routing real, el spread, la queue position y los partial fills;
la estrategia escala peor de lo que parece con poco volumen;
comisiones, funding, borrow costs y slippage cambian con el tiempo;
después del lanzamiento cambia el comportamiento del autor: apagar el sistema tras un drawdown, editar reglas manualmente, ampliar el riesgo, detener operaciones de forma selectiva;
los competidores encuentran la misma anomalía y el edge se comprime.

Por eso los reguladores y las reglas de los exchanges miran el trading automatizado no solo como un "algoritmo de señal", sino como un sistema con controles, límites, monitoreo y procedimientos ante fallos. Las guidelines de ESMA sobre automated trading describen por separado requisitos para sistemas, pre-trade y post-trade controls, resiliencia y gestión de riesgos. 6 Para quien desarrolla estrategias, la conclusión es importante: el backtest es solo una capa de validación, no todo el sistema.

Qué cuenta como un buen backtest

Un buen backtest no tiene que mostrar la máxima rentabilidad. Debe ser reproducible, conservador y lo bastante estricto como para que una estrategia débil no pase solo por supuestos cómodos.

El conjunto mínimo de señales:

las reglas de la estrategia están fijadas antes de la prueba final, no reescritas después de ver el resultado;
los datos son point-in-time: sin corporate actions futuros, composiciones futuras del universo ni variables recalculadas retrospectivamente;
in-sample y out-of-sample están separados, y el out-of-sample no se usa como campo infinito para ajustar parámetros;
comisiones, spread, slippage, funding y latency están incluidos al menos en un modelo conservador;
los parámetros se comprueban por robustez: valores cercanos no deberían destruir por completo la estrategia;
las métricas incluyen no solo CAGR, sino también max drawdown, volatility, Sharpe/Sortino, turnover, hit rate, tail losses y tiempo de recuperación;
la prueba muestra el comportamiento por regímenes de mercado, no solo un gráfico final;
se conservan versiones de datos, código y parámetros para poder reproducir el resultado.

Para herramientas como ai-trader, el valor de una capa de backtesting está precisamente ahí: no en una curva de capital bonita, sino en un proceso reproducible donde señal, datos, límites de riesgo, costes y comprobaciones live quedan unidos en un sistema verificable.

Conclusión

Backtesting no sirve para demostrar ganancias futuras. Sirve para separar las estrategias que al menos sobreviven a una prueba histórica honesta de las estrategias que dependen de errores de datos, sobreoptimización y ejecución irrealista.

Un buen backtest siempre decepciona un poco: añade comisiones, estropea entradas perfectas con slippage, prohíbe mirar al futuro, devuelve a la historia instrumentos muertos y muestra drawdowns que uno preferiría no ver. Pero precisamente por eso es útil. Cuanto antes se rompe una estrategia en la prueba, más barata resulta esa rotura antes del trading real.