Métricas de estrategias de trading: cómo saber si una estrategia es buena

Una buena estrategia de trading no es la que muestra la mayor rentabilidad en un único backtest. La rentabilidad sin contexto dice muy poco: puede venir de un apalancamiento excesivo, de un evento afortunado y poco frecuente, de parámetros sobreoptimizados o de un riesgo que simplemente aún no apareció en la historia seleccionada.

Por eso las estrategias se evalúan con un conjunto de métricas. Algunas muestran si el sistema tiene una esperanza matemática positiva. Otras describen la severidad de las caídas, cuánto tiempo permaneció el capital por debajo de su máximo anterior, cuánta rentabilidad se obtuvo por unidad de riesgo y si la equity curve parece un proceso estable o un episodio aislado de suerte.

El error principal es buscar una única cifra final. Profit factor, Sharpe ratio, Sortino ratio, max drawdown, CAGR y Calmar ratio responden preguntas distintas. Una estrategia sólida debe verse convincente no en una sola métrica, sino en la combinación de varias.

Profit factor

El profit factor muestra la relación entre la ganancia bruta y la pérdida bruta:

profit factor = gross profit / gross loss

Si una estrategia ganó 120.000 euros en operaciones ganadoras y perdió 80.000 euros en operaciones perdedoras, su profit factor es 1,5. Formalmente, esto significa que por cada euro perdido hubo 1,5 euros de ganancia.

La métrica es útil porque no mira solo el PnL final, sino la relación entre el dinero ganado y el dinero perdido. Pero puede engañar con facilidad si hay pocas operaciones o si la distribución de resultados es muy asimétrica. Una estrategia puede tener un profit factor alto después de varios grandes aciertos y seguir dependiendo de eventos raros. También puede ocurrir lo contrario: una larga acumulación de pequeñas ganancias y una gran pérdida pueden parecer aceptables hasta que ese riesgo de cola aparece en la muestra.

Por eso conviene leer el profit factor junto con el número de operaciones, la ganancia media, la pérdida media, la mayor operación perdedora y la estabilidad del resultado en periodos cercanos. Por sí solo responde a la pregunta "si las ganancias cubrieron las pérdidas en esta historia", pero no demuestra que esa relación vaya a mantenerse.

Win rate y expectancy

El win rate es la proporción de operaciones rentables:

win rate = winning trades / all trades

A primera vista, una alta proporción de operaciones ganadoras parece una señal de calidad. En la práctica, es una de las métricas más peligrosas si se mira de forma aislada. Una estrategia con un win rate del 80% puede perder dinero si la pérdida media es mucho mayor que la ganancia media. Una estrategia con un win rate del 35% puede ser rentable si las pocas ganancias son suficientemente grandes.

Por eso, junto al win rate hace falta la expectancy: el resultado esperado medio por operación.

expectancy = win rate * average win - loss rate * average loss

La expectancy traduce la frecuencia y el tamaño de las operaciones en una pregunta más honesta: cuánto ganó o perdió la estrategia de media por operación antes de escalar el tamaño de la posición. Si la expectancy es positiva, la estrategia al menos tuvo un edge histórico. Si es negativa, un win rate alto no ayuda: el sistema acierta a menudo, pero se equivoca demasiado caro.

En el trading algorítmico es especialmente importante calcular la expectancy después de comisiones, spread, slippage y funding. Un edge pequeño antes de costes puede desaparecer por completo si la estrategia opera con frecuencia o trabaja en mercados poco líquidos.

Sharpe ratio

El Sharpe ratio conecta el exceso de rentabilidad con la volatilidad de los retornos:

Sharpe ratio = (portfolio return - risk-free rate) / standard deviation of returns

La idea se remonta al trabajo de William Sharpe sobre la reward-to-variability ratio: la rentabilidad no debe evaluarse de forma aislada, sino en relación con el riesgo asumido para obtenerla. 1 Más tarde, el propio Sharpe describió una versión más general de la métrica como una forma de comparar la rentabilidad diferencial con su variabilidad. 2

El sentido práctico es simple: dos estrategias pueden tener el mismo CAGR, pero caminos muy distintos para alcanzarlo. Si una creció de forma relativamente estable y la otra llegó al mismo resultado mediante fuertes oscilaciones, la primera tendrá un Sharpe más alto.

La limitación del Sharpe ratio es que la desviación estándar penaliza toda la volatilidad: tanto la negativa como la positiva. Para estrategias con distribuciones de retornos cercanas a la normal, puede ser una aproximación razonable. Para estrategias con asimetría, pérdidas grandes poco frecuentes o fuerte dependencia del tail risk, el Sharpe puede verse mejor que el perfil real de riesgo.

Otro problema es la periodicidad. Un Sharpe diario anualizado presupone estabilidad estadística y a menudo oculta la agrupación de pérdidas. Si una estrategia gana un poco cada día y de vez en cuando cae con fuerza, la volatilidad media puede subestimar el riesgo de una ruptura en la equity curve.

Sortino ratio

El Sortino ratio se parece al Sharpe, pero en el denominador usa la downside deviation: desviaciones por debajo de una rentabilidad mínima aceptable.

Sortino ratio = (portfolio return - minimum acceptable return) / downside deviation

La idea es que al inversor normalmente no le preocupa cualquier volatilidad, sino las desviaciones negativas. Un gran día positivo no es un problema; un gran día negativo cambia el riesgo del capital. CFA Institute describe el Sortino ratio como una variante del Sharpe en la que la minimum acceptable return sustituye a la tasa libre de riesgo y la downside deviation sustituye a la desviación estándar. 3

Sortino es útil para estrategias con resultados asimétricos: trend following, breakout, estructuras con opciones o carteras con grandes movimientos poco frecuentes. Ayuda a separar una rentabilidad "irregular, pero principalmente positiva" de una rentabilidad cuya variabilidad importante llega a través de caídas.

Pero Sortino tampoco es una protección mágica. Depende del umbral elegido, de la longitud de la historia y de la forma de calcular la downside deviation. Si la muestra aún no incluyó un verdadero periodo de estrés, el downside risk parecerá más suave de lo que realmente es.

Volatility

La volatility suele medir la dispersión de los retornos alrededor de su media. En la teoría clásica de carteras, el riesgo de una cartera depende no solo de la rentabilidad esperada de cada activo, sino también de la variabilidad y de las relaciones entre sus retornos. 4

Para una estrategia de trading, la volatility muestra qué tan irregularmente se distribuye el resultado en el tiempo. En igualdad de condiciones, una menor volatilidad facilita escalar el sistema: es más fácil fijar límites, calcular margen, soportar drawdowns y comparar la estrategia con otras fuentes de riesgo.

Pero baja volatility no siempre significa bajo riesgo. Las estrategias que venden seguro, promedian en contra del movimiento o recogen una pequeña prima por un riesgo raro pueden mostrar una equity curve tranquila durante mucho tiempo. Hasta que llega un evento que no cabía dentro de la volatilidad diaria habitual.

Por eso la volatility debe usarse como descripción del régimen normal, no como medida completa del peligro. Para estrategias con riesgos de cola, debe ir acompañada de max drawdown, tail losses, stress tests y escenarios de liquidez.

Max drawdown

El max drawdown es la caída máxima del capital desde un máximo local hasta el mínimo posterior:

max drawdown = (trough equity - peak equity) / peak equity

Esta métrica responde a la pregunta de cuál fue el agujero histórico más profundo que tuvo que soportar el capital. A diferencia de la volatility, el drawdown depende del camino: importa no solo la dispersión de los retornos, sino también el orden de las pérdidas.

Por ejemplo, dos estrategias pueden tener la misma rentabilidad media y la misma volatilidad, pero una secuencia distinta de resultados. Si las pérdidas se agrupan, la equity curve queda profundamente bajo el agua. Si se mezclan con periodos rentables, el drawdown puede ser mucho más suave.

El max drawdown es especialmente importante porque la recuperación no es lineal. Después de una caída del 20%, hace falta una ganancia del 25% para volver al nivel inicial. Después de una caída del 50%, hace falta un crecimiento del 100%. Por eso la profundidad de la caída afecta no solo a la resistencia psicológica, sino también a la geometría de la rentabilidad futura.

La limitación del max drawdown es que muestra un único peor episodio en la historia seleccionada. No dice con qué frecuencia aparecieron las caídas, cuánto duró la recuperación ni si una historia más larga podría haber mostrado un escenario peor. Por eso conviene mirar junto al max drawdown la drawdown duration y el time under water.

CAGR

CAGR significa compound annual growth rate, es decir, la tasa media anual de crecimiento del capital con capitalización compuesta:

CAGR = (ending equity / starting equity)^(1 / years) - 1

Esta métrica es útil para comparar estrategias en horizontes distintos. Si una estrategia se probó durante tres años y otra durante siete, el porcentaje total de crecimiento dice poco. El CAGR lleva el resultado a una escala anual.

Pero el CAGR no muestra el camino. Una estrategia con CAGR del 25% y max drawdown del 60% es un objeto muy distinto de una estrategia con CAGR del 15% y max drawdown del 10%. La primera puede parecer más fuerte en una tabla de rentabilidad, pero ser inadecuada para capital real si la caída supera el presupuesto de riesgo.

El CAGR también es sensible al punto inicial y final. Si el test empieza antes de una fuerte tendencia y termina en un máximo, el crecimiento anual quedará inflado. Por eso hay que revisar el CAGR en rolling windows: cómo cambia la rentabilidad anual cuando se desplaza el periodo de análisis.

Calmar ratio

El Calmar ratio conecta la rentabilidad con el drawdown máximo:

Calmar ratio = annualized return / absolute maximum drawdown

A diferencia del Sharpe, donde el riesgo se describe mediante la desviación estándar, Calmar mira la peor caída del capital. En la literatura práctica de performance measurement pertenece a las métricas basadas en drawdown: la estrategia se evalúa por cuánta rentabilidad anual generó por unidad de drawdown máximo. 5

Calmar es útil cuando el riesgo principal no es la irregularidad diaria, sino la pérdida de capital desde un máximo. Para los sistemas de trading, esto suele estar más cerca de la realidad: un inversor o risk manager no pregunta "cuál fue la desviación estándar", sino "cuánto cayó la estrategia y si pudo recuperarse".

Pero Calmar hereda las debilidades del max drawdown. Un único peor episodio puede empeorar mucho la métrica, mientras que la ausencia de una gran crisis en la historia puede volverla demasiado optimista. Además, distintas ventanas de cálculo dan respuestas distintas: 36 meses, toda la historia y periodos rolling no son lo mismo.

Equity curve

La equity curve es el gráfico del capital de la estrategia a lo largo del tiempo. No es una fórmula independiente, sino una comprobación visual de cómo todas las métricas se manifiestan en la dinámica.

Una equity curve sana no tiene por qué ser perfectamente lisa. En el trading real hay drawdowns, periodos planos, cambios de régimen y rachas perdedoras. Lo sospechoso no es la irregularidad en sí, sino una forma que no encaja con la lógica declarada de la estrategia.

Las señales de alerta habituales son:

casi todo el resultado se generó en un tramo corto de la historia;
la curva sube durante mucho tiempo en pequeños pasos y luego cae bruscamente de vez en cuando;
después de los drawdowns, la recuperación tarda cada vez más;
la estrategia gana solo en un régimen de mercado;
la equity curve mejora mucho después del ajuste de parámetros, pero se rompe en ventanas cercanas;
el crecimiento del capital va acompañado de más apalancamiento, no de un edge estable.

La equity curve también es útil porque muestra el comportamiento de la estrategia en el tiempo, no solo la última fila de un informe. Si el CAGR es alto, pero la curva consiste en largos periodos de estancamiento y un salto afortunado, ese riesgo es distinto al de una acumulación estable de resultado en varios regímenes.

Cómo leer las métricas juntas

La evaluación de una estrategia no empieza con la pregunta "qué métrica es la mejor", sino con "qué riesgo asume esta estrategia para generar rentabilidad".

Un marco práctico puede ser este:

profit factor muestra si las ganancias cubrieron las pérdidas;
win rate y expectancy explican cómo ocurrió: mediante muchas ganancias pequeñas o pocas ganancias grandes;
Sharpe ratio muestra la rentabilidad por unidad de volatilidad total;
Sortino ratio precisa cuánto compensó la rentabilidad específicamente el downside risk;
volatility describe la irregularidad normal del proceso;
max drawdown muestra la peor caída histórica del capital;
CAGR normaliza el crecimiento a un horizonte anual;
Calmar ratio vincula CAGR con la profundidad del drawdown;
equity curve muestra si detrás de los números finales se esconde un episodio afortunado o una forma frágil de riesgo.

Una buena estrategia normalmente no se ve perfecta en todas las métricas. Trend following puede tener un win rate bajo, pero expectancy positiva gracias a grandes tendencias. Mean reversion puede tener un win rate alto, pero ser vulnerable a pérdidas grandes poco frecuentes. Market making puede mostrar una equity curve suave hasta que aparece el inventory risk o la adverse selection.

Por eso las estrategias deben compararse dentro de su clase, horizonte, frecuencia de operación y modelo de ejecución. Para herramientas como ai-trader, el valor práctico de estas métricas no está en un informe bonito, sino en la disciplina: fijar un presupuesto de riesgo, detectar la degradación de la estrategia, comparar los resultados live con el backtest y notar a tiempo cuando el perfil de riesgo deja de coincidir con la hipótesis original.

Conclusión

Una estrategia no se vuelve buena solo porque tenga un CAGR alto, un profit factor bonito o un Sharpe por encima de variantes cercanas. Cada métrica comprime un comportamiento complejo del capital en una sola cifra y por eso necesariamente pierde algo.

Un enfoque más fiable es mirar la combinación: si hay expectancy positiva después de costes, si el resultado depende de operaciones afortunadas y poco frecuentes, qué tan profundos y largos son los drawdowns, si la rentabilidad compensa el riesgo asumido, si el comportamiento se mantiene en distintas ventanas y si la equity curve no parece consecuencia de overfitting.

Una buena estrategia es un sistema verificable, con una fuente clara de edge, downside limitado y un comportamiento que puede explicarse antes de poner capital en marcha, no solo después de un backtest exitoso.