Datos en trading: qué datos se utilizan y de dónde obtenerlos

En trading algorítmico, la pregunta "¿de dónde sacamos los datos?" suele aparecer demasiado tarde. Primero surge la idea, luego empieza la búsqueda de cotizaciones, después se lanza el backtest y solo entonces queda claro que la estrategia en realidad depende de datos que no estaban presentes en el entorno de investigación. El resultado es un sistema que puede verse convincente en un gráfico y al mismo tiempo ser inútil en ejecución real.

El problema es que "datos de mercado" no es una sola cosa. Velas, ticks, libro de órdenes, reportes corporativos, noticias y sentiment son capas distintas de información con diferentes ritmos de actualización, estructuras de error y costes de almacenamiento. La capa de la que depende una estrategia determina no solo la señal, sino también qué distorsiones entran en el modelo, cómo se estima el slippage y hasta qué punto el backtest es realmente honesto.

OHLCV: la capa más accesible, pero no la más neutral

OHLCV significa open, high, low, close y volume en un intervalo elegido. Este formato es cómodo porque es compacto, está ampliamente disponible y sirve para una gran cantidad de tareas: filtros de régimen de mercado, estrategias de medio plazo, estimación de volatilidad, investigación de carteras y modelos intradía sencillos que trabajan con cierres de barra.

Pero una vela ya es una compresión fuerte del mercado. Dentro de una sola barra se pierde el orden de las operaciones, no se sabe si el máximo llegó antes que el mínimo o al revés, no se ve la estructura del spread ni la cola en el libro, y no se puede reconstruir correctamente la trayectoria real del precio dentro del intervalo. Por eso OHLCV responde bastante bien a la pregunta "¿cómo se movió el instrumento en promedio?", pero responde mucho peor a la pregunta "¿se habría podido ejecutar de verdad la operación a ese precio y en la secuencia que supone el backtest?".

Esa es una frontera importante. Si una estrategia toma decisiones una vez al día o una vez por hora y no es sensible a la microestructura del mercado, OHLCV suele bastar. Pero si el modelo depende de cómo el precio atravesó un nivel dentro de la barra, de la rapidez con la que se cerró el spread o de cuánta liquidez había en los mejores precios, los datos de velas ya están ocultando exactamente la información de la que vive la idea.

Tick data y order book: cuando importa la microestructura

Tick data es el flujo de eventos individuales del mercado: operaciones, cotizaciones o cambios en las cotizaciones. Esta capa importa cuando una estrategia vive dentro de la sesión y es sensible a la secuencia de eventos: alpha de corto plazo, algoritmos de ejecución, estimación de slippage, modelos de impulso sobre noticias o cálculos de realised volatility a altas frecuencias.

El order book añade otro nivel de detalle: no solo el hecho de que hubo una operación, sino la estructura de la liquidez disponible en bid y ask y cómo esa liquidez cambia con el tiempo. En la renta variable estadounidense, feeds directos de bolsa como Nasdaq TotalView-ITCH contienen eventos reales a nivel de orden: altas, ejecuciones, cancelaciones y reemplazos. 1 En cripto, una lógica parecida suele implementarse con un snapshot de profundidad más un flujo de deltas por WebSocket o por la API REST/WebSocket del venue correspondiente. Binance, por ejemplo, publica endpoints separados para depth, recent trades, historical trades y klines; Coinbase publica los canales level2, market_trades y candles. 2

El valor práctico de ese detalle adicional es simple: permite modelar no solo la dirección, sino también la calidad de la ejecución. Eso es crítico para market making, arbitraje, intraday momentum y cualquier sistema en el que la PnL final dependa menos de la señal en sí que de la posición en la cola, el spread, la dinámica de cancelaciones y la liquidez realmente disponible.

Esa precisión tiene un coste real. Tick data, y sobre todo los datos de order book, requieren más almacenamiento, son más difíciles de normalizar, contienen con más frecuencia huecos y eventos técnicos, y están mucho más atados a un venue concreto. Así que la pregunta no es "¿el order book es mejor que OHLCV?", sino "¿la estrategia obtiene de verdad su edge de información que no existe dentro de una vela?".

Datos fundamentales, noticias y sentiment: el mercado más allá de la cinta

No todas las estrategias se construyen solo sobre el mercado entendido como una secuencia de precios. En acciones, los datos fundamentales significan estados financieros, partidas de balance, revenue, márgenes, deuda, guidance y otras métricas corporativas que afectan la valoración con el tiempo, no la ejecución en microsegundos. La SEC ofrece acceso programático directo a filings y datos XBRL a través de la EDGAR API, incluyendo submission history, company facts y estructuras relacionadas que se actualizan en tiempo real a medida que se publican las divulgaciones. 4

En esta misma capa es donde "noticias" adquiere un sentido más estricto. Para el trabajo sistemático, muchas veces no es tan útil un flujo general de titulares como las divulgaciones primarias: 8-K, 10-K, 10-Q, comunicados del emisor y avisos de bolsa. En la lógica de la SEC, el Form 8-K es un current report sobre hechos materiales que los inversores deben conocer con rapidez, no cuando ya han sido recontados por el flujo mediático. 5 Para estrategias event-driven, la diferencia entre una fuente primaria y un relato secundario suele ser más importante que cualquier sutileza del modelo NLP.

Conviene tratar el sentiment data con cuidado. No es un indicador mágico del ánimo del mercado, sino una capa derivada de variables extraídas de textos de noticias, notas de analistas, transcripts, redes sociales o foros. La literatura académica sí muestra que el tono de la cobertura mediática puede relacionarse con movimientos de precios y volumen negociado; el trabajo de Paul Tetlock sobre el papel de los medios en el mercado bursátil es un ejemplo clásico. 6 Pero en el trading práctico, el sentiment suele ser más útil como señal auxiliar débil o como filtro de régimen que como fuente autónoma de edge.

Crypto vs. stocks: nombres parecidos, estructuras de datos distintas

A nivel de vocabulario, los mercados se parecen: ambos tienen velas, operaciones, datos de order book y noticias. A nivel de infraestructura, las diferencias son mucho más profundas.

En acciones existe un régimen formalizado para datos de mercado, corporate actions y divulgaciones. Hay un marco regulatorio para consolidated market data, filings oficiales, tickers de emisores, corporate actions y calendarios de sesión. En sus reglas de Market Data Infrastructure, la SEC describe de forma explícita el sistema de recolección, consolidación y distribución de datos para acciones NMS. 7 Por eso, las tareas de ingeniería más importantes en datos de equity giran en torno a adjustments correctos, tratamiento de delistings, normalización de corporate actions y mapeo preciso entre ticker, CUSIP/CIK y sesión de negociación.

Cripto suele ser bastante más fragmentado. No existe una sola consolidated tape oficial, la negociación funciona 24/7, los símbolos cambian de un venue a otro y un mismo par puede tener distinta profundidad, estructura de comisiones y una microestructura sensiblemente distinta según donde cotice. Por eso, la fuente de OHLCV, historial tick y order book suele ser nativa del venue: o se toman los datos de la propia bolsa o se recurre a un agregador que ya haya tomado por uno las decisiones de fusión. 2

También hay una diferencia de fondo en lo que significa "fundamental". En acciones, lo fundamental son las finanzas del emisor y sus eventos corporativos. En criptoactivos, "fundamental" suele significar tokenomics, unlock schedules, emisión, actividad on-chain, comisiones de red, actividad de validadores, flujos de treasury wallets y dependencia de un protocolo concreto. Es decir, el objeto de análisis es distinto: en lugar de una empresa con divulgación periódica, muchas veces se tiene una red, un token y un conjunto de fuentes públicas pero heterogéneas.

Dónde obtener los datos en la práctica

La regla más fiable es simple: siempre que se pueda, tomar los datos lo más cerca posible de la fuente primaria.

Para datos de mercado, eso significa feeds de bolsa y APIs oficiales. En acciones, significa feeds directos o consolidados, archivos históricos y especificaciones oficiales de mensajes de bolsa. En cripto, significa las APIs REST y WebSocket del venue concreto cuando la estrategia es sensible al comportamiento de ese venue. Para fundamentales de acciones, significa SEC EDGAR y XBRL. Para datos de eventos, significa divulgaciones corporativas primarias y anuncios de bolsa. 1 3 5

Los vendors intermedios y los agregadores también son útiles, pero siempre tienen un coste de abstracción. Aceleran la investigación, ofrecen un formato unificado para muchos mercados y eliminan parte de la carga de infraestructura, pero también toman decisiones por usted: cómo agregar operaciones, cómo construir velas, cómo reconstruir el libro, cómo marcar correcciones y cómo tratar delistings y cambios de nombre. Para modelos de medio plazo, eso suele ser un compromiso razonable. Para estrategias sensibles a la ejecución, puede significar perder una parte importante de la realidad.

En la práctica, la elección suele verse así:

Para modelos diarios y horarios, OHLCV y corporate data pueden venir de un agregador fiable o de un archivo oficial, siempre que se hayan revisado adjustments y calendarios.
Para estrategias intradía basadas en operaciones y libro de órdenes, es mejor contar con feeds históricos directos o con un pipeline propio de captura de market data, para no tener que adivinar cómo el proveedor reconstruyó el flujo de eventos.
Para modelos event-driven y cross-sectional, el valor suele estar menos en "cuantas más fuentes, mejor" que en la disciplina con timestamps, symbol mapping y el vínculo entre el evento y el trading universe.

Calidad de los datos, survivorship bias y data cleaning

La mayoría de los errores de una estrategia no nace en la fórmula de la señal, sino en datos que parecen "casi correctos". El mismo modelo puede volverse rentable o no rentable simplemente porque las velas se construyeron sobre sesiones distintas, las corporate actions se aplicaron solo parcialmente o los outlier prints quedaron sin filtrar.

El survivorship bias es uno de los ejemplos más peligrosos. Si el universo histórico contiene solo las acciones o tokens que sobrevivieron hasta hoy, el backtest se vuelve automáticamente más bonito: desaparecen de la historia los delistings, las quiebras, los proyectos muertos y los instrumentos débiles, aunque en su momento formaron parte del mercado real. En la investigación de inversiones, este efecto está bien documentado en la literatura académica; por ejemplo, Carhart, Carpenter, Lynch y Musto muestran que el survivorship bias distorsiona las estimaciones del rendimiento medio y de la persistencia. 8 La misma lógica vale para trading: si el universo histórico ha sido depurado de perdedores a posteriori, no se está probando el mercado, sino una versión editada de la historia.

En cripto, ese riesgo suele ser incluso mayor que en acciones. No solo mueren tokens individuales, sino también pares de trading, exchanges, puentes de liquidez y los propios regímenes de cotización. Si se observan solo los pares líquidos de hoy con una historia larga, se puede terminar con una imagen muy ordenada de un mercado que en el pasado nunca existió de esa manera.

Por eso, el data cleaning no debería tratarse como una fase operativa aburrida que empieza después de cargar un CSV. Forma parte del propio modelo. Una lista mínima de comprobación suele incluir:

alinear todos los timestamps a una sola zona horaria y precisión;
tener en cuenta sesiones de trading, festivos y transiciones entre regular y extended hours cuando sea relevante;
tratar correctamente corporate actions, cambios de nombre, cambios de ticker y delistings;
eliminar o marcar duplicados, huecos, volúmenes negativos, máximos y mínimos imposibles, y prints extremos;
definir una política explícita para corrections, cancels y reconstrucción de velas a partir de tick data;
mantener un symbol mapping estable entre market data, fundamentales, noticias y el trading universe.

Es en este punto donde se ve si un dataset es solo una capa cómoda para investigación o la base de una estrategia de producción. En herramientas como ai-trader, el valor no viene del número de APIs conectadas, sino de un data pipeline reproducible: datos en bruto, una capa normalizada, controles de calidad y la posibilidad de reconstruir cualquier backtest a partir de la misma versión histórica.

Conclusión

En trading no existe algo como "solo datos". Existe la capa de información que encaja con el horizonte de la estrategia, y existe la capa que hace que un backtest parezca convincente pero sea inútil para el mercado real.

OHLCV basta para muchas tareas, pero oculta la microestructura. Tick data y order book hacen falta cuando el dinero se gana o se pierde en la ejecución. Los fundamentales, las noticias y el sentiment solo se vuelven útiles cuando se entiende su fuente, su latencia y la forma en que se mapean al trading universe. Y la diferencia real entre acciones y cripto no empieza en la volatilidad, sino en la propia estructura de los datos: en un caso importan más los filings y las corporate actions; en el otro, la fragmentación de venues y la calidad de la agregación propia.

Por eso, la mejor pregunta para un trader no es "¿dónde puedo descargar cotizaciones?", sino "¿qué capa exacta del mercado necesita ver mi algoritmo para que sus estadísticas de investigación no se desmoronen al encontrarse con la ejecución real?".