Данные в трейдинге: какие данные используются и где их брать

В алгоритмической торговле вопрос "где взять данные" обычно звучит слишком поздно. Сначала придумывают идею, потом ищут котировки, потом запускают бэктест и только после этого выясняют, что стратегия в реальности опирается не на те данные, которые были в исследовании. В результате система может выглядеть убедительно на графике и одновременно быть непригодной к исполнению.

Проблема в том, что "рыночные данные" не являются одной сущностью. Свечи, тики, стакан, корпоративная отчётность, новости и sentiment - это разные слои информации с разной скоростью обновления, структурой ошибок и стоимостью хранения. От того, какой слой использует стратегия, зависит не только сигнал, но и то, какие искажения попадут в модель, как будет считаться slippage и насколько честным окажется бэктест.

OHLCV: самый доступный слой, но не самый нейтральный

OHLCV - это open, high, low, close и volume за выбранный интервал. Такие данные удобны тем, что они компактны, легко доступны и подходят для огромного числа задач: фильтры режима рынка, среднесрочные стратегии, оценка волатильности, портфельные исследования, простые intraday-модели на закрытиях баров.

Но свеча - это уже сильное сжатие рынка. Внутри одного бара теряется порядок сделок, неизвестно, что произошло раньше - максимум или минимум, не видно структуры спреда и очереди в стакане, нельзя корректно восстановить реальную траекторию цены внутри интервала. Поэтому OHLCV хорошо отвечает на вопрос "как в среднем двигался инструмент", но плохо отвечает на вопрос "можно ли было реально исполнить сделку по той цене и в том порядке, который предполагает бэктест".

Это важная граница. Если стратегия принимает решение раз в день или раз в час и исполняется без чувствительности к микроструктуре, OHLCV часто достаточно. Если же модель зависит от того, как цена проходила уровень внутри бара, как быстро схлопывался спред или сколько ликвидности стояло на лучших ценах, свечные данные уже прячут именно ту информацию, на которой держится идея.

Tick data и order book: когда важна микроструктура

Tick data - это поток отдельных событий рынка: сделок, котировок или их изменений. Такой слой нужен там, где стратегия живёт внутри дня и чувствительна к последовательности событий: short-term alpha, execution-алгоритмы, оценка slippage, модели импульса на новостях, расчёт realised volatility на высоких частотах.

Order book даёт следующий уровень детализации: не просто факт сделки, а структуру доступной ликвидности по bid/ask и её изменения во времени. На американском рынке прямые биржевые ленты вроде Nasdaq TotalView-ITCH содержат именно order-level события - добавления, исполнения, отмены и замены заявок. 1 На крипторынке похожая логика обычно реализуется через снапшот глубины и поток дельт по WebSocket или REST/WebSocket API конкретной площадки. Binance, например, отдельно публикует depth, recent trades, historical trades и klines; Coinbase публикует каналы level2, market_trades и candles. 2

Практический смысл у этой детализации один: она позволяет моделировать не только направление, но и качество исполнения. Это критично для market making, арбитража, intraday momentum и любых систем, где итоговая PnL зависит не столько от сигнала, сколько от очереди, спреда, частоты отмен и реальной доступной ликвидности.

Цена за такую точность тоже реальна. Tick data и особенно стакан требуют больше места, сложнее в нормализации, чаще содержат пропуски и служебные события, а ещё сильнее привязаны к конкретному venue. Поэтому вопрос здесь не "лучше ли order book, чем OHLCV", а "действительно ли стратегия зарабатывает на информации, которой нет в свече".

Фундаментальные данные, новости и sentiment: рынок вне ленты сделок

Не все стратегии строятся только на рынке как на последовательности цен. Для акций фундаментальные данные - это отчётность, балансовые показатели, revenue, margins, debt, guidance и другие корпоративные метрики, которые влияют не на микросекундное исполнение, а на переоценку компании во времени. SEC прямо даёт программный доступ к filings и XBRL-данным через EDGAR API: там доступны submission history, company facts и другие структуры, обновляемые в реальном времени по мере публикации. 4

Из этого же слоя возникают и "новости" в более строгом смысле слова. Для системной работы полезнее не общий поток заголовков, а первичные раскрытия: 8-K, 10-K, 10-Q, пресс-релизы эмитента, биржевые notices. Form 8-K в логике SEC - это current report о существенных событиях, которые инвесторы должны узнать быстро, а не когда их перескажет медиапоток. 5 Для event-driven стратегий разница между первичным источником и вторичным пересказом часто важнее, чем любая тонкость NLP-модели.

Sentiment data стоит понимать осторожно. Это не "магический индикатор настроения", а производный слой признаков, который извлекают из текста новостей, аналитических заметок, transcripts, соцсетей или форумов. Академическая литература действительно показывает, что тональность медийного потока может быть связана с движением цен и объёмом торгов; классический пример - работа Paul Tetlock о роли медиа в фондовом рынке. 6 Но в прикладной торговле sentiment чаще всего полезен как слабый дополнительный сигнал или фильтр режима, а не как самостоятельный источник edge.

Crypto vs stocks: одинаковые названия, разная структура данных

На уровне словаря рынки похожи: и там и там есть candles, trades, order book, новости. На уровне инфраструктуры разница гораздо глубже.

В акциях существует формализованный режим рыночных данных, корпоративных действий и раскрытий. Есть регуляторная рамка для consolidated market data, официальные filings, тикеры эмитентов, corporate actions, календарь торговых сессий. SEC в правилах по Market Data Infrastructure четко описывает систему сбора, консолидации и распространения данных по NMS-акциям. 7 Поэтому в equity-данных основные инженерные задачи - это корректные adjustments, учёт делистингов, нормализация corporate actions, точное сопоставление тикера, CUSIP/CIK и биржевой сессии.

В крипте рынок обычно более фрагментирован. Нет единого "официального" consolidated tape, торговля идёт 24/7, символы отличаются от биржи к бирже, одни и те же пары могут иметь разную глубину, комиссии и заметно разное поведение микроструктуры. Источник OHLCV, тиковой истории и стакана здесь почти всегда venue-native: данные надо брать с конкретной биржи или у агрегатора, который уже решил за вас задачу слияния. 2

Есть и содержательная разница в фундаментальных данных. Для акций фундаментал - это отчётность эмитента и корпоративные события. Для криптоактивов "фундаментал" чаще означает токеномику, unlock schedule, эмиссию, on-chain-активность, комиссии сети, активность валидаторов, движение treasury-кошельков и зависимость от конкретного протокола. То есть сам объект анализа другой: вместо компании с регулярным раскрытием вы часто имеете сеть, токен и набор публичных, но разнородных источников.

Где брать данные на практике

Самое надёжное правило простое: по возможности брать данные как можно ближе к первичному источнику.

Для рыночных данных это означает биржевые feeds и официальные API. Для акций - прямые или консолидированные ленты, исторические архивы, официальные спецификации биржевых сообщений. Для крипты - REST и WebSocket API конкретной площадки, если стратегия чувствительна к особенностям venue. Для фундаментальных данных по акциям - SEC EDGAR и XBRL. Для событийных данных - первичные корпоративные раскрытия и биржевые объявления. 1 3 5

Промежуточные вендоры и агрегаторы тоже полезны, но у них всегда есть цена абстракции. Они ускоряют ресерч, дают единый формат по множеству рынков и снимают часть инфраструктурной боли, но вместе с этим принимают за вас решения: как агрегировать сделки, как строить candles, как восстанавливать стакан, как маркировать corrections, как переживать делистинги и переименования. Для среднесрочных моделей это часто разумный компромисс. Для execution-sensitive стратегий - уже риск потерять важную часть реальности.

На практике выбор обычно выглядит так:

Для дневных и часовых моделей OHLCV и corporate data можно брать у надёжного агрегатора или из официальных архивов, если вы проверили adjustments и календари.
Для intraday-стратегий на сделках и стакане лучше иметь либо прямые исторические feeds, либо собственный контур записи market data, чтобы не гадать, как именно поставщик пересобрал события.
Для event-driven и cross-sectional моделей ценность часто лежит не в "чем больше источников, тем лучше", а в дисциплине по timestamps, symbol mapping и связи между событием и торговым universe.

Качество данных, survivorship bias и data cleaning

Большая часть ошибок стратегии рождается не в формуле сигнала, а в данных, которые выглядят "почти правильными". Одна и та же модель может стать прибыльной или убыточной только потому, что свечи построены по разным сессиям, corporate actions применены частично, а outlier prints не были отфильтрованы.

Survivorship bias - один из самых опасных примеров. Если в исторический universe попадают только те бумаги или токены, которые дожили до сегодняшнего дня, бэктест автоматически становится красивее: в нём исчезают делистинги, банкротства, мёртвые проекты и слабые инструменты, которые когда-то были реальной частью рынка. Для инвестиционных исследований этот эффект подробно задокументирован в академической литературе; в частности, Carhart, Carpenter, Lynch и Musto показывают, что survivorship bias искажает оценки средней доходности и persistence. 8 Для трейдинга смысл тот же: если исторический universe очищен от проигравших задним числом, вы тестируете не рынок, а уже отредактированную историю.

В крипте этот риск часто ещё выше, чем в акциях. Умирают не только отдельные токены, но и торговые пары, биржи, мосты ликвидности и сами режимы котирования. Если брать только сегодняшние ликвидные пары с большой историей, можно получить очень аккуратную картинку рынка, которой в прошлом просто не существовало.

Data cleaning поэтому нельзя считать скучной операционной стадией "после загрузки CSV". Это часть самой модели. Минимальный набор проверок обычно включает:

приведение всех timestamps к единой временной зоне и точности;
учёт торговых сессий, праздников и переходов между regular/extended hours там, где это важно;
корректную обработку corporate actions, переименований, смен тикеров и делистингов;
удаление или маркировку дубликатов, дыр, отрицательных объёмов, невозможных high/low и экстремальных prints;
явную политику по corrections, cancels и пересборке свечей из tick data;
стабильный symbol mapping между market data, фундаменталом, новостями и вашим торговым universe.

Именно на этом этапе становится понятно, является ли набор данных исследовательским convenience layer или основой для production-стратегии. В инструментах вроде ai-trader ценность даёт не количество подключённых API, а воспроизводимый data pipeline: сырые данные, нормализованный слой, проверки качества и возможность заново восстановить любой бэктест на той же версии истории.

Итог

В трейдинге нет "просто данных". Есть слой информации, который соответствует горизонту стратегии, и есть слой, который делает бэктест убедительным, но бесполезным для реального рынка.

OHLCV подходит для многих задач, но скрывает микроструктуру. Tick data и order book нужны там, где деньги теряются или зарабатываются на исполнении. Фундаментальные данные, новости и sentiment полезны только тогда, когда вы понимаете их источник, задержку и способ привязки к торговому universe. А различие между акциями и криптой начинается не с волатильности, а со структуры самих данных: в одном случае важнее filings и corporate actions, в другом - фрагментация venues и качество собственной агрегации.

Поэтому хороший вопрос для трейдера звучит не "где скачать котировки", а "какой именно слой рынка должен видеть мой алгоритм, чтобы его статистика в исследовании не развалилась при встрече с реальным исполнением".