Daten im Trading: welche Daten verwendet werden und woher man sie bekommt

Im algorithmischen Trading kommt die Frage "Woher bekommen wir die Daten?" meist zu spaet. Zuerst steht die Idee, dann beginnt die Suche nach Kursreihen, dann wird der Backtest gestartet und erst danach zeigt sich, dass die Strategie in der Realitaet auf andere Daten angewiesen ist als auf jene, die im Research verwendet wurden. Das Ergebnis ist ein System, das auf dem Chart ueberzeugend aussehen kann und zugleich fuer die echte Ausfuehrung untauglich ist.

Das Problem ist, dass "Marktdaten" keine einheitliche Groesse sind. Candles, Ticks, Order-Book-Daten, Unternehmensberichte, Nachrichten und Sentiment sind verschiedene Informationsebenen mit unterschiedlicher Aktualisierungsgeschwindigkeit, Fehlerstruktur und Speicherkosten. Welche Ebene eine Strategie nutzt, bestimmt nicht nur das Signal, sondern auch, welche Verzerrungen ins Modell gelangen, wie Slippage berechnet wird und wie ehrlich der Backtest am Ende ist.

OHLCV: die am leichtesten zugaengliche Ebene, aber nicht die neutralste

OHLCV steht fuer Open, High, Low, Close und Volume ueber ein gewaehltes Intervall. Diese Daten sind praktisch, weil sie kompakt, leicht verfuegbar und fuer viele Aufgaben geeignet sind: Marktregime-Filter, mittelfristige Strategien, Volatilitaetsschaetzungen, Portfolio-Research und einfache Intraday-Modelle, die auf Bar-Schlusskursen arbeiten.

Aber eine Candle ist bereits eine starke Verdichtung des Marktes. Innerhalb einer einzelnen Bar geht die Reihenfolge der Trades verloren, man weiss nicht, ob zuerst das Hoch oder das Tief erreicht wurde, man sieht weder die Struktur des Spreads noch die Queue im Buch, und der tatsaechliche Preispfad innerhalb des Intervalls laesst sich nicht sauber rekonstruieren. Deshalb beantwortet OHLCV die Frage "Wie hat sich das Instrument im Durchschnitt bewegt?" recht gut, die Frage "Haette sich der Trade wirklich zu diesem Preis und in genau der Reihenfolge ausfuehren lassen, die der Backtest unterstellt?" aber deutlich schlechter.

Das ist eine wichtige Grenze. Wenn eine Strategie einmal pro Tag oder pro Stunde entscheidet und nicht empfindlich auf Markt-Mikrostruktur reagiert, reicht OHLCV oft aus. Wenn das Modell jedoch davon abhaengt, wie der Preis innerhalb der Bar durch ein Niveau lief, wie schnell sich der Spread zusammenzog oder wie viel Liquiditaet auf den besten Preisen stand, dann verbergen Candles bereits genau jene Information, von der die Idee lebt.

Tick Data und Order Book: wenn Mikrostruktur entscheidend wird

Tick Data ist der Strom einzelner Marktereignisse: Trades, Quotes oder Veraenderungen von Quotes. Diese Ebene ist dort noetig, wo eine Strategie innerhalb des Handelstags lebt und empfindlich auf die Reihenfolge von Ereignissen reagiert: kurzfristige Alpha-Modelle, Execution-Algorithmen, Slippage-Schaetzungen, newsgetriebene Momentum-Modelle oder Berechnungen der Realized Volatility auf hohen Frequenzen.

Das Order Book fuegt die naechste Detailebene hinzu: nicht nur die Tatsache, dass ein Trade stattgefunden hat, sondern die Struktur der verfuegbaren Liquiditaet auf Bid und Ask und ihre Veraenderung im Zeitverlauf. Im US-Aktienmarkt enthalten direkte Boersenfeeds wie Nasdaq TotalView-ITCH echte Ereignisse auf Order-Ebene: Eingaben, Ausfuehrungen, Stornierungen und Ersetzungen. 1 Im Kryptomarkt wird dieselbe Logik meist ueber einen Depth-Snapshot und einen Delta-Stream via WebSocket oder REST/WebSocket-API des jeweiligen Venue umgesetzt. Binance stellt etwa getrennte Endpunkte fuer Depth, Recent Trades, Historical Trades und Klines bereit; Coinbase stellt die Kanaele level2, market_trades und candles bereit. 2

Der praktische Nutzen dieser zusaetzlichen Details ist simpel: Man kann nicht nur die Richtung, sondern auch die Qualitaet der Ausfuehrung modellieren. Das ist entscheidend fuer Market Making, Arbitrage, Intraday-Momentum und alle Systeme, bei denen die endgueltige PnL weniger vom Signal selbst abhaengt als von Queue-Position, Spread, Stornierungsdynamik und tatsaechlich verfuegbarer Liquiditaet.

Diese Genauigkeit hat allerdings einen realen Preis. Tick Data und besonders Order-Book-Daten benoetigen mehr Speicherplatz, sind schwieriger zu normalisieren, enthalten haeufiger Luecken und technische Ereignisse und sind viel staerker an ein konkretes Venue gebunden. Die Frage lautet also nicht "Ist das Order Book besser als OHLCV?", sondern "Verdient die Strategie ihren Edge tatsaechlich mit Information, die in einer Candle gar nicht vorhanden ist?"

Fundamentaldaten, Nachrichten und Sentiment: der Markt jenseits des Tapes

Nicht jede Strategie baut nur auf dem Markt als Folge von Preisen auf. Bei Aktien meinen Fundamentaldaten Finanzberichte, Bilanzpositionen, Umsatz, Margen, Verschuldung, Guidance und andere Unternehmenskennzahlen, die nicht die Mikrosekunden-Ausfuehrung, sondern die Neubewertung eines Unternehmens im Zeitverlauf beeinflussen. Die SEC stellt ueber die EDGAR-API direkten programmatischen Zugriff auf Filings und XBRL-Daten bereit, darunter Submission History, Company Facts und verwandte Strukturen, die in Echtzeit aktualisiert werden, sobald neue Offenlegungen veroeffentlicht werden. 4

Aus derselben Ebene entstehen auch "Nachrichten" im strengeren Sinn. Fuer systematische Arbeit ist oft nicht ein allgemeiner Schlagzeilenstrom am wertvollsten, sondern primaere Offenlegungen: 8-Ks, 10-Ks, 10-Qs, Pressemitteilungen des Emittenten und Boersenmitteilungen. Im Verstaendnis der SEC ist Form 8-K ein Current Report ueber wesentliche Ereignisse, von denen Investoren schnell erfahren sollen - nicht erst, nachdem sie vom Medienstrom nacherzaehlt wurden. 5 Fuer event-driven Strategien ist der Unterschied zwischen primaerer Quelle und sekundaerer Nacherzaehlung oft wichtiger als jede Feinheit des NLP-Modells.

Sentiment-Daten sollte man vorsichtig behandeln. Es handelt sich nicht um einen magischen Stimmungsindikator, sondern um eine abgeleitete Schicht von Merkmalen, die aus Nachrichtentexten, Research Notes, Transcripts, sozialen Medien oder Foren extrahiert wird. Die akademische Literatur zeigt durchaus, dass der Ton medialer Berichterstattung mit Kursbewegungen und Handelsvolumen zusammenhaengen kann; die Arbeit von Paul Tetlock zur Rolle der Medien am Aktienmarkt ist ein klassisches Beispiel. 6 In der Praxis des Tradings ist Sentiment jedoch meist am nuetzlichsten als schwaches Zusatzsignal oder Regimefilter, nicht als eigenstaendige Quelle von Edge.

Crypto vs. Stocks: aehnliche Begriffe, unterschiedliche Datenstrukturen

Auf der Ebene der Begriffe sehen sich die Maerkte aehnlich: Beide haben Candles, Trades, Order-Book-Daten und Nachrichten. Auf der Ebene der Infrastruktur reichen die Unterschiede jedoch deutlich tiefer.

Im Aktienmarkt gibt es ein formalisiertes Regime fuer Marktdaten, Corporate Actions und Offenlegungen. Es existiert ein regulatorischer Rahmen fuer konsolidierte Marktdaten, offizielle Filings, Emittenten-Ticker, Corporate Actions und Boersensitzungskalender. In ihren Regeln zur Market Data Infrastructure beschreibt die SEC explizit das System zur Sammlung, Konsolidierung und Verbreitung von Daten fuer NMS-Aktien. 7 Deshalb drehen sich die zentralen Engineering-Aufgaben bei Equity-Daten um korrekte Adjustments, den Umgang mit Delistings, die Normalisierung von Corporate Actions und ein praezises Mapping zwischen Ticker, CUSIP/CIK und Handelssitzung.

Krypto ist in der Regel staerker fragmentiert. Es gibt kein einziges offizielles Consolidated Tape, der Handel laeuft rund um die Uhr, Symbole unterscheiden sich von Venue zu Venue, und dasselbe Paar kann je nach Handelsplatz unterschiedliche Tiefe, Gebuehrenstrukturen und spuerrbar andere Mikrostruktur haben. Die Quelle fuer OHLCV, Tick-Historie und Order-Book-Daten ist daher meist venue-nativ: Entweder man bezieht die Daten direkt von der konkreten Boerse oder von einem Aggregator, der die Zusammenfuehrungsentscheidungen bereits fuer einen getroffen hat. 2

Es gibt auch einen inhaltlichen Unterschied darin, was "Fundamentaldaten" bedeutet. Bei Aktien sind Fundamentals die Finanzlage des Emittenten und seine Unternehmensereignisse. Bei Krypto-Assets meint "fundamental" haeufiger Tokenomics, Unlock Schedules, Emission, On-Chain-Aktivitaet, Netzwerkgebuehren, Validatorenaktivitaet, Treasury-Wallet-Fluesse und die Abhaengigkeit von einem konkreten Protokoll. Mit anderen Worten: Das Objekt der Analyse ist ein anderes. Statt eines Unternehmens mit regelmaessiger Offenlegung hat man oft ein Netzwerk, einen Token und einen Satz oeffentlicher, aber heterogener Datenquellen.

Woher man die Daten in der Praxis bekommt

Die verlaesslichste Regel ist einfach: Wenn moeglich, die Daten so nah wie moeglich an der primaeren Quelle beziehen.

Bei Marktdaten bedeutet das Boersenfeeds und offizielle APIs. Fuer Aktien sind das direkte oder konsolidierte Feeds, historische Archive und offizielle Spezifikationen der Boersennachrichten. Fuer Krypto sind es die REST- und WebSocket-APIs des konkreten Venue, wenn die Strategie empfindlich auf Venue-Verhalten reagiert. Fuer Fundamentaldaten bei Aktien sind es SEC EDGAR und XBRL. Fuer Event-Daten sind es primaere Corporate Disclosures und Boersenankuendigungen. 1 3 5

Zwischengeschaltete Vendoren und Aggregatoren sind ebenfalls nuetzlich, aber sie haben immer einen Preis der Abstraktion. Sie beschleunigen das Research, liefern ein einheitliches Format ueber viele Maerkte hinweg und nehmen einen Teil der Infrastrukturarbeit ab, treffen dafuer aber auch Entscheidungen an Ihrer Stelle: wie Trades aggregiert werden, wie Candles gebaut werden, wie das Buch rekonstruiert wird, wie Corrections markiert werden und wie Delistings und Umbenennungen behandelt werden. Fuer mittelfristige Modelle ist das oft ein vernuenftiger Kompromiss. Fuer execution-sensitive Strategien kann es bedeuten, einen wichtigen Teil der Realitaet zu verlieren.

In der Praxis sieht die Wahl meist so aus:

Fuer taegliche und stuendliche Modelle koennen OHLCV und Corporate Data von einem verlaesslichen Aggregator oder aus offiziellen Archiven kommen, sofern Adjustments und Kalender geprueft wurden.
Fuer Intraday-Strategien auf Basis von Trades und Order Book ist es besser, entweder direkte historische Feeds oder eine eigene Market-Data-Aufzeichnung zu haben, damit man nicht raten muss, wie der Anbieter den Ereignisstrom rekonstruiert hat.
Bei event-driven und cross-sectional Modellen liegt der Wert oft weniger in "je mehr Quellen, desto besser" als in Disziplin bei Timestamps, Symbol Mapping und der Verknuepfung zwischen Ereignis und Trading Universe.

Datenqualitaet, Survivorship Bias und Data Cleaning

Die meisten Fehler einer Strategie entstehen nicht in der Signalfunktion, sondern in Daten, die "fast richtig" aussehen. Dasselbe Modell kann profitabel oder unprofitabel werden, nur weil Candles auf unterschiedlichen Sitzungen aufgebaut wurden, Corporate Actions nur teilweise eingerechnet sind oder Outlier Prints nicht herausgefiltert wurden.

Survivorship Bias ist eines der gefaehrlichsten Beispiele. Wenn das historische Universe nur jene Aktien oder Token enthaelt, die bis heute ueberlebt haben, wird der Backtest automatisch schoener: Delistings, Insolvenzen, tote Projekte und schwache Instrumente verschwinden aus der Historie, obwohl sie einst realer Teil des Marktes waren. In der Investmentforschung ist dieser Effekt in der akademischen Literatur gut dokumentiert; Carhart, Carpenter, Lynch und Musto zeigen beispielsweise, dass Survivorship Bias Schaetzungen der durchschnittlichen Performance und Persistence verzerrt. 8 Die Logik ist im Trading dieselbe: Wenn das historische Universe nachtraeglich von Verlierern bereinigt wurde, testet man nicht den Markt, sondern eine editierte Version der Geschichte.

In Krypto ist dieses Risiko haeufig noch hoeher als bei Aktien. Nicht nur einzelne Token sterben, sondern auch Handelspaare, Boersen, Liquiditaetsbruecken und ganze Quotierungsregime. Wer nur auf heutige liquide Paare mit langer Historie schaut, kann am Ende ein sehr sauberes Bild eines Marktes erhalten, der in dieser Form in der Vergangenheit nie existiert hat.

Deshalb sollte man Data Cleaning nicht als langweilige operative Phase betrachten, die nach dem Laden einer CSV beginnt. Es ist Teil des Modells selbst. Eine minimale Checkliste umfasst in der Regel:

die Vereinheitlichung aller Timestamps auf eine einzige Zeitzone und Praezision;
die Beruecksichtigung von Handelssitzungen, Feiertagen und Uebergaengen zwischen Regular und Extended Hours, wo das relevant ist;
den korrekten Umgang mit Corporate Actions, Umbenennungen, Tickerwechseln und Delistings;
das Entfernen oder Markieren von Duplikaten, Luecken, negativen Volumina, unmoeglichen Hochs und Tiefs sowie extremen Prints;
eine explizite Policy fuer Corrections, Cancels und den Wiederaufbau von Candles aus Tick Data;
ein stabiles Symbol Mapping zwischen Marktdaten, Fundamentals, Nachrichten und dem eigenen Trading Universe.

An genau diesem Punkt zeigt sich, ob ein Datensatz nur eine bequeme Research-Schicht oder die Grundlage einer Production-Strategie ist. In Werkzeugen wie ai-trader entsteht der Wert nicht durch die Anzahl angeschlossener APIs, sondern durch eine reproduzierbare Data Pipeline: Rohdaten, eine normalisierte Schicht, Qualitaetspruefungen und die Moeglichkeit, jeden Backtest aus derselben historischen Version erneut aufzubauen.

Fazit

Im Trading gibt es keine "einfachen Daten". Es gibt eine Informationsebene, die zum Horizont der Strategie passt, und es gibt eine Ebene, die einen Backtest ueberzeugend aussehen laesst, fuer den realen Markt aber nutzlos ist.

OHLCV reicht fuer viele Aufgaben, verbirgt aber die Mikrostruktur. Tick Data und Order-Book-Daten werden dort noetig, wo Geld in der Ausfuehrung verdient oder verloren wird. Fundamentaldaten, Nachrichten und Sentiment werden erst dann nuetzlich, wenn Quelle, Latenz und Mapping in das Trading Universe verstanden sind. Und der eigentliche Unterschied zwischen Aktien und Krypto beginnt nicht bei der Volatilitaet, sondern bei der Struktur der Daten selbst: Im einen Fall zaehlen Filings und Corporate Actions staerker, im anderen die Fragmentierung der Venues und die Qualitaet der eigenen Aggregation.

Die bessere Frage fuer einen Trader lautet deshalb nicht "Wo kann ich Kurse herunterladen?", sondern "Welche konkrete Schicht des Marktes muss mein Algorithmus sehen, damit seine Statistik im Research nicht in sich zusammenfaellt, sobald sie auf reale Ausfuehrung trifft?"