Backtesting: Wie man Handelsstrategien richtig testet

Backtesting wirkt oft wie die überzeugendste Phase bei der Entwicklung einer Handelsstrategie: historische Daten laden, Einstiegs- und Ausstiegsregeln ausführen, eine Equity-Kurve erhalten, Rendite und Drawdown berechnen. Wenn die Kurve steigt, liegt der Schluss nahe, dass die Strategie bewiesen ist.

In der Praxis beweist ein Backtest deutlich weniger. Er zeigt, wie sich ein bestimmter Satz von Regeln auf einer bestimmten Version der Vergangenheit verhalten hätte, unter bestimmten Annahmen zu Daten, Gebühren, Ausführung und verfügbarer Liquidität. Das ist ein nützlicher technischer Test einer Hypothese, aber keine Garantie für künftige Handelsergebnisse. Ein guter Backtest ist nicht dazu da, vergangene Renditen schön aussehen zu lassen, sondern um Fragilität zu erkennen, bevor Kapital riskiert wird.

Was Backtesting ist

Backtesting ist das Nachspielen einer Handelslogik auf historischen Daten. In der einfachsten Form beantwortet es die Frage: Was wäre passiert, wenn die Strategie in der Vergangenheit nach vorab definierten Regeln entschieden hätte?

Ein korrekter Backtest besteht aber nicht nur aus einem Signal. Dazu gehören:

das Handelsuniversum: welche Instrumente die Strategie zu jedem Zeitpunkt sehen konnte;
Daten: Kerzen, Trades, Orderbuch, fundamentale Ereignisse, Gebühren, Handelskalender;
Positionsregeln: Größe, Hebel, Stop, Rebalancing, Risikolimits;
Ausführungsmodell: zu welchem Preis und mit welcher Verzögerung eine Order als ausgeführt gilt;
Berechnungsprotokoll: Datenversion, Parameter, Laufdatum, Kennzahlen und Ausnahmen.

Wenn eine dieser Ebenen durch eine bequeme Annahme ersetzt wird, wird das Ergebnis schnell zur Forschungsillustration statt zum Test. Eine Strategie auf Tageskerzen kann zum Beispiel robust wirken, wenn der Einstieg zum Schlusskurs derselben Kerze erfolgt, auf der das Signal entstanden ist. Wenn das Signal in der Realität aber erst nach dem Schlusskurs bekannt ist, nutzt dieser Trade bereits Information aus der Zukunft.

In-sample und out-of-sample

Eine grundlegende Absicherung gegen Selbsttäuschung ist die Trennung der Historie in in-sample und out-of-sample.

In-sample ist der Abschnitt, in dem die Idee formuliert, Parameter gewählt, Filter verglichen und schwache Konfigurationen verworfen werden. Out-of-sample ist ein separater Abschnitt, den die Strategie während der Auswahl nicht gesehen haben sollte. Seine Aufgabe ist nicht zu prüfen, wie gut das Modell die Vergangenheit auswendig gelernt hat, sondern ob sein Verhalten auf neuen Daten erhalten bleibt.

Das Problem ist, dass die formale Trennung allein nicht genügt. Wenn ein Forscher immer wieder zum out-of-sample-Abschnitt zurückkehrt, das Ergebnis betrachtet, Parameter ändert und denselben Zeitraum erneut testet, wird dieser Abschnitt allmählich zu einem zweiten in-sample. Seriöse Forschung braucht deshalb experimentelle Disziplin: die Hypothese vorab festlegen, die Zahl der Versuche begrenzen und die Historie der Läufe speichern.

Für Strategien, die empfindlich auf Marktregime reagieren, wird häufig ein Walk-forward-Ansatz verwendet: Parameter werden in einem Fenster geschätzt, im nächsten getestet, dann wird das Fenster verschoben. Das macht das Ergebnis nicht wahr, bildet aber die Realität besser nach, in der die Strategie immer mit begrenzter Historie und ohne Zugriff auf die Zukunft entscheidet.

Overfitting

Overfitting ist eine Situation, in der eine Strategie zu stark an eine konkrete historische Stichprobe angepasst ist und deshalb schlecht auf neue Daten übertragbar ist. In der Sprache der Modellierung hat sie kein stabiles Muster gelernt, sondern Eigenheiten des bereits gesehenen Zeitraums: zufällige Ausschläge, einen einmaligen Trend, eine bestimmte Reihenfolge von Ereignissen, lokale Liquiditätsanomalien.

Im Backtesting entsteht das meist nicht durch einen groben Fehler, sondern durch eine Reihe kleiner Verbesserungen. Der Forscher ändert die Periode eines Indikators, fügt einen Volatilitätsfilter hinzu, wählt einen anderen Stop, schließt unbequeme Handelszeiten aus, verändert die Instrumentenauswahl, vergleicht Dutzende Varianten und behält diejenige mit dem besten Sharpe, dem geringeren Drawdown oder der schönsten Equity-Kurve. Jeder einzelne Schritt kann rational wirken, aber zusammen können sie Forschung in das Anpassen eines Schlüssels an eine bereits bekannte Geschichte verwandeln.

Wichtig ist: Overfitting ist nicht dasselbe wie seltener Handel. Eine Strategie kann wenige Trades machen und trotzdem korrekt sein, wenn ihre Logik tatsächlich auf seltene Ereignisse ausgelegt ist. Das Problem liegt nicht in der Anzahl der Trades an sich, sondern darin, dass man nach vielen Versuchen eine Variante auswählen kann, die zufällig fast perfekt zur Vergangenheit passt. Ein solcher Backtest beantwortet die Frage "was passte am besten zu dieser Historie", nicht "was wird mit hoher Wahrscheinlichkeit außerhalb davon bestehen".

Bailey, Borwein, López de Prado und Zhu beschreiben dieses Problem als probability of backtest overfitting: Je mehr Strategien und Parameter auf derselben Historie getestet werden, desto höher ist die Chance, eine statistische Illusion auszuwählen, die den Live-Handel nicht übersteht. 1 Deshalb sollte man nicht nur auf das beste Ergebnis schauen, sondern auch auf die Verteilung der Ergebnisse darum herum. Wenn eine Strategie nur in einem engen Parameterbereich funktioniert und benachbarte Werte die PnL schnell zerstören, ist das ein Zeichen von Fragilität, nicht von präziser Abstimmung.

Look-ahead bias und survivorship bias

Zwei Fehler sind besonders gefährlich, weil sie in der finalen Equity-Kurve oft nicht direkt sichtbar sind.

Look-ahead bias bedeutet, dass Informationen verwendet werden, die zum Zeitpunkt des Trades noch nicht verfügbar waren. Das beschränkt sich nicht auf den offensichtlichen Fall, "den Preis von morgen zu kennen". Es reicht, das Tageshoch oder Tagestief für eine Intraday-Entscheidung zu verwenden, später revidierte Fundamentaldaten einzusetzen, die endgültige Indexzusammensetzung auf frühere Perioden anzuwenden oder Merkmale über die gesamte Historie auf einmal zu normalisieren. Das Ergebnis kann sauber aussehen, aber die Strategie handelt mit Zugriff auf die Zukunft.

Survivorship bias ist eine andere Form der Bearbeitung der Vergangenheit. Wenn im Test nur Instrumente enthalten sind, die bis heute überlebt haben, verschwinden Insolvenzen, Delistings, tote Token, geschlossene Paare und gescheiterte Märkte aus der Historie. Forschung zu Mutual Funds zeigt, dass survivorship bias Schätzungen durchschnittlicher Renditen und ihrer Persistenz deutlich verzerren kann. 2 In Krypto ist dieses Risiko oft noch gröber: Nicht nur einzelne Assets verschwinden, sondern auch Börsen, Paare, Liquiditätsbrücken und ganze Marktregime.

Ein ehrlicher Backtest sollte mit einem point-in-time universe arbeiten: Die Strategie sieht nur die Instrumente und Daten, die zum Entscheidungszeitpunkt tatsächlich existierten. Das ist technisch schwieriger, aber ohne diese Anforderung beantwortet der Test oft die Frage: "Wie hätte die Strategie gehandelt, wenn sie schon vorher gewusst hätte, wer überlebt?"

Transaction costs, slippage und latency

Eine saubere Equity-Kurve ohne Kosten überschätzt eine Strategie fast immer. Das gilt besonders, wenn das System häufig handelt, mit kleinem Edge arbeitet oder Market Orders nutzt.

Transaction costs umfassen Börsengebühren, Brokergebühren, Funding, Borrow Costs, Spread und andere direkte Kosten. In Krypto hängen Gebühren selbst innerhalb einer einzelnen Börse von Maker/Taker-Status, Symbol, Account-Stufe und Sonderbedingungen ab; Binance dokumentiert zum Beispiel separat die Gebührentypen und die Berechnung von commission rates. 3 Wenn ein Backtest "der Einfachheit halber" mit null Gebühren rechnet, testet er nicht den Markt, sondern eine ideale Umgebung ohne Reibung.

Slippage ist die Differenz zwischen dem erwarteten Handelspreis und dem tatsächlichen Ausführungspreis. Sie entsteht durch Spread, unzureichende Tiefe, Preisbewegung während der Ausführung und Market Impact. Bei einer kleinen Order in einem liquiden Paar kann Slippage fast unsichtbar sein. Bei einer großen Order oder einem dünnen Orderbuch kann sie den gesamten erwarteten Edge aufzehren.

Latency ist die Verzögerung zwischen Signalentstehung, Orderversand und Verarbeitung durch den Handelsplatz. Für mittelfristige Strategien kann sie zweitrangig sein, aber bei Intraday, Arbitrage und Market Making verändert Latenz den Charakter des Tests. Wenn der Backtest sofortige Ausführung zum besten Preis annimmt, während das Live-System das Orderbuch per WebSocket erhält, das Signal verarbeitet, Risk Checks durchläuft und erst dann die Order sendet, muss das Ergebnis bereits Zeit und Queue Position berücksichtigen. Börsendokumentation zu WebSocket-Streams zeigt, dass Marktdaten in der Realität als Strom von Trades und Orderbuch-Updates eintreffen, nicht als perfekte fertige Kerze. 4

Paper trading

Paper trading ist als Zwischenschicht zwischen Backtest und realem Handel nützlich. Es prüft, ob die Strategie nach Zeitplan läuft, Daten erhält, Signale erzeugt, Orders erstellt, Logs schreibt, Neustarts übersteht und die PnL in einem nahezu live laufenden Modus korrekt berechnet.

Paper trading ist aber nicht dasselbe wie Handel mit Kapital. In einer Simulation gibt es keinen realen Einfluss der Order auf den Markt, keine Teilausführung in einem dünnen Orderbuch, keine Ablehnung wegen einer plötzlichen Margin-Änderung, keinen psychologischen Druck und oft nicht dieselbe Warteschlange, in der eine echte Order stehen würde. FINRA betont in der vorgeschriebenen Risikoaufklärung für Day Trading ausdrücklich, dass aktiver Handel extrem riskant sein kann und die Bereitschaft zu erheblichen Verlusten voraussetzt. 5 Paper trading hilft, die Mechanik zu prüfen, aber es beseitigt diese Risiken nicht.

Die richtige Rolle von paper trading ist daher nicht der "letzte Beweis der Profitabilität", sondern eine Probe des Produktionssystems: Daten, Timing, Orders, Limits, Monitoring und Notfallstopps.

Warum ein Backtest nicht realer Handel ist

Ein Backtest arbeitet mit der Vergangenheit, realer Handel findet in der Zukunft statt, wo sich Liquidität, Wettbewerb, Volatilität, Gebühren, Regulierung und Verhalten der Teilnehmer verändern. Selbst wenn der historische Test ehrlich gebaut wurde, bleibt er ein Modell.

Die wichtigsten Gründe für Abweichungen sind meist:

der Markt wechselt das Regime, und das in der Historie gefundene Muster funktioniert nicht mehr;
Forschungsdaten sind sauberer und vollständiger als Live-Daten;
die Ausführung im Test ist einfacher als reales Order Routing, Spread, Queue Position und Teilausführungen;
die Strategie skaliert schlechter, als es bei kleinem Volumen scheint;
Gebühren, Funding, Borrow Costs und Slippage ändern sich über die Zeit;
nach dem Start ändert der Autor sein Verhalten: Abschalten nach einem Drawdown, manuelle Regeländerungen, Ausweitung des Risikos, selektives Stoppen von Trades;
Wettbewerber finden dieselbe Anomalie, und der Edge schrumpft.

Deshalb betrachten Regulierer und Börsenregeln automatisierten Handel nicht nur als "Signalalgorithmus", sondern als System mit Kontrollen, Limits, Monitoring und Verfahren für Störungen. Die ESMA-Guidelines für automated trading beschreiben gesondert Anforderungen an Systeme, pre-trade und post-trade controls, Resilienz und Risikomanagement. 6 Für Entwickler von Strategien ist der Schluss klar: Ein Backtest ist nur eine Ebene der Prüfung, nicht das ganze System.

Was einen guten Backtest ausmacht

Ein guter Backtest muss nicht die maximale Rendite zeigen. Er sollte reproduzierbar, konservativ und streng genug sein, damit eine schwache Strategie nicht nur wegen bequemer Annahmen besteht.

Mindestmerkmale:

die Strategieregeln sind vor dem finalen Test festgelegt und werden nicht nach Sichtung des Ergebnisses umgeschrieben;
die Daten sind point-in-time: keine zukünftigen Corporate Actions, keine zukünftige Universe-Zusammensetzung und keine rückwirkend neu berechneten Merkmale;
in-sample und out-of-sample sind getrennt, und out-of-sample wird nicht als endloses Feld zur Parameteroptimierung benutzt;
Gebühren, Spread, Slippage, Funding und Latency sind mindestens in einem konservativen Modell enthalten;
Parameter werden auf Robustheit geprüft: benachbarte Werte sollten die Strategie nicht vollständig zerstören;
Kennzahlen umfassen nicht nur CAGR, sondern auch max drawdown, volatility, Sharpe/Sortino, turnover, hit rate, tail losses und Erholungsdauer;
der Test zeigt Verhalten über Marktregime hinweg, nicht nur einen finalen Chart;
Versionen von Daten, Code und Parametern bleiben erhalten, damit das Ergebnis reproduziert werden kann.

Für Werkzeuge wie ai-trader liegt der Wert einer Backtesting-Schicht genau darin: nicht in einer schönen Equity-Kurve, sondern in einem reproduzierbaren Prozess, in dem Signal, Daten, Risikolimits, Kosten und Live-Prüfungen zu einem überprüfbaren System verbunden sind.

Fazit

Backtesting soll keinen künftigen Gewinn beweisen. Es soll Strategien, die zumindest einen ehrlichen historischen Test überstehen, von Strategien trennen, die von Datenfehlern, Überoptimierung und unrealistischer Ausführung abhängen.

Ein guter Backtest ist immer ein wenig enttäuschend: Er fügt Gebühren hinzu, verschlechtert perfekte Einstiege durch Slippage, verbietet den Blick in die Zukunft, bringt gestorbene Instrumente zurück in die Historie und zeigt Drawdowns, die man lieber nicht sehen möchte. Genau deshalb ist er nützlich. Je früher eine Strategie im Test bricht, desto billiger ist dieser Bruch vor dem realen Handel.