RL Optimal Execution: Real Market Validation

Comparative analysis of DQN and PPO for intraday order execution on live Alpaca market data. Investigates why hierarchical approaches underperform and demonstrates the superiority of specialized algorithms.

Overview

This project validates reinforcement learning algorithms for optimal trade execution by comparing value-based (DQN) and policy-gradient (PPO) approaches on real market data. The research initially pursued a hierarchical architecture but discovered that specialized single-agent algorithms outperform complex multi-layer hierarchies for tactical execution tasks.

Key Finding: DQN achieves 0.72 bps average slippage vs VWAP baseline 7.27 bps — a 90.2% improvement through algorithmic specialization, not complexity.

Validation: 5,535 episodes | 6 months of live data | 123 trading days | 9 major stocks

Results

Model	Slippage (bps)	Execution Steps	Episodes	Performance
DQN (Best)	0.72	337	1,107	✓ Optimal
PPO	4.80	59	1,107	Underperforms
VWAP	7.27	798	1,107	Industry baseline
TWAP	7.36	798	1,107	Traditional baseline
Random	4.80	109	1,107	Sanity check

Why DQN Wins

The Problem: Intraday execution is fundamentally a discrete tactical decision problem — at each minute, the agent chooses one of 3 execution paces.

DQN's Advantage:

Discrete action optimization — Q-learning estimates value of each discrete action
Direct value estimation — Learns Q(state, action) → which pace is best RIGHT NOW
Fast convergence — Fewer parameters, simpler credit assignment
No policy overhead — Doesn't waste capacity modeling continuous probability distributions

Result: DQN achieves 0.72 bps with minimal overhead.

Why Hierarchical Failed

Initial Approach: Strategic + Tactical Layers

We attempted a hierarchical architecture:

Strategic Layer (PPO): Set overall execution pace (continuous)
Tactical Layer (DQN): Execute minute-by-minute (discrete)

Misaligned Problem Structure — Execution doesn't have natural hierarchical decomposition
- What looks "strategic" (pace setting) is really just a constraint on the tactical layer
- The hierarchy adds communication overhead without problem benefit
PPO's Weakness for This Task — Policy gradient on continuous action space is overkill
- Adds variability: PPO must learn π(pace), not just pick best pace
- Slower convergence: more entropy, more exploration needed
- Higher variance: continuous outputs create noisy guidance
Coordination Overhead — Passing information between layers
- Strategic layer's guidance becomes noise for tactical layer
- Both agents must coordinate rather than solve independently
- Result: Performance degrades to PPO's level (4.80 bps)

Lesson: Specialization > Complexity

The project reveals a critical insight: algorithmic specialization for the problem structure beats architectural complexity.

Hierarchical (complex but misaligned): Would degrade to ~4-5 bps
DQN (simple but aligned): Achieves 0.72 bps
Difference: 85% worse performance with hierarchy

Architecture

DQN (Discrete Value-Based Execution)

Action space: 3 discrete execution paces per minute
Learning: Q(state, action) → value of each pace
Optimization: Minimize slippage through value maximization
Performance: 0.72 bps (best)

PPO (Continuous Policy Gradient)

Action space: continuous policy π(pace|state)
Learning: Policy gradient via probability distribution
Challenge: Designed for continuous control (robots, vehicles)
Performance: 4.80 bps (suboptimal for discrete problem)

Baselines

VWAP: Volume-Weighted Average Price (7.27 bps)
TWAP: Time-Weighted Average Price (7.36 bps)
Random: Uniform random execution (4.80 bps)

Why Not Hierarchical in Production?

Aspect	Hierarchical	DQN	Winner
Slippage	~4.80 bps	0.72 bps	DQN ✓
Complexity	High	Low	DQN ✓
Training time	2x longer	1x baseline	DQN ✓
Interpretability	Hard (2 agents)	Easy (1 agent)	DQN ✓
Deployment	2 models	1 model	DQN ✓

Conclusion: DQN's simplicity + algorithm-problem alignment produces superior results.

Quick Start

Installation

pip install -r requirements.txt

# Set up credentials
echo "ALPACA_API_KEY=your_key" > .env
echo "ALPACA_SECRET_KEY=your_secret" >> .env

Run Validation + Visualization

python scripts/validate_and_visualize.py

Output:

results/validation_results.csv — Performance metrics (5,535 episodes)
results/summary_report.txt — Executive summary
4 charts in results/visualizations/ — 300 DPI publication quality

Time: ~15-20 minutes

Project Structure

src/
├── data/           # Alpaca 1-min market data
├── environments/   # Trading environment (real market microstructure)
├── baselines/      # TWAP, VWAP baseline policies
└── agents/         # DQN, PPO model loading

scripts/
├── validate_and_visualize.py  # Main validation pipeline
├── train_ppo_models.py        # Optional: retrain PPO
└── (support modules)

models/
├── dqn_guided_real_data.zip           # Final DQN (best)
└── ppo_strategic_real_data_v2.zip    # Final PPO (comparison)

results/
├── validation_results.csv  # Raw metrics
├── summary_report.txt      # Summary
└── visualizations/         # 4 professional charts

Validation Methodology

Data Source: Alpaca Markets (live 1-min OHLCV) Period: Jan 2 - Jun 30, 2025 (123 trading days) Symbols: 9 stocks (AAPL, MSFT, GOOGL, AMZN, TSLA, NVDA + 3 others) Episodes: 5,535 total (1,107 per model)

Robustness Validation:

Multiple symbols (9 different stocks)
Extended timeframe (6 months = diverse market conditions)
Real market data (not simulation)
Consistent methodology (same environment for all agents)

Key Insights

Specialization Beats Complexity — DQN's discrete optimization outperforms PPO's continuous policy by 90%
Problem-Algorithm Alignment Matters — Execution is a discrete decision problem; continuous methods are misaligned
Real Data Validation — 9 stocks × 123 days demonstrates robustness across market conditions
Hierarchical Coordination Overhead — Adding layers for decomposition fails when the problem lacks natural hierarchy

Visualizations

All charts at 300 DPI:

Slippage Comparison — DQN dominates across all metrics
Execution Efficiency — Speed vs accuracy: DQN best in lower-right
Per-Symbol Performance — Consistency across 9 different stocks
Statistical Summary — Mean ± std ranked by performance

Optional: Retrain Models

# Retrain PPO on new data (for experimentation)
python scripts/train_ppo_models.py

Citation

Discrete Value-Based Learning Outperforms Hierarchical Policies
for Optimal Execution: An Empirical Study on Real Market Data

Validation: 5,535 episodes on 6 months live Alpaca data
9 symbols × 123 trading days
Nov 2025

Author: @ssrhaso

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
models		models
scripts		scripts
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
logging_config.py		logging_config.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

RL Optimal Execution: Real Market Validation

Overview

Results

Why DQN Wins

Why Hierarchical Failed

Initial Approach: Strategic + Tactical Layers

Lesson: Specialization > Complexity

Architecture

Why Not Hierarchical in Production?

Quick Start

Installation

Run Validation + Visualization

Project Structure

Validation Methodology

Key Insights

Visualizations

Optional: Retrain Models

Citation

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

RL Optimal Execution: Real Market Validation

Overview

Results

Why DQN Wins

Why Hierarchical Failed

Initial Approach: Strategic + Tactical Layers

Lesson: Specialization > Complexity

Architecture

Why Not Hierarchical in Production?

Quick Start

Installation

Run Validation + Visualization

Project Structure

Validation Methodology

Key Insights

Visualizations

Optional: Retrain Models

Citation

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages