newjordan
diff --git a/‎exp_a/README.md‎
Lines changed: 72 additions & 0 deletions b/‎exp_a/README.md‎
Lines changed: 72 additions & 0 deletions
diff --git a/‎exp_a/run.sh‎
Lines changed: 52 additions & 0 deletions b/‎exp_a/run.sh‎
Lines changed: 52 additions & 0 deletions
diff --git a/‎exp_a/run_sota254.sh‎
Lines changed: 54 additions & 0 deletions b/‎exp_a/run_sota254.sh‎
Lines changed: 54 additions & 0 deletions
diff --git a/‎exp_a/submission.json‎
Lines changed: 11 additions & 0 deletions b/‎exp_a/submission.json‎
Lines changed: 11 additions & 0 deletions
@@ -0,0 +1,72 @@
+# FarnsworthEngine v1: TTT + 11L Int6 MLP3x
+
+**Author:** Farnsworth Tech
+**Date:** 2026-03-20
+**Score:** val_bpb = 1.1303 (seed 1337, seeds 42 and 7 in progress)
+
+## Summary
+
+FarnsworthEngine stacks **Test-Time Training (TTT)** on top of an optimized 11-layer MLP3x Int6 architecture. TTT adapts all model weights to the validation distribution via full-weight SGD before scoring, providing a consistent ~0.02 BPB improvement on top of sliding window evaluation.
+
+## Architecture & Techniques
+
+| Component | Details |
+|-----------|---------|
+| **Layers** | 11 transformer layers, 512 dim, 8 heads, 4 KV heads (GQA) |
+| **MLP** | 3x expansion (hidden=1536), ReLU² activation |
+| **Quantization** | Int6 mixed precision (MLP+attention), Int8 (embeddings), FP16 tied embeddings |
+| **Compression** | zstd-22, artifact 15.88 MB |
+| **SmearGate** | Learned sigmoid token blending gate (~512 params) |
+| **BigramHash** | 2048-bucket hash embedding for token-pair features (dim 128) |
+| **Initialization** | Orthogonal + muP (maximal update parameterization) |
+| **Optimizer** | Muon (WD=0.04, momentum=0.99, warmup 1500 steps, warmdown 3000) |
+| **SWA** | Stochastic Weight Averaging, 7 checkpoint average during warmdown |
+| **Attention** | FlashAttention 3 (Hopper native kernel) |
+| **Position** | NTK-RoPE (base=50000) for long-context extrapolation |
+| **Sequence** | Train@2048, eval@2048 |
+| **TTT** | Full-weight SGD adaptation on val data (lr=0.002, momentum=0.9, 3 epochs) |
+| **Eval** | Sliding window stride=64 with TTT-adapted weights |
+
+## TTT: Test-Time Training
+
+The key innovation is adapting model weights to the validation distribution before scoring:
+
+1. **TTT Adaptation (~43s on 8xH100):** SGD with momentum over val data, 3 epochs, freezing first 2 blocks for stability
+2. **Sliding Window Scoring (~86s on 8xH100):** Standard stride-64 eval using adapted weights
+
+TTT is effectively adaptive compression — similar in spirit to Lempel-Ziv, the model learns the test distribution online before being evaluated on it.
+
+## Results
+
+| Seed | Steps | Step Avg | Pre-TTT BPB | Post-TTT BPB | Sliding BPB |
+|------|-------|----------|-------------|--------------|-------------|
+| 1337 | 7,248 | 81.5ms | 1.1447 | 1.1528 | **1.1303** |
+| 42 | 7,248 | 81.6ms | 1.1449 | 1.1535 | **1.1312** |
+| 7 | 7,353 | 81.6ms | 1.1453 | 1.1547 | **1.1323** |
+| **Mean** | | | | | **1.1313** |
+
+- Artifact size: 15,700,261 bytes (under 16,000,000 limit)
+- Training time: 600s (wallclock cap)
+- Eval time: ~129s (43s TTT + 86s sliding window)
+
+## Reproduction
+
+```bash
+SEED=1337 NUM_LAYERS=11 BIGRAM_VOCAB_SIZE=2048 \
+MUON_WD=0.04 ADAM_WD=0.04 \
+MATRIX_LR=0.025 SCALAR_LR=0.025 TIED_EMBED_LR=0.035 \
+MUON_MOMENTUM=0.99 MUON_MOMENTUM_WARMUP_START=0.92 \
+MUON_MOMENTUM_WARMUP_STEPS=1500 WARMDOWN_ITERS=3000 \
+ITERATIONS=9000 MAX_WALLCLOCK_SECONDS=600 EVAL_STRIDE=64 \
+TTT_ENABLED=1 TTT_LR=0.002 TTT_EPOCHS=3 TTT_MOMENTUM=0.9 \
+torchrun --standalone --nproc_per_node=8 train_gpt.py
+```
+
+## Timing Budget
+
+| Phase | Time | Budget |
+|-------|------|--------|
+| Training | 600s | 600s |
+| TTT | 43s | — |
+| Sliding eval | 86s | — |
+| **Total eval** | **129s** | **600s** |
@@ -0,0 +1,52 @@
+#!/usr/bin/env bash
+set -euo pipefail
+
+# EXP A: Multi-Token Prediction (MTP)
+# Same SOTA base but with MTP_NUM_HEADS=2 during training.
+# MTP heads are excluded from export → zero artifact size cost.
+# Hypothesis: auxiliary future-token prediction loss improves internal representations.
+
+LOGDIR="logs/exp_a_mtp_$(date +%Y%m%d_%H%M%S)"
+mkdir -p "$LOGDIR"
+
+echo "============================================"
+echo "  EXP A: MTP-2 heads on SOTA 254 base"
+echo "  Logs: $LOGDIR"
+echo "============================================"
+
+SEED="${SEED:-1337}" \
+NUM_LAYERS=11 \
+BIGRAM_VOCAB_SIZE=2048 \
+MUON_WD=0.04 \
+ADAM_WD=0.04 \
+MATRIX_LR=0.025 \
+SCALAR_LR=0.025 \
+TIED_EMBED_LR=0.035 \
+MUON_MOMENTUM=0.99 \
+MUON_MOMENTUM_WARMUP_START=0.92 \
+MUON_MOMENTUM_WARMUP_STEPS=1500 \
+WARMDOWN_ITERS=3000 \
+ITERATIONS=9000 \
+MAX_WALLCLOCK_SECONDS=600 \
+EVAL_STRIDE=64 \
+TTT_ENABLED=1 \
+TTT_LR=0.002 \
+TTT_EPOCHS=3 \
+TTT_MOMENTUM=0.9 \
+MTP_NUM_HEADS=2 \
+MTP_LOSS_WEIGHT=0.15 \
+NCCL_IB_DISABLE=1 \
+RUN_ID="exp_a_mtp_s${SEED:-1337}" \
+torchrun --standalone --nproc_per_node="${NPROC:-8}" \
+    exp_a/train_gpt.py \
+    2>&1 | tee "$LOGDIR/run_s${SEED:-1337}.log"
+
+echo ""
+echo "============================================"
+echo "  EXP A Complete."
+echo "============================================"
+f="$LOGDIR/run_s${SEED:-1337}.log"
+for label in int6_roundtrip int6_sliding_window; do
+    bpb=$(grep -oP "final_${label}\S* val_loss:\S+ val_bpb:\K\S+" "$f" 2>/dev/null | tail -1)
+    [ -n "$bpb" ] && echo "  ${label}: $bpb" || true
+done
@@ -0,0 +1,54 @@
+#!/usr/bin/env bash
+set -euo pipefail
+
+# EXACT CLONE of PR #254 — Current best pending SOTA (1.1313 BPB)
+# 11L Int6 MLP3x + SmearGate + BigramHash + TTT SGD 3 epochs
+# Just run it. No modifications.
+
+LOGDIR="logs/sota254_$(date +%Y%m%d_%H%M%S)"
+mkdir -p "$LOGDIR"
+
+echo "============================================"
+echo "  PR #254 EXACT CLONE — 1.1313 BPB target"
+echo "  11L + TTT + SmearGate + BigramHash"
+echo "  Logs: $LOGDIR"
+echo "============================================"
+
+SEED="${SEED:-1337}" \
+NUM_LAYERS=11 \
+BIGRAM_VOCAB_SIZE=2048 \
+MUON_WD=0.04 \
+ADAM_WD=0.04 \
+MATRIX_LR=0.025 \
+SCALAR_LR=0.025 \
+TIED_EMBED_LR=0.035 \
+MUON_MOMENTUM=0.99 \
+MUON_MOMENTUM_WARMUP_START=0.92 \
+MUON_MOMENTUM_WARMUP_STEPS=1500 \
+WARMDOWN_ITERS=3000 \
+ITERATIONS=9000 \
+MAX_WALLCLOCK_SECONDS=600 \
+EVAL_STRIDE=64 \
+TTT_ENABLED=1 \
+TTT_LR=0.002 \
+TTT_EPOCHS=3 \
+TTT_MOMENTUM=0.9 \
+NCCL_IB_DISABLE=1 \
+RUN_ID="sota254_s${SEED:-1337}" \
+torchrun --standalone --nproc_per_node="${NPROC:-8}" \
+    sota254/train_gpt.py \
+    2>&1 | tee "$LOGDIR/run_s${SEED:-1337}.log"
+
+echo ""
+echo "============================================"
+echo "  PR #254 Clone Complete."
+echo "============================================"
+echo "  Target: 1.1313 BPB (3-seed mean)"
+f="$LOGDIR/run_s${SEED:-1337}.log"
+for label in ttt_sliding sliding_window int8_zlib_roundtrip; do
+    bpb=$(grep -oP "final_${label}\S* val_loss:\S+ val_bpb:\K\S+" "$f" 2>/dev/null | tail -1)
+    [ -n "$bpb" ] && echo "  ${label}: $bpb" || true
+done
+steps=$(grep -oP 'stopping_early.*step:\K\d+' "$f" 2>/dev/null | tail -1)
+size=$(grep -oP 'Total submission size\S*: \K\d+' "$f" 2>/dev/null | tail -1)
+echo "  steps=${steps:-N/A} bytes=${size:-N/A}"
@@ -0,0 +1,11 @@
+{
+  "author": "Farnsworth Tech",
+  "github_id": "timowhite88",
+  "name": "FarnsworthEngine v1: TTT + 11L Int6 MLP3x",
+  "blurb": "Test-Time Training (full-weight SGD on val data) stacked on 11L MLP3x Int6 with SmearGate, BigramHash, OrthoInit, Muon WD=0.04, SWA, FA3, NTK-RoPE, FP16 tied embeddings, sliding window eval stride=64.",
+  "date": "2026-03-20",
+  "val_loss": 1.90846763,
+  "val_bpb": 1.13030502,
+  "bytes_total": 15877181,
+  "bytes_code": 68212
+}