GraphWalks BFS Leaderboard 2026 — Results Across 3 Real AI Models

GraphWalks BFS leaderboard

GraphWalks BFS

3 models tested · Updated 2026-04-07 · Verified sources only

      Claude Mythos Preview leads at 80.0%
    

Anthropic · Blog/Anthropic · 2026-04-07

Long-context graph reasoning (256K-1M). 2x over Opus 4.6 (38.7%). GPT-5.4 scored 21.4%.

80.0%

Anthropic · arxiv/Mythos-System-Card · 2026-04-07

BFS 256K-1M context. Well above GPT-5.4 (21.4%).

38.7%

BFS 256K-1M context. Well below Claude Opus (38.7%) and Claude Mythos (80.0%).

21.4%