Aider Polyglot Leaderboard 2026 — Results Across 12 Real AI Models

Aider Polyglot leaderboard

Aider Polyglot

12 models tested · Updated 2025-08-07 · Verified sources only

      GPT-5 leads at 88.0%
    

GPT-5

OpenAI · aider.chat/leaderboard · 2025-08-07

Top score on 225 Exercism exercises across 6 languages. Uses high reasoning setting.

88.0%

o3-pro

OpenAI · aider.chat/leaderboard · 2025-06-10

Second highest on Aider polyglot. High reasoning mode.

84.9%

Gemini 2.5 Pro

Google · aider.chat/leaderboard · 2025-03-25

Third on Aider polyglot with 32k think budget.

83.1%

OpenAI · Aider/aider.chat · 2025-06-25

o3 high reasoning effort matches GPT-5 low at 81.3%. Cost $21 vs GPT-5 low at $10.

81.3%

GPT-5

OpenAI · Aider/aider.chat · 2025-08-25

GPT-5 at low reasoning effort. Full effort hits 88%. Cost only $10 at low effort.

81.3%

Grok 4

xAI · Aider.chat Leaderboard · 2026-04-01

Fourth on Aider polyglot leaderboard. Strong multi-language code editing.

79.6%

Claude Opus 4.7

Anthropic · Blog/Anthropic · 2026-04-16

Up 7pp from Opus 4.6 (72.0%). Strong multi-language code editing.

79.0%

DeepSeek V3.2 Exp (Reasoner)

DeepSeek · Aider/aider.chat leaderboard · 2025-12-01

Best open-weight Aider Polyglot score. 22x cheaper than GPT-5 per run. Evaluated by aider.chat leaderboard on 225 Exercism exercises.

74.2%

Claude Opus 4.6

Anthropic · aider.chat/leaderboard · 2026-02-05

32k thinking budget. Gap to GPT-5 highlights agentic coding is Anthropic weakness vs OpenAI.

72.0%

DeepSeek V3.2 Exp (Chat)

DeepSeek · Aider/aider.chat leaderboard · 2025-12-01

Chat mode variant, 4 points below Reasoner mode. Cost-efficient at $0.88/run.

70.2%

Qwen 3 Coder Next 80B A3B

Qwen · arxiv/2603.00729 · 2026-02-28

Outperforms Qwen3-Coder-480B (60.4) on Aider polyglot with 3B active params, showing code editing strength.

66.2%

Kimi K2

Moonshot AI · Aider/aider.chat · 2025-07-17

Open-weight MoE, 1T params / 32B active. Competitive cost at $1.24 but below DeepSeek V3 performance.

59.1%