SWE-bench Multilingual Leaderboard 2026 — Results Across 16 Real AI Models

SWE-bench Multilingual leaderboard

SWE-bench Multilingual

16 models tested · Updated 2026-04-07 · Verified sources only

      Claude Mythos Preview leads at 87.3%
    

Claude Mythos Preview

Anthropic · Blog/Anthropic · 2026-04-07

Tests code across multiple programming languages. 9.5 pts ahead of Opus 4.6 (77.8%).

87.3%

Claude Opus 4.7

Anthropic · Blog/Anthropic · 2026-04-16

Up 7.9pp from Opus 4.6 (77.8%). Strong multilingual coding performance.

85.7%

Claude Opus 4.6

Anthropic · Blog/Anthropic · 2026-04-07

Comparison score from Mythos Glasswing announcement.

77.8%

Kimi K2.6

Moonshot AI · HuggingFace/moonshotai · 2026-04-20

Strong multilingual coding. Nearly matches Opus 4.6 (77.8%) on this benchmark.

76.7%

MiniMax M2.7

MiniMax · Blog/MiniMax · 2026-03-18

Strong multilingual coding. Outperforms many larger models on real-world engineering tasks.

76.5%

DeepSeek V4 Pro

DeepSeek · DeepSeek/HuggingFace · 2026-04-24

Max reasoning. Below Opus 4.6 (77.5) leader.

76.2%

KAT-Coder-V2

Kuaishou · arxiv/2603.27703 · 2026-03-29

Strong multilingual coding on Claude Code scaffold. Part of Specialize-then-Unify agentic coding paradigm.

75.4%

DeepSeek V4 Flash

DeepSeek · HuggingFace/deepseek-ai · 2026-04-24

Strong multilingual coding for 13B activated.

73.3%

Kimi K2.5

Moonshot AI · HF/moonshotai · 2026-01-27

Cited in Kimi K2.6 model card (predecessor model).

73.0%

MiMo-V2-Flash

Xiaomi · HuggingFace/XiaomiMiMo-MiMo-V2-Flash · 2026-01-06

SWE-bench Multilingual.

71.7%

Qwen 3.6 27B

Alibaba · HuggingFace/Qwen · 2026-04-22

Strong multilingual coding for 27B dense.

71.3%

Qwen 3.6 35B-A3B

Alibaba · HuggingFace/Qwen · 2026-04-16

MoE model with strong multilingual coding. Beats Gemma 4 31B (51.7%).

67.2%

Qwen 3 Coder Next 80B A3B

Qwen · arxiv/2603.00729 · 2026-02-28

80B MoE with 3B active params; competitive with models 10x larger on multilingual SWE tasks via OpenHands.

64.3%

Gemma 4 31B

Google · HuggingFace/Qwen · 2026-04-02

Multilingual SWE performance. Significantly below Qwen 3.6 35B-A3B (67.2).

51.7%

SWE-Hero 32B

NVIDIA · arxiv/2604.01496 · 2026-04-02

Zero-shot transfer to non-Python languages despite being trained exclusively on Python trajectories.

44.1%

Gemma 4 26B A4B

Google · HuggingFace/Qwen · 2026-04-18

MoE 4B active/26B total. Low multilingual coding score.

17.3%