Anthropic

5 models available

Performance Benchmarks

Quantitative capabilities across reasoning, mathematics, and coding for Anthropic models

CodeLMArena

Competitive coding benchmark evaluating models on complex programming problems, debugging, and logical reasoning across multiple programming languages.

Claude 3.7 Sonnet1326

Claude Sonnet 4.51420

Claude 4 Sonnet1410

➗

MathLiveBench

Real-time mathematical reasoning benchmark testing advanced problem-solving across algebra, calculus, geometry, statistics, and applied mathematics.

Claude Opus 4.190.0%

Claude 3.7 Sonnet63.30%

Claude Sonnet 4.575.0%

+1 more models

CodeLiveBench

Live coding performance evaluation measuring the ability to write, debug, and optimize code in real-time scenarios including algorithm implementation and software development.

Claude Opus 4.174.5%

Claude 3.7 Sonnet73.2%

Claude Sonnet 4.577.2%

+1 more models