Anthropic otevřel svůj původní výkonový take‑home úkol veřejnosti

Publikováno: 21.1.2026

#AI #Různé #Anthropic #Benchmark #Claude

Na GitHubu je volně dostupný repozitář Anthropic’s Original Performance Take‑Home, který obsahuje původní interní výkonový test, jaký Anthropic používal při hodnocení schopností optimalizace svých AI modelů. O co jde:Výzva spočívá v tom, aby…

Celý článek

Na GitHubu je volně dostupný repozitář Anthropic’s Original Performance Take‑Home, který obsahuje původní interní výkonový test, jaký Anthropic používal při hodnocení schopností optimalizace svých AI modelů.

O co jde:
Výzva spočívá v tom, aby vývojáři optimalizovali řešení úlohy tak, aby běželo co nejrychleji na simulovaném stroji měřeném v hodinových cyklech. Cílem je dosáhnout nižšího počtu cyklů než dosáhly modely Claude Opus 4.5, které repo obsahuje jako benchmark.

Benchmarky:

Claude Opus 4 po dlouhé optimalizaci ~2164 cyklů
Claude Sonnet 4.5 po dlouhé optimalizaci ~1548 cyklů
Nejlepší výkon Claude Opus 4.5 během vývoje: ~1487 cyklů
Dnešní nejlepší Opus 4.5: ~1363 cyklů
Úkolem je překonat tyto výsledky.

Pro vývojáře:
Stačí naklonovat repozitář, implementovat vlastní řešení v submission.py a spustit testy přes python tests/submission_tests.py. Pokud vaše řešení překoná nejlepší výkon modelu, můžete ho poslat e‑mailem týmu Anthropic – firma naznačuje, že by tak mohla vzniknout i možnost pro recruiting či rozhovor.

Tento projekt nabízí otevřený „benchmark závod“ pro každého, kdo chce změřit a zlepšit své schopnosti v optimalizaci kódu.