Why averaging LLM benchmark scores is fundamentally broken · HackerLangs

Top New Threads Past Comments Ask Show Jobs

Why averaging LLM benchmark scores is fundamentally broken · HackerLangs