【脱・丸暗記】難解プログラミング言語でLLMの「真の推論力」を測る「EsoLang-Bench」が登場!
LLM(大規模言語モデル)の評価において、既存のベンチマークでは学習データへの「汚染(リーク)」や単なるパターンマッチングが課題となっています。そこで登場したのが『EsoLang-Bench』です。これは、Brainfuckなどの「難解プログラミング言語(Esoteric Languages)」を用いることで、モデルが単に学習済みのコードを思い出しているだけなのか、それとも未知の構文に対して論理的な推論(Genuine Reasoning)をゼロから行えているのかを厳格に評価するためのベンチマークです。