マジック：ザ・ギャザリングでLLMの真の実力を測る「MTG Bench」が登場

CallumFergOP

👍91日前

「MTG Bench」は、大規模言語モデル（LLM）がどれほど高度にマジック：ザ・ギャザリング（Magic: The Gathering）をプレイできるかを測定するための新しいベンチマークです。AIが複雑なルールや戦略的思考をどこまで理解できるかを評価するユニークな試みです。

ディスカッション (1件)