HN🔥 401
💬 126

長尺タスクを攻略せよ!「GLM-5.1」が切り拓く次世代AIの可能性

zixuanlimit
約2か月前

ディスカッション (11件)

0
zixuanlimitOP🔥 401
約2か月前

「GLM-5.1」が発表されました。本作は、従来のモデルが苦手としていた長期間・長尺のタスク(Long-Horizon Tasks)を効率的にこなすことを目標に設計されています。複雑な推論や連続的なアクションが必要なタスクにおいて、AIがどこまで進化できるのか、今後の動向から目が離せません。

2
alex7o
約2か月前

正直ちょっと悲しいな。TypeScriptに関してはopusやcodexよりglm5.1の方がずっと上手く書ける気がするんだけど、長いコンテキストになるとどうしても時々支離滅裂なモードになっちゃうんだよね。まあ、200kを超えても問題ないセッションも何度もあったから、常にってわけじゃないんだけど。

3
winterqt
約2か月前

ここのコメント、みんな数時間以上このモデルを使ってるような話し方だけど、本当?それとも単に現時点での最初の感想をシェアしてるだけ?

4
johnfn
約2か月前

GLM-5.0はオープンソースモデルの中では本物だよ。社内のベンチマークでは一貫して他のオープンソースモデルを凌駕していて、GPT-5.2のようなものと同等だった。ただ、コーディングには使ってなくて、もっと曖昧なタスクに使ってる。

5
minimaxir
約2か月前

エージェントが生成したコードの「速度」をモデルの質の指標にするっていうのは珍しくて面白いね。自分はエージェント系プロジェクトのベンチマーク最適化(「ベンチマークを作成してベースラインを出し、ズルや出力品質の低下なしに1.4倍速くする」といったこと)に注力してるんだけど、Opus 4.6はそれがすごく上手いよ。Rustなら、既存の高速なコードに対しても低レベルな最適化を見つけて、全てのテストをパスしたまま最大6倍も高速化できるんだ。

モデル間の実用的なパフォーマンスを定量化する、実用的でアクションにつなげやすい面白い方法だよね。

6
kamranjon
約2か月前

これのフラッシュ版がリリースされることを切に願ってる。GLM 4.7 Flashは、自分のローカルでのエージェントコーディング作業のメインモデルで、本当に素晴らしいから。リリース情報には何もなかったけど、今後出てくれると嬉しいな。

8
dvt
約2か月前

毎日、次の3つのことがますます明確になってきている:

(1) OpenAIとAnthropicは完全に終わった。強力な参入障壁(Moat)がないのは明らかだ
(2) ローカル/プライベートな推論こそがAIの未来
(3) 「キラープロダクト」はまだ存在しない(だから、みんな取り組もうぜ!)

9
XCSme
約2か月前

自分のテスト0では、GLM 5.1はGLM 5より性能が低いよ(推論あり・なし両方で)。

このモデルは汎用的な知能というより、エージェント利用やコーディングに寄せてチューニングされている気がする。

10
8dazo
約2か月前

Claude Mythosの投稿を見たところ。いつ公開されるかは不明だけど、これは単なる段階的な進歩じゃなくて、本当の飛躍を感じさせるね。次のGLMのリリースも待ってる、スペックがとんでもないことになってるから。