ディスカッション (11件)
「GLM-5.2」が登場しました。これはオープンソースのエージェント型AI開発において、まさにパラダイムシフトと言える劇的な進化です。これまでの限界を突破するその性能について、皆さんはどう感じますか?ぜひ議論しましょう。
中国の研究所が出しているオープンウェイトモデルは、かなり安価な傾向があるね。これらは間違いなく必要だと思う。個人のコーディングAI利用に月200ドルも払えないし、そもそも世界経済の多くの人にとって、そんな価格設定は妥当じゃない。米国の企業が従業員にそれ以上の金額を支給している可能性があるのは言うまでもないけれど。個人的には、持てる者と持たざる者の格差が広がっているように感じることが増えている。でも、推論能力がそこそこで、コストも妥当なオープンウェイトモデルのニュースが出てくると少し救われる。まあ、そういったモデルが実用レベルになるまで半年から9ヶ月かかるかもしれないけど、正直なところ、それくらいなら全然悪くないトレードオフだと思う。
GLM 5.2をZ.ai経由のpiで、すでにスコープが決まっている小規模なプロジェクト用にテストしてみた。最初はかなりまともな仕事をしてくれたし、コンテキストから重要な要素を把握できていた。でも、推論の過程がだんだん面白くなっていって、混乱してループに陥ったり、自分を疑い出したりした。なんだか見ていて悲しくなるくらいで、まるで不安障害を抱えた人の独白を聞いているような気分になった。かなりの進歩は見せていたけれど、最終的には変なループに入って、期待していた基準から少しズレたことをし始めた。「すごく混乱する」「あ、待って」とか言い出して、意味不明なサイドクエストを幻覚で見ているみたいだし、目標を達成しようと(今やかなり混乱している)内部システムの変更を試みようとしていたので、途中でプラグを抜いた。ClaudeやGPTの推論過程は見られないから確実なことは言えないけど、たとえ必死に粘り続ければ最終的にうまくいくとしても、同等の推論品質とは到底思えなかった。
みんなのGLMやオープンモデルのセットアップについて教えてくれないかな?どのプロバイダーを使っているか、なぜフルクオリティで運用するのにそのプロバイダーを信頼しているのか、どんなハーネスを使っているのか、マルウェアが入っていないと確信できる理由は何か(ハーネスのほとんどはTSアプリだからさ)。今はNvidiaビルドのオープンコードからGLM 5.1を試しているところだけど、みんながどうやっているのかぜひ聞いてみたい。ありがとう。
z.aiのmaxアカウントに144ドル払って登録したんだけど、ほとんどのリクエストで429エラーが出るから全然使い物にならない。しかも返金も拒否されているんだ。
最近(コーディング以外のタスクで、社内ホストの)GLM 5.2を使っているけど、堅牢で信頼できるよ。GPT 5.5やOpus 4.xの方がわずかに優れていると感じる分野はあるけれど、それも本当にわずかな差だね。GLM 5.2しか使えないとしても、ほとんどのタスクは生産的にこなせるし満足している。これはGLM 5.2以前には言えなかったことだ。間違いなく格差は急速に縮まっていて、専門性の高いもの以外なら、オープンモデルは旗艦クラスのクローズドモデルと実用面で肩を並べるようになり、コストを考慮すれば優位に立つだろうね。コーディングに関しては、いまだにCodexと組み合わせた5.5を使っているし、他のモデルやハーネスの組み合わせよりもそっちの方が好みかな。
知性の観点から見ると、格差は縮まっている気がする。あるいは、何らかの対数的な平準化が起きているのかも。GLM 5.2をいろんなコンテキストで試しているけど、思考(thinking)を最大化しないと性能は落ちるね。でもxhigh設定なら、OpenRouter経由でOpusに投げていた問題のほとんどを、だいたい同じくらいの時間で解決できているよ。生きていて面白い時代になったもんだ。
(ハーネスとしてopencodeを使った)Deepseek V4 Flashを試している。僕にとってはCodexやClaude Codeとほとんど区別がつかないレベルだよ。もっと厄介なチケットに取り組む時には問題にぶつかるだろうけど、今のところかなり良い感じだし、ストレートなコードを書いてくれる。80/20ルールを適用するような用途なら、中国のモデルは十分すぎるほど優秀だと思う。
GLM-5.2のおかげで、トークン消費のスピードが劇的に変わったよ。試すためにmaxプランを契約したんだけど、700万トークン分がカウントされて、週間のクォータを2日足らずで使い切っちゃった。クォータがリセットされてから24時間経っていないのに、すでに週間の60%以上を消費してる。参考までに、僕がやっていた作業量なら、Codex maxやClaude maxなら3〜5%程度の消費で済んでいたはず。モデルは良いのに、プランは詐欺だよ。
z.aiのこと?それとも2はx.aiより優れているの?
アブレーション(切除)の研究で現在一番良いのはどれ?特に化学分野やレッドチーム/ネットセキュリティ関連で。