ディスカッション (11件)
ローカル環境のノートPCでQwen3.6-35B-A3Bを動かしてみたんだけど、驚くことにClaude Opus 4.7よりも圧倒的にクオリティの高いペリカンの絵を描いてくれたよ。ローカルLLMの進化が止まらない!
バックアップテストについては同意しかねるな。Opusのフラミンゴは、ちゃんとペダルやサドルに乗ってて、スポークやクチバシも機能的に描かれている。物理的なリアリティという点ではQwenは完全に的外れだよ。Qwenの出力の方がいいなんて人がいるのが少し不思議なくらい。正直、この例はQwenがペリカンという題材に対して過学習していることを(なんとなく)示唆しているように見える。
「面白さ」はわかるけど、正直今の時点でこのペリカンが何を証明しているのか疑問だよ。プロバイダー側が本気を出せば適応させることなんて余裕でできるはずだし、モデルが未知のコンテキストにどれだけ対応できるかを試したいなら、いつも同じ動物じゃなくて、全然違う動物や行動を組み合わせた方が(スケボーに乗るクジラみたいに)よっぽど有意義じゃない?
コーディングに関しては、Qwen 3.6 35B a3bはPower Rankingタスクの98問中11問を解決した(ベスト・オブ・ツー)。同サイズのQwen 3.5は10問だったから、良くてわずかな向上って程度だね。Qwen 3.5 27B dense(26問解決)の足元にも及ばないし、Opus(4.6で98問中95問解決)とはクラスが違う。
まあ驚くことじゃないよ。テストの結果、OpusやSonnetは4.1リリース以降、コーディング以外の多くのタスクで性能が落ちてきているしね。
自分はイグアナなんだけど、洗車場で自転車を洗いたいんだ。歩いて行くべきかな、それともバスを使うべき?
今日、Geminiでスライドの図を更新させようとして無駄にした時間を考えると、あまりの噛み合わなさに絶望するよ。一発芸的なことは凄いけど、「惜しいんだけど、ここを少し直して」っていう注文が絶望的に通じない。おもちゃとツールの間には大きな壁があるね。
そもそもこんなデモが何を証明するのか謎だよね。LLMは学習済みのことや、その類推ができることについては優秀だけど、SVG生成なんてLLMが本来求められるタスクの類推ですらない。初期のモデルがダメだったのは、学習データにまともな例がなかったから。ある時点で各社がSVG生成をそこそここなせればPRになると気づいて、ファインチューニングで事例を詰め込んだだけ。実用的なレベルには達してないし、この手の改善が他のタスクの向上につながるどころか、むしろ逆効果になる可能性すらある。単にデモ映えするだけだよ。
最初はモデルサイズの差を測る面白い試みだったのかもしれないけど、最近は最大のモデルサイズ自体が頭打ちで、改善のほとんどは特定のタスクに最適化することで成り立ってる。もし彼らが学習していないはずの秘密のタスクでテストできれば、過学習の度合いを測るベンチマークになったかもしれないけど、これに関してはそうじゃない。
足の表現とクチバシを考慮しても、個人的にはOpusのペリカンの方が上だと思うな。
これが単なるタスク学習以上の意味を持っているかもしれないと考える理由は、人間の基本的な言語の中に空間的なメタファーが溢れているからだよ。Lakoffの『Metaphors We Live By』とかの分析を持ち出すまでもなく、言語学では当たり前の分野だよね(HN界隈でもたまに話題になるし)。
銀行口座の残高も増えたり減ったりするけど、「上がる・下がる」とも言うよね。これも空間的だ。概念同士が「隣接」しているとか「直交」しているとかもそう。
つまり、モデルが学習を通じて複雑な戦略を使いこなし、重みをより密に利用できるようになれば、こうしたメタファーのパターンや構造も深まっていくんじゃないかな。うーん……これも将来のタスクリストに入れておこう。似たサイズの古いモデルと新しいモデルで、同じメタファーやペリカンプロンプトを使った時の活性化の幾何学的構造を追跡してみる。ただの推測で終わらせないために検証しないとね。
次はテストへの最適化を疑うなら、「ガンの特効薬」を描かせるテストに切り替えてみたら?