ディスカッション (10件)
Hacker Newsの皆さん、こんにちは!2週間ほどPCから離れて戻ってきたら、コーディング支援AI(モデルや周辺ツール)に関する議論が盛り上がりすぎていて、完全に浦島太郎状態でした。いつもならコメントを読み漁ってトレンドを追うところですが、今回はそのプロセスを自動化してみることにしました。このツールのゴールは、Hacker Newsで今どのコーディングモデルが熱いのかを瞬時に把握することです。今後は、みんなが使っている開発環境や、ローカルLLMのセルフホスト事情、ハードウェア構成なども網羅していく予定です。データ収集と解析パイプラインの詳細はページ内にまとめていますが、もっと詳しく知りたいことがあれば何でも聞いてください。Googleスプレッドシートでも詳細を公開しています。ぜひチェックしてみてください! https://hnup.date/hn-sota
この指標の解釈はかなり興味深いね。確かなのは、Claudeが現状メンション数で1位を取ってはいるけど、APIの料金体系や頻繁なサーバーダウンのせいでネガティブな評判もかなり多いってこと。逆に2位のGPT-5.5の方が、ポジティブなフィードバックは多いみたいだね。個人的には、Codexの使用感はClaude Codeほど良くなかった(CodexはWindowsだと予想以上にフリーズする)から、これは少し意外。とはいえ、純粋なコード生成能力に関しては、より守りに入る傾向があるGPTの方が確実に上だね。ただ、GPTは韓国語や中国語で生成するとテキストが文字化けするっていう厄介な問題を抱えてる。英語圏のユーザーはたぶん気づいてないだろうけど。モデルの性能としては、同じagent.md(CLAUDE.md)を渡した場合、コーディングにはGPT、コードレビュー中の文章作成にはClaudeの方が向いてると思う。右下を見ると、QwenとDeepSeekはオープンソースだから、ベンダーロックインへの対抗策という文脈で語られることが多くて、それがポジティブな評価につながってるね。Hacker Newsは中国に対して否定的な意見が出ることがあるのを考えると、米国のモデルと違ってこれだけ高く評価されてるっていうのは、オープンソースであること自体が大きなアドバンテージだと言える。とにかく、Geminiが使い物にならないっていうのは間違いないね。
モデル名が読めるようにグラフを修正してくれ
「LLMにプロンプトを送る」って、どのLLMのこと?センチメント評価にGeminiを使ってるみたいだけど(あまり言及されないから「中立」ってことかな?笑)、全体的にもっと詳細が知りたいな。
参考までに言っておくと、この記事の「SotA(State of the Art)」っていう定義は、技術的な能力や実際の利用状況とは無関係に、「メンション数とユーザーのセンチメント」で測った「人気度」を指してるだけみたいだよ。
これを時系列でグラフ化して、モデルのリリース時点から現在までどうセンチメントが変化したかを見られたら面白そう。
で、結局これは「たった3段落のWebページ」とシンプルなグラフってわけだ。1) 配色が最悪(まあ、リーダーモードにすればいいけど)、2) JSだらけ(NoScriptが動くけど、ページが崩れる)、3) グラフはオシャレだけどX軸が読めない。拡大すればいいか……って、3つも「Claude O...」があるのは何?当てっこゲームでもしてるの? 4) 「LxxxLxxx - YouTubeで言語学習!」って何だよ。
kimi2.6、qwen3.6、deepseekに対する好意的な反応が、ネガティブなものと比べて目立っているのは面白いね。オープンモデルを評価する流れが続いてほしい。まだ一般名詞とまではいかないけど、思ったより割合は高い。ビジネスの話ばかりのHNならなおさらだね。AnthropicやOpenAI、Metaなんかがこれからここでネガティブキャンペーンを続けるだろうから腹は立つけど、同時に、そうした活動によってHNの有用性が下がってしまうのは残念だな。何事もトレードオフってことか。均衡がどこに落ち着くのか楽しみだよ。
ツールを作る前に、手法や主張を見直した方がいいよ。もっと妥当なのは、2つのモデルを比較するコメント(例えば「gpt5.5>opus4.7」のような)を見つけて、そこからコンテキスト(「ctx:frontend」など)を推論する方法だ。今のやり方だと「opus 4.6はすごく賢いけど、4.7は4.6の期待外れなアップグレードだ」なんてコメントがあると、普通のセンチメント分析では4.6の方が賢いと判断されてしまう。それに全体で300件未満のメンションじゃ、他のサイトからもデータを拾った方がいいかもね。あと、SotAという主張は完全にやめて、メンション数はパフォーマンスじゃなくて「可視性(visibility)」を測ってるものと言い換えた方がいい。
検証作業お疲れ様。ブックマークしたよ、新しいモデルが出た時に役立ちそうだから。機能追加のリクエストだけど、いくつかいいかな?・Claudeシリーズ全部 vs OpenAI、DeepSeekみたいに、メーカーごとの合計計測を表示してほしい。・中立セクションを除外するトグルスイッチを追加してほしい。