ディスカッション (68件)
どんなモデルに対しても褒めちぎるなんて初めてだ。俺は筋金入りのCodex信者だったんだぜ。昨日もCodex maxで複雑な問題解決に何時間も苦戦してたんだ。でも今日、リリースされたばかりのOpus 4.5のベンチマークを見て、試してみることに決めて3ヶ月ぶりにCursorをインストール。
そしたらマジかよ、信じられないことが起きた。問題点を明確に説明すらしてないんだ。ざっくり概要を伝えて、見るべきファイルを指定しただけ。そしたらマジで爆速で、絶対失敗したと思ったのに、テストしてみたらバグが修正されてる!一発でだぜ。マジかよ、1時間くらい試してみるつもりだったのに、一撃で仕留めやがった。
ソフトウェアデベロッパーとしての未来は終わったかもしれんけど、今はハッピーだ!
今、ソフトウェア開発者やってる?
うん
GitHubのリンクとかある?君から色々学びたいんだけど。
リンクはないの?
そいつに個人情報を特定させたいのか?
バグは何だったの?
Opus(Max 5xプラン)で2時間12分エンジョイ中:
90%がセッション、8%が週間。
今まで上限に引っかかったことなかったんだけど。さあ、Max 20x、いっちょ試してみるか!
で、パフォーマンスはどう?
制限に達するまで止められなかった。マジで色々達成できたから。
一晩中起きてるけど、これはネクストレベルだわ。
それを肯定できたらいいんだけど。今のところ、Opus 4.5は俺にとって悪夢だ。マジで頭悪い。ジュニアレベルの解決策しか提案してこないし、そこに至るまでずっとミスしてる。
僕も5時間枠の使用量が大幅に増えてるのに気づいたよ。週の制限はそれほどでもないけどね…普段は10〜15%くらいなのに、5時間あたり35〜40%になってた。でも、週の制限はほぼ同じ🤔
Sonnet 4.5と比較して、驚くほどパフォーマンスが良いけど、Sonnet 4.5が出た時と同じように、時間が経つにつれて劣化しないことを願ってるよ。以前は問題なく動作していた既製のプロンプトを使っても、Sonnet 4.5が非常に単純なミスを犯したり、何度も同じことを説明し直したりしなければならなくなったので、サブスクをキャンセルしたんだ。奇妙なことに、「days: 0」のOpus 4.5が登場して、僕を引き戻したんだよね。
マジか、俺は最大20で6時間使ってまだ6%だわ。普段Opusだと40%くらい行くのに。ヤバいタスクだと1時間で80%使ってた。Sonnetは0%でかわいそう。もう愛されないね😁
opus 4.1は、sonnet 4.5が出てからは全然使ってないんだよね。opusがめっちゃリソース食うから。だからこれはsonnet 4.5とopus 4.5の使用量の比較になるんだけど。週ごとの使用量は同じくらいなんだけど、5時間制限に引っかかりまくってる。以前は5時間ごとに20%超えることなんてほとんどなかったのに、opus 4.5だと余裕で60-70%に達するんだよな。なんかおかしい。週ごとの上限は大幅に増やしてくれたけど、5時間ごとの上限はちょっとしか増えてないような気がする。
俺も同じで、4.5のsonnetが出たときに使うのやめた。理由は同じ。今はopus 4.5がsonnet 4.5の使用量になってる。たぶんね。俺の環境ではそうっぽい。ああ、5時間制限ね。バグか場所の問題かも。日によって違うんだよね。不安定。週末は早く感じるし、平日の夜は無制限に感じる。
マジそれな。今日でサブスク切れる日なんだよね(笑)だからそれも関係あるのかも。40分前に終わった。更新するつもりなかったけど、やっぱり更新するかも… この1ヶ月、イマイチなパフォーマンスだったけど、今日1日で先週1週間分より多くのことができた気がする。
今はプロモーション期間だよ。その後、いつものように量子化されたバージョンに切り替わるだろうね。
俺がおかしいのかと思ったけど、時間が経つにつれて賢くなくなってることに気づいた。俺の勘違いじゃなくてよかった。
俺も今日までほとんど制限に引っかからなかったけど、ChromeでOpus 4.5がバカなことしてて、画像がトークンをめっちゃ食ってる気がする。
使用状況ってどこで見れるの?
Claudeのウェブアプリなら、設定のどこかに「使用状況」ページがあるよ。Claudeのコードターミナルなら、/usageって入力すればOK。
Claude code? 他のコードはどう?
Claude codeにOpusはないよね?
マジかよ、この投稿全体がLLMの返答だって感じ。プロンプトが目に浮かぶわ。
それ、ネオみたいなことやってるじゃん。
俺は自分の投稿にLLMなんて使ってないよ
AIの面白い(けど悲しい)ところの一つは、みんながどこにでもAIを見出すことだよね。できることには感謝するけど、これからは、うまくできたことは全部「ただのAI」で、だから意味がないって思われるようになるんだろうな。
個人的には、この投稿はLLMっぽくない(英語を母語としないプログラマーっぽい)。でも、他の誰かは「認定LLMレスポンス」だと思ってるみたい。
まあ、そうなると思ってたけどね。
みんな、ありきたりな返信には「それっぽい」雰囲気があるって気づき始めてるから、一歩か二歩先を行くなら、陽気でちょっと変わった個性を出すとほらね。
LLMから出てくる可能性が低い点が少なくとも10個はあるし、そのどれもが性格に関するものではない。
でも君は、自分のLLM検出の直感が真実を暴いたと確信してるみたいだから、Opus対Codexに関するランダムな投稿で彼らを批判する必要を感じたんだね。実際にOpus 4.5を試して意見を持っていたら、もっと興味深いんだけどな。
繰り返すけど、それが僕が投稿した理由だよ。AIの「危険」の一つは、今や人々が何でもAIだと思うことだと思うんだ。
それな。Opusに聞いてみたのは、ウケるかなって思ったから。85-90%の確信で人間が書いた文章だね。
人によっては、マジで実存的な危機かも。
未来がどう見ても怖い。AIが作ったリール動画とオリジナル動画の区別がどんどんつきにくくなってるし、ディープフェイクも当たり前になってきてるし、AIはマジでヤバい。これを受け入れるしかないんじゃないかな。
俺がAIじゃないってどうして分かるんだ?エンゲージメントを上げるために騒いでるだけかもしれないじゃん?
LLMのレスポンスはたくさん読んだけど、これはそういう感じはしないな。
カルマ稼ぎの基本だね。
<ここにモデル名>はマジでヤバい!
投稿者は4年前のアカウントでカルマ369って…マジで何言ってんだ?カルマ稼ぎたいなら、r/awwに子猫がお互い抱き合ってる写真でも投稿した方がマシだよ。
ハックを共有してくれてありがとう🐈
これ見てて面白いのが、ちょっと前に誰かがgtlotの方がユースケース的に優れてるって投稿してたんだよね。誤解しないでほしいんだけど、君のことを悪く言うつもりは全くなくて、むしろAnthropicのGemini 3に対する反応を心待ちにしてたんだ。Antigravityを試してみたけど、個人的には不快だったから。
ただ、コンテキストサイズを大きくしてほしい。同じ作業を繰り返してるとすぐにいっぱいになっちゃうし、スキルを再読み込みしないといけなくなるんだよね。autocompact後にツール呼び出しが悪くなるし、パーセンテージも正確じゃない時があるから、準備できないんだよ(特にVS Codeのアドオン)。
大きな機能を小さなサブ機能に分割して、mdファイルで進捗を追跡して、サブ機能ごとに新しいチャットを使うといいかも。
もう何時間も使ってるけど、高すぎるけど、試したどのモデルよりも優れてる気がする。
アドバイスありがとう。新しい機能を作るときは、君が言うようなワークフローでやってるよ。でも、手動テスト/検証(ほとんど高性能なPostmanみたいなもん)を手伝ってもらうのにも使ってるんだ。autocompactに気づかないと、スキルを再読み込みしないといけない。それでも、こういう手作業をするときにはすごく助かってるよ。
新しいコンテキストウィンドウは、要約しながら進むから、ウロボロスみたいに、前のコンテキストが会話に追加されていくはずだよ。圧縮する必要がなくて、自動で前の会話を圧縮してくれる感じ。
イケてる気分になりたいときは、Sonnet 4.5を使うんだ。100万のコンテキストウィンドウがあるから、すぐにいっぱいにならないんだよね。でも、すぐに10ドルも使っちゃってると気づくと、ちょっと萎える。
マジで、めっちゃ集中してて的確だよね。GPTが恥ずかしくなるレベル。
俺もだわ。真面目な話、マジでビビってる。特に「プロ」の開発者としては!超興奮もするけどね!睡眠時間がマジで削られてる。開発者として、俺たちはどこに向かってるんだ???
思うんだけど、フロントエンド/バックエンド/フルスタックエンジニアってだけじゃ、もう十分じゃない気がするんだよね。少なくとも1~2年(多分)通用するためには、AIのサブ分野に特化する必要があるんじゃないかな。
機能要件とか非機能要件を評価して考え出すには、やっぱり能力が必要だよ。オペレーティングシステムとか分散システム、スケーラビリティを深く学ぶのがいいと思う。AIは、何をさせるべきか分かってる時は最高だけど、ノリでコーディングしてるとマジで混乱して刺激過多になるし、結局何の役にも立たないんだよね。
これが重要だと思うな。俺たちが価値を付加できるのは、解決策を概念化して、LLMのパターンマッチング能力に合うようにコンポーネントに分解し、アウトプットを生成できるからだ。
LLMを使って、望むアウトプットに変換できるインプット(プロンプト)を見つけることが全て。手動でコーディングするより遥かに効率的だけど、俺の経験では、根本的な知的な挑戦は似てると思う。
みんなにアドバイス。一つのものだけを探し求め続けると、ツール(Cursor、Codex、CCなど)をフル活用することを学ばないまま、最新最高のモデルに振り回されることになるぞ。つまり、今はOpus 4.5だけど、すぐにCodexがアップデートされて、みんなそっちに群がる、みたいな繰り返し。
みんながこのやり方をしてるときに何を見逃してるかっていうと、裏で何が起こってるかっていう全体の流れ(ツール/プラグイン/Composer/スキル、名前はツールによって違うけど)だよ。
違うモデルを使え(Cursorがツールだって言うなら、最新最高のモデルに乗り換えればいい)。でも、CCのCLIとか使ってあっちこっち飛び回ってるやつらは、ただ混乱してるだけだ。
同意だけど、ほとんどは色んなCLIの無料枠を最大限に活用して節約しようとしてるだけだと思う。まあ、気持ちはわかるけど。誰かがこれらのプラグインをClaude Code Routerに組み込んでくれるのを待ってるんだ。
多分いるんじゃない?ほとんどは一発屋で、永遠にその辺をうろついて、本来学ぶべきスキルを全く学ばないような人たち。
どのモデルにやられたんだ?
面白いことに、俺もGPT-5が出たとき同じ反応したわ。
Opus 4.5で3時間ぶっ通しで遊んでた。
マジで大きな進歩だよ。それに、心配しないで、まだ仕事なくなるわけじゃないから!!IDE使えたり、GIT/Bashコマンド知ってるだけでも、平均的な人よりめっちゃ知識あるってこと忘れがちだと思うんだよね。
別に他の人より優れてるとか言いたいわけじゃないよ。ただ、AIのコーディング能力がどんどん上がってるってことへの不安があるのは当然だよね。
結局間違ってるかもしれないけど、エンジニアはこれまで以上に必要とされるはず。ちょっと願望込みだけどね(笑)でも希望はある。
Anthropicにはマジで頑張ってほしい。出力と一貫性で信頼できるコードAPIはここだけなんだ。
Opus 4.5で3時間ぶっ通しで作業してた。
ちょっと気になるんだけど、それいくらだった?
その複雑な問題って何だったのさ?
時間が経つにつれて、このレベルを維持できるかどうか見てみようじゃないか…。
Sonnet 4.5と比べてどう?あれもかなり優秀だと思うんだけど。
Opus 4.5を試す必要があるな…でも、Codexは俺がいくつかの厄介な問題を解決するのを何度か助けてくれたよ。
もう弱体化されちゃったよ。「直してくれ」って頼んでも、直してくれないんだもん :(
どうやって使うの? 今はCursorがめっちゃ好きなんだ。
gpt-5.1とgpt-5.1-codexは当たり外れが大きすぎたけど、ついにそれを裏付けるベンチマークが出てきたね。良くなったところもあれば、悪くなったところも多いみたい。
Maxが出てきたけど、こっちの方が安定してる気がする。なんでこれを5.1-codexとして使わなかったんだろう。複雑にしすぎだよ。Maxの最初のベンチマークはかなり良さそう。
Opus 4.5はすごく安定してるように感じるな。コードスタイルとインタラクションではいつもClaudeが好きだったけど、Codexの方が徹底的で信頼できたんだ。Opusはそれを覆せるかもしれない。マジで楽しみ。
もうどのベンチマークも当てにならないと思う。ラボが全部学習させてるんじゃないかな。もう意味がないよ。
過去2年間、Claudeのメジャーリリースがあるたびに同じ投稿を見た気がする。
ってことは、Sonet 4.5のパフォーマンスを下げたのはこれが原因ってこと?
どんな言語/ドメインで使ってるの? プロジェクトはどれくらい古い? まだ試してないんだ。
Sonet 4.5にぶち込まれた劣化がマジでヤバい。Opus 4.5に必要なリソースが増えたせいなのか、それともパフォーマンスの向上をアピールするためにわざと劣化させたのかは知らんけど。
いくつかのファイルと問題の簡単な説明を渡してみた。
そしたら、テストをガンガン実行して、バックグラウンドでいくつかのスクリプトをセルフホストして、数分後には以下を吐き出した:
- 分析
- 根本原因の特定
- 書き換えられたコード
- 実装の詳細
全部.pyまたは.mdファイルとして。(Web Claude)
マジか... 感動した。まるで全知全能の存在に「問題解決してくれ」って頼んだら、「いいよ、坊や」って言って、コードの巣窟にシュッって消えてって、「はい、どうぞ」って戻ってきたみたいな感覚を初めて味わったわ。
マジで衝撃的だわ。バックエンドとフロントエンド全体をDDD/CleanアーキテクチャにリファクタリングしようとSonnet 4.5で始めたら、問題だらけだったんだ。Opus 4.5でその問題に取り組み始めたら、全部解決してくれた。今ではリファクタリングは完了して、スムーズに動いている。
正直、ちょっと怖いけど、これはマジで大きな飛躍だわ。
無料で試す方法ってないの?
Cursorの1週間のProトライアルで無料で試してる。他に方法があるかどうかは知らない。