ディスカッション (72件)
Codexへの乗り換えを検討している皆さんへ。
これって、まるでCC(Claude Code)で経験したのと同じ退化現象を辿ってるみたいなんだよね。LLM(大規模言語モデル)を日々、一貫して信頼性高く使いこなせない状況に、マジでイライラが募る。Claudeがダメになる前のコードを振り返ると、その質の高さに圧倒されたけど、つい数日前のCodexのコードを見返すと、まるで別物。ディレクトリを誤って削除したり、規約やAGENTS.mdを無視したり...。どうして進化が止まっちゃうんだよ!
ツールが優秀になればなるほどユーザーは増えるけど、サーバー代はタダじゃないんだよね。多くの企業が、特にビジネスクラスのユーザーに安定したサービスを提供する必要がある場合、費用対効果の高いインフラのスケーリングに苦労してると思う。
今は、オンラインアクセスツールに頼る代わりに、ちょっと高すぎるミニPCを買って、Deepseekの巨大モデルをホストしようかと考えてる。初期投資は大きいけど、新しいモデルがリリースされるたびに、長い目で見れば価値があるかもしれないし。それに、毎時間のように制限に引っかかるようなクソみたいな中断に悩まされずに済むしね。
ミニPCじゃDeepSeek R1は動かないよ。ちっちゃい量子化モデルなら動くかもしれないけど、ミニPCでCCみたいなコード品質を期待してるなら時間の無駄だよ。512GB RAMのMac Studioか、H100やA10を搭載したエンタープライズグレードのサーバーラックが必要になる。ローカルで実行できるまともなコーディングモデルもあるけど、Claude Codeの品質を出力できる既製のマシンはないよ。ハイエンドなコンシューマー向けPCですら、ここではあまり役に立たない。
もし本気で、金もあるなら、SuperMicroのカスタムビルドソリューションを見てみるといいよ。俺の夢のシステムは、H100を2つ積んだやつ。あのVRAMはすごいよね。まあ、夢だけど、夢がなければ、夢は叶わないからね ;) 彼らのシステムなら、良い推論結果が得られるはず。一番重要なのはGPUだよ。それをOllamaで。
もっと詳しく教えて。これは、エージェントにコーディングさせて、ローカルモデルや自分のサーバーで動くモデルと連携させる方法なの?
30000ドルのH100カード2枚あれば、Sonnetほど良くはないけど、それに近い性能のローカルモデルを動かせるよ。
ちょっと視点を変えてみてよ… H100カード2枚(600万円くらい)買う代わりに、Claude Max 20xのサブスクを5つ同時契約して5年間使えるんだぜ(つまり、毎日20xのサブスクを1つずつ使い潰せる計算)。しかも、H100動かすための電気代とか、それを置くコンピューターの費用とか考えなくていいし、600万円を運用すれば利子も付くし、ハードウェアやサービスのアップグレードの恩恵も受けられるんだぜ。
Ollamaを使うと、プログラムで質問を送信できるAPIエンドポイントとチャットインターフェースが手に入るよ。ただし、これらはSonnet 4.5やGPT5とは違って、毎月、あるいは必要な時にLLMをトレーニングするために数十億ドルが費やされてるわけじゃない。特定のタスクに合わせて、より小さなモデルをトレーニングする必要があるから、簡単なことじゃないよ! でも、色々試すのはすごく楽しいし、それが学ぶ方法でもあると思う。
意図的なものだと仮定して、彼らを高く評価しすぎてるよ。
巨大なLLM企業は、互いに誰のターンかを暗黙のうちに合図し始め、フルコンピューティングをオンにする番、エンジンを停止してキャッシュバーンを抑えながら回復する番、という風になるんじゃないかと思ってる。
Claudeの失墜とCodexの台頭、そして機能のリリースとのタイミングは不気味だよ。Altmanが割り込んできて、怒ってるRedditの消費者全員を「ボット」と呼ぶことで、彼らは両方とも「何も問題ない」という物語を描く手助けをしてるんだ。
Samiのこの返答について言えることは、彼は本当にガスライティングの王様だなってことだけ。
君のコメント好きだけど、中国のAI企業(特にZ.ai)はClaudeの災難から恩恵を受けると思うな。
実は、GLM-4.6のサブスクリプションを月3ドルか6ドルで契約するのが賢い。トップレベルの結果が得られるよ。
ローカルでどんなモデルを動かそうとしても、月たった3ドルで得られる品質とスピードには絶対勝てない。
セルビアに住んでて、大学と自分の会社を通して、すごく高性能なマシンにアクセスできたから、すでに全部試したんだ。
>高すぎるミニPCで、しかもDeepseekのホスティングとか。
だったら、Nano GPTのサブスクを月8ドルで買えば? 2つの異なるモデルをフォールバックとして設定すれば、ほぼ100%の稼働率になるよ。
マジで今日はひどかった。プロダクションモデルをいじくり回すのやめてほしい。
両方使ってるよ。最高のモデル2つだね。でも、イコールじゃない。Sonnetは3.5から毎日使ってるけど、一番コミュニケーションが取りやすいモデル。4.5はあなたの意図を理解するのが一番上手い。でも、Codex Highほど深く計算しない。Codexはパーソナルじゃないけど、深く難しいバグを解決するのは得意。それは変わるかもしれないけど、競争が激化すればするほど、俺たちにとっては良いことだ。AIコーディングでは、壁にぶつかったらリセットして、方向転換する必要があるからね。
これが正解。実装/コード記述にはSonnet 4.5、複雑なバグや深い推論が必要なものにはGPT-5。
なるほどね。じゃあ、実装前の計画/仕様作成にはどれがおすすめ?
それに加えて、Geminiにコードレビューもやらせるのもありかな。
計画段階ではどっちもマジ優秀だよ。Sonnet 4.5かGPT-5を選べば間違いない。コードベースが複雑なら、GPT-5の方がより深く推論して依存関係をより慎重に考慮するから、おそらく的を射てると思う。コードレビューもGeminiよりGPT-5を使うかな。間違いなくそっちの方が優れてる(Gemini 3が出るまでは)。
わかる、俺もそうやって使ってる。
そして3〜6ヶ月後には、また新たな地殻変動が起こるだろうね。
これだね。実装はCC、レビューと計画はCX。
プロンプトの理解度はSonnetの方が上だけど、実装前にコンテキストをmdファイルにまとめて計画するなら、Codexの方が指示に従ってくれるよ。
LLMを毎日安定して、信頼性高く使えないことに、めちゃくちゃイライラする。
それが現実だよね。問題は、君がそれに依存しちゃったこと。Claudeに戻ったところで、何も解決しないよ。全部問題があるから。
AIサービスのダウンタイムや劣化で文句を言ってる限り、君は決して幸せになれないよ。
なんでこいつらはじっとしてられないんだ!?!?
じゃあ自分で作ればいいじゃん(笑)。
完全にスキル不足。コンテキストの扱い方を学べ。
ああ、これを見るのはちょっと面白いし、完全に予想通りだよね。最初はみんなClaudeについて文句を言って、次にCodexへの「大量脱出」、そしてこのサブレディットはCodexがどれだけ素晴らしいかの投稿であふれかえり、今度は人々がCodexについて文句を言い始める。
はぁ。
俺が今月CCに見切りをつけるのは、「AIがバカになってきてる」からじゃなくて、「利用制限でボッタくられてる」からなんだよね。
GeminiとGPTを試用してるけど、AIが今月のCCより_悪く_なければ、我慢できる。
Geminiはリリース当初から(Google Workspace Businessのアカウントで)使ってるけど、彼女は「Claudes」やGPT-5(またはGPT-N)にはかなわないから、もう試す気もないんだ。GPT-5は最新のSonnetsといい勝負できるし、タスクによってはそれより優れてるって人もいる。
もし新しいモデルを試すなら、Qwen3 Coder Plus(openrouterで10ドルの寄付で無料)とKimi2を試してみるかな。評判いいみたいだし。
Geminiは得意なこともあるけど、コーディングじゃないね。画像やメディア生成、コードレビューは得意だし、もちろん1M/2Mのコンテキストウィンドウもある。だから、Geminiにリサーチさせて、メインのモデルに要約させるようにしてる。
あと、新しいサブスクリプションを探してるなら、Github Copilotのサブスクリプションがおすすめ。
- 40ドルのProプランに切り替えてから、月ごとの制限に引っかかったことは一度もない。
- いろんなモデル(GPTやClaudes、Geminisなど)が使える。
- VS Code以外のクライアントでもサブスクリプションを利用できる。個人的にはOpencode.aiのターミナルクライアント、Kilo code、Zedで使ってる。
試してみるよ、ありがとう。Pro+の40ドルプラン(それでも俺にとっては60豪ドルくらいだけど)も別に抵抗ないし。GitHub Copilotは名前からしてGitHubのMS拡張機能だと思ってたから、あまり調べてなかったんだよね。Perplexityのコーダー版みたいな感じかな?
あるいは、まだ始まったばかりで、推論中に最適なリソース配分が誰にもわからないのかも。それに、LLMからLLMへの大規模な乗り換えも影響してるんじゃない?
結局、サーバー立ててオープンソースのツールとダウンロードできるモデル使うしかないと思う。次に試すのはそれかな。少なくとも、自分で計算資源の費用を払って、どのAIを使うか完全にコントロールできるし。後退することはないし、改善しかない。新しいモデルが出たら試して、良ければそれを使うし、そうでなければ今のまま。
エンシッティフィケーション(クソ化)の始まりだ。
両方使ってるよ…
どうした?
ネットの友達、またはこのReddit。
Claude CodeからCodexを呼び出すためのMCP(マイクロコントローラープラットフォーム?)を使ってみて。
Zen MCPって何?
ここ4週間くらいCodexを快適に使ってる(ここ3日間もたくさん使ってるよ)。品質の低下は感じてないな。
たぶん君が見てるのは「平均への回帰」じゃないかな。ランダムな変動のせいで、
- 先週は、Codexの結果が平均以下の人もいれば、平均的な人も、平均以上の人もいた。
- 今週は、ランダムに平均以下の人、平均的な人、平均以上の人がいる。
君みたいに、たまたま先週平均以上の結果が出て、今週たまたま平均的か平均以下の結果になった人は、文句を言って、確証バイアスを強める傾向がある。
たまたま変わらなかったり、良くなったと感じた人は、文句を言うことが少ないし、確証バイアスの機会も少ない。
これな。こういうトレンドを分析しようとするときは、常に覚えておいてほしいんだけど、人間はこういうパターンの正確な識別において、著しくパフォーマンスが悪いことが一貫して示されてるんだ。特に、自分の記憶からの逸話的なデータベースエントリを使う場合はね。君を批判してるわけじゃないけど、人間の脳は非常に多くの種類のバイアスに苦しんでいて、その多くは完全に潜在意識的で、ごくわずかしか特定されて修正されないという研究が多数あるんだ。
この本のどの章でもいいから読んでみると、多くのことがよく説明されてるよ。すごく面白いし。
リンクには、すごく良い10分間のオーディオプレビューが含まれてるよ。
それって、こういうこと(性能劣化)と技術的負債の蓄積が組み合わさった結果なんじゃない?コードが肥大化すればするほど、全体を把握するのが難しくなるし。
Factory AIのDroidは試した?そっちの方がずっと良いよ。r/AI_Tips_Tricksをチェック。
なんでこいつらじっとしてられないんだ!?
金だよ、金。次!?
ここ数日、DSLのコンパイラを構築してるけど、Codexは全然問題ないよ。ここ2週間で劣化も感じないし。ヘビーユーザーだけどね。ビルドは複雑だけど、Codexはうまくやってくれてる。週ごとの制限は超えちゃったけど。
俺も同じ。
もし2つの違うシステムで問題が起きてるなら、問題はキーボードと椅子の間にあるんじゃない?(要は、お前の腕が悪いってことだ)
エージェントの問題に気づくのは、作業をやめてRedditでみんながエージェントの問題について話しているのを見たときだけなんだよな。それ以外は、作業を続けてるから何も変わらない。
Codexが今問題抱えてるのは、Sora 2のローンチが原因だよ。マジで。OpenAIのリソースだって無限じゃないんだから。
ハードウェアを増強すれば落ち着くでしょ。それに、OpenAIはちゃんとやってくれると思うよ。Antrophicみたいに前科があるわけじゃないし。
でもAIバブルがマジで弾けたら、全部クソになるから、ハードウェア買って、ローカルモデルに固執して、全部自分でやるしかないね。
まずは、ユーザーが確認する前に、勝手に全部のアクションを実行するのを止めるべきじゃない?特に削除とか。あと、モデルの問題じゃないと思う。意図せず削除したのは、ファイルを残すべきか秘密にすべきかを議論してた時だけ。結論は秘密にして、コードをクリーンアップするように頼んだら、秘密のファイルを削除したんだ。gitignroeを確認せずに、チェックインするつもりだと勘違いしたみたい。
うん、OPが抱えてるこれらの問題は、モデルを動かすためにもっと計画的なドキュメントがあれば解決できると思う。
Codexにあるモデルの方が、Claudeのコードにあるモデルよりずっと優秀だよ。
両方使ってるけど、どっちも問題ないよ。CC(Claude Code)もまた普通に動くようになったみたい。Codexの唯一の問題は、ちょっと遅いこと。バグ修正とか複雑なことにはCodexの方がずっと優れてる。
Codexって、最初の1週間は処理能力をめっちゃ上げて、ロジックも賢くしてるんじゃないかなって思ってる。
Proの最初の週のクオータに達したら、マジでクソになるんだよね。Claudeの最悪な時みたいにさ。
頼んでもないのに、アプリのUIを書き換えて、まるで「初めてのHTML」みたいな子供っぽいバージョンにしやがるんだぜ🤣 1、2ヶ月前のClaudeみたい。
Codexに切り替えようと思ってるなら、最初に何をさせたいかを明確にしておくのがおすすめだよ。Codexは、入力と出力のフォーマットやエラー処理の方法など、細かい情報を与えると一番うまくいくってことがわかったんだ。最初にこれをやっておくと、やり取りが減って、すぐに役立つ結果が得られるよ。少しでも楽になればいいな!
AtlassianのRovo Dev CLIを試した人いる? ClaudeやCodexと比べてどう?
Claude CodeでGLM4.6に切り替えたばかり。BMADメソッドを使ってるから、今のところ大きな問題はないかな。まずは月3ドルのやつで試してみて。
コードの勉強でもして、泣き言言うなよ?
自分的には、GPT5 Codex HighのCodexがすごく良い感じ。
昨日、Codexの健忘症(Codex Amnesia)によく気付いたんだけど、思考の流れを見失ってた(Claudeみたいに)。初めての経験だったよ。でも一時的なものみたいで、数回しか起こらなかった。コンテキストをクリアして再起動したら直ったみたい。
今、ClaudeとCodex、それにGemini CLIの両方を使ってて、最新のZen MCPアップデートを通して統合してるんだ。Clinkコマンドも入れてね。Clinkがあれば、Gemini CLIの提案を実装して、それをClaudeと連携させて、さらにClink経由でClaudeを使ってCodexで出力を検証できるんだ。マジで助かってるよ。AI生成物を「クロスチェック」して、各モデルの強みを活用できるからね。
ASP.NET Coreアプリを扱ってるんだけど、Claudeは一番簡単なことすら直せないんだ。Seleniumでスクリーンショットを撮って、「修正済み!」って嘘をつき続けるんだ。「直ったぞ!!!」って、全然直ってねーじゃん!
モデルに勝手にスクショさせちゃダメだぞ。コーディングだけでも手一杯なのに、スクショの指示出して、その結果を解釈させようとしたら、あっという間にコンテキストがいっぱいになっちゃう。あと、LLMにイライラするような考え方もしちゃダメだ。LLMがもっとうまくできるように、どうすればいいか考えるのが大事。
2月からClaude Codeの200ドルマックスプランを使ってたんだけど、1週間前に解約したんだ。Codex Proプランに切り替えたら、Sonnet 4.5よりも優れてると思う。より正確だし、指示の理解度も高い。今のところ心配なのは、主にレート制限だな……。
Appleのエコシステムでプログラミングするなら、CCの方がXcodeを理解してるし、プロジェクトレベルの設定も変更できるから断然良いと思う。Codexはサンドボックス内で動くから、コンパイルとかコンパイルエラーの確認みたいな基本的なことがあんまりできないんだよね。CCの方がCodexより一発でコードを生成してくれることが多いし。だから、Swiftを使うなら、CCの方が向いてると思うよ。CCはGitとかGithubとの連携もスムーズだしね。
ぶっちゃけ、LLMとCodexは互いに排他的なものだよ。モデルはもっと複雑なAIコーダーでうまく機能する。Codexは十分に良く書かれてるけど、もっと良くできたはずだよね。いや、悪く書かれてるってわけじゃなくて、ただ書かれててアップデートされてないって感じ。
まあ、十分使えるレベルってこと。モデルがホストよりも成長することもあるけど、それってただの進化じゃん? 試してみて Droid
おすすめのエージェントフレームワークってある?
Codexマジでクソ
Codexはモデル界のOpusみたいなもんかな。計画とか準備には最高だけど、実装はマジでゴミ。俺はGPT-Fastにこだわって、技術的な問題は4.5を使ってる。
KEKW(笑いを表す海外ネットスラング)
よくわかんないけど、俺はQwen Code CLIを使ってる。一番良いのは、Kilo codeを通して使うところ。
これによって、もっとコントロールできるようになるんだ。
だから、エージェントは勝手に削除できないんだよ。許可が必要。
それが一番良い選択肢。Kilo codeは、Gemini cli、qwen code cli、codex、claude code cliをサポートしてるよ。
俺もここ3、4日で劣化に気づいたよ。ここ数週間はめっちゃ満足してたのに。
20年のベテランソフトウェアエンジニアだけど、過去2年間ClaudeとGPTを使ってきて、完璧だよ。どんどん良くなってるし。結局は、何をしているかを理解しているかどうかに尽きるんだよね。
ターミナルベースのやつを使うのやめて、Web UIに戻ったわ。出力が全然怪しくないし、指示出しやすいし。
Claudeはここ2ヶ月くらい詐欺だよ。元の状態に戻して、人を騙すのをやめてくれ。
どっちも使うよ。Codexの方が細かいとこまで見てくれる気がする。計画の実行能力が高いんだよね。