ディスカッション (11件)
OpenSCADを用いた建築向け3Dモデル生成LLMのベンチマークにおいて、「Antigravity 2.0」がトップの座を獲得しました。AIによる設計プロセスの自動化が、また一歩大きく前進したと言えるでしょう。
Antigravityがどんなベンチマークでトップになろうが知ったこっちゃないけどさ:
Gemini CLIの(強制的な)置き換えとして使ってるAntigravityは、使うたびにブラウザ経由でログインしなきゃいけないし、Antigravity IDEも全然アップデートされないんだよね。
だからさ、何かのランキングでトップになることを心配する前に、まずは普通に使えるレベルのデプロイを達成してほしいものだよ。
追伸:元のタイトルこれね。
OpenSCAD LLMベンチマーク:パンテオンの構築
Autodeskを空売りするにはまだ程遠いな。
余談だけど、Autodeskは12月にFusion向けのエージェント型アシスタントをリリースしたんだよね。でも半年経っても、正直言ってかなり微妙な出来だよ。
先週末、マーケットプレイスで妻の自転車を買ったんだけど、状態は良かったものの、内部のケーブルを通すグロメットが一つ欠品してたんだ。で、Claudeにその錠剤みたいな形の穴の写真を、デジタルノギスで測った縦と横のサイズと一緒に投げてみた。
短いプロンプトを与えただけで、すべてがパラメータ化されたOpenSCADモデルを返してくれたよ。そのままTPUで出力してみたら、一発でほぼ完璧だった。ClaudeがX/Y寸法に0.3mmの引き算を入れていたのを、0.1mmに調整したらもうバッチリ。
古代ローマの建築に比べればはるかに簡単な形状だけど、それでもこれほど手軽にできるのは本当にすごいね。
たった一つの現実世界の物体を作っただけでベンチマークと言い張るの?いや、堅牢なツールを測るならそんなやり方じゃダメでしょ。ギリシャ建築をテーマにして、『料理の鉄人』みたいに審査員が勝者を決めるような形式が必要だよ。これはただ、どのツールが主観的に一番見た目の良いパンテオンを作れるか見てるだけだね。
OpenSCADでいろんなモデルや設定を試して、大量のベンチマークを回してみたんだけど、気づいたのはこういうこと:
- モデルの出来にはかなりバラつきがある(特定の3Dモデルには強いけど、他はダメとか)
- Geminiモデルは経験上、一番バラつきが少なくて画像認識能力が優秀
- Geminiモデルは一番クリエイティブでもある(正確なCADパーツを作りたいなら逆効果かも)
- 全体として、このベンチマークはあまり証明にならない。一つの3Dモデル(しかも1回きりの挑戦)では不十分だからね。自分は普段、最低でも1ダースのモデルをそれぞれ3回生成してテストしてるけど、本当はもっとやるべき。ただ、個人開発だとコストがかかりすぎるんだよ。
とはいえ、公開してくれてありがとう。Flash 3.5のパフォーマンスがどんなものか、近いうちに必ず試してみるつもり。
Antigravityは、パンテオンの特徴である天井の内側の模様(オクルスから見える繰り返しの正方形の格間)を実装できた唯一の自律エージェントだった。
これは本当にめちゃくちゃすごいな。3Dモデルを見たとき、これを読むまで建物の『中』を見るなんて考えもしなかったよ。
show_cutawayを有効にした3Dモデルのリンクを貼っておくね。
[1] https://modelrift.com/models/pantheon-benchmark-antigravity-... (https://modelrift.com/models/pantheon-benchmark-antigravity-20-flash-35-high?v.cam=1.23%2C-107.73%2C18.18&v.tgt=1.57%2C-0.50%2C19.83&v.zoom=1.23&c.show_cutaway=true)
うーん、納得いかないな。パンテオンは歴史的建造物の中でも特に有名なものだし、それに関する本は山ほどあるし、学習用の写真や公開済みのモデルだってたくさんあるからね。
個人的には、提供された参考資料だけで、名前も知らない建造物をモデリングするベンチマークの方が興味があるな。LLMがToDoアプリを一発で作るのを見て感じる『薄っぺらな魔法』に近いものを感じるよ。
自分でもこれに挑戦して、ひどい目に遭ったことがあるよ。一発目でそこそこ良い草案ができたとしても、そこから『デバッグ』を始めると、イライラする作業の末に結局モデルが結果をちゃんと『見れていない』ことに気づくんだ。つまり、反復的な修正が全く効かないってこと。
推測だけど、ほとんどの解析ツールは処理前に画像をリサイズするから、その過程で詳細が失われて推論が難しくなってるんじゃないかな。特にワイヤーフレーム画像の場合はね。
自分の使い方が悪いのかもしれないけど、今回のテストはそこを検証できてない。ただの単発の試行に過ぎないし、特に手元に参考写真がないものを作ろうとすると、すぐに破綻しちゃうよ。
ここ数ヶ月、Claudeを使ってOpenSCADスクリプトを生成して、Bambu Studioにエクスポートするってことをやってるよ。OpenSCADの編集機能自体はあまり好きじゃなかったので、個人的なツールを自作してみた:https://webscad.aicentralen.dk/ (https://webscad.aicentralen.dk/)
面白いのは、Bambu Studioにエクスポートすると色ごとに別々のオブジェクトになるから、フィラメントを簡単に割り当てられること。最初にこれで作ったのが、このマルチカラーのキーホルダーだよ:https://webscad.aicentralen.dk/examples/name-tag (https://webscad.aicentralen.dk/examples/name-tag)
モデルが天井の内側の模様を再現できたというのは逆に懸念が残るし、彼らが意図したテストになっていない気がする。天井の模様なんてどっちの写真にも写ってないわけだからね。つまり、モデルは写真と名前から、検索か学習データを使って『内側にこういう模様があるはずだ』と知っていたということだ。つまり、パンテオンの寸法や既存のモデルの情報を参照していた可能性がある。一方で、他のモデルは参考写真に見えるものだけに基づいて構築しようとしていたのかもしれないね。