ディスカッション (11件)
最近の関連トピック:『今のサイバーセキュリティは、まるでプルーフ・オブ・ワークだ』 - https://news.ycombinator.com/item?id=47769089 (コメント数198件)
攻撃者と防御者の非対称性があるから、これはProof of Work(プルーフ・オブ・ワーク)とは言えないよ。攻撃者は防御者に見つかってパッチを当てられる前に、脆弱性を1つでも見つければ勝ちだけど、防御者は最終的にすべての問題を特定しなきゃいけない。それに、本当にすべて修正できたかなんて確証も持てないしね。
おまけに、防御者は問題を発見するだけじゃなくて、パッチを展開する手間もある。パッチのインストールには時間がかかるし、パッチが公開されたら、攻撃者はそれを使って脆弱性をリバースエンジニアリングして、まだパッチを当てていないシステムを攻撃できる。最近じゃ数時間でそれが起こるし、AIを使えばさらに加速するはずだよ。
それに、経済的に見合わないという理由で、そもそもパッチが作られなかったり、ユーザーがパッチを当てなかったりする可能性も十分にある。安価なIoTセンサーなんかは、脆弱性を見つけて修正するためのコストをかけるメリットがないから、放置されがちだよね。仮に修正されたとしても、ユーザーがパッチの存在を知らなかったり、わざわざ手間をかけて適用する価値があると思わなかったりすることもあるし。
確かに、レビューを行って問題を修正し、パッチを展開するリソースがある大手システムはたくさんあるよ。でも、脆弱なまま放置されるコードベースが膨大に存在しているのも事実だね。
見出しには全面的に同意するけど、多くの人が「Mythos」という名前を聞いて、いかにも知っているかのように語っているのには驚かされるよ。Mythosはクローズドな存在だし、今のところはウクライナの戦場で現実と接触して失敗した、過大評価されたAndurilのドローンみたいなステータスだよ。
もし誰かこの神話的なMythosにアクセスできるなら、現実とどう接触するか見せてもらえるはずさ。
いくつか別のシナリオもあるけど、どこまで真に受けるべきかは微妙かな。
-
ある程度の能力に達すると、本質的にバグフリーになるんじゃないか説。これについてはちょっと懐疑的。特定の性質を形式的に証明できたとしても、セキュリティは脅威モデル(サイドチャネル攻撃や定数時間処理など)に依存することが多いから。でも、実際には問題にならなくなるのかも?
-
ある能力の閾値を超えたら、トークンを消費さえすれば弱いモデルでも強いモデルの代わりになるんじゃないか説。例えばコーディングだと、GPT-3は全くコードが書けなかったから、GPT-3を100倍使うよりGPT-5.4を1回使う方がいい。じゃあ、GPT-5.4をX回使うのと、GPT-5.2を100X回使うのとどっちがいい?そのあたりは少し曖昧だし、無差別曲線みたいな考え方もできるかもね。
LLMによって実行される分岐は異なるけれど、最終的にはコードの可能な状態に基づいた分岐は飽和する
LLMを使えば、停止問題だってプロ版のサブスク代を払うかどうかの話に変わっちゃうよ!
この議論の枠組み自体がちょっとつまらない気がするな。コードを調査する時間をかければ、悪用できるバグやパッチを見つけられるってのは、大発見ってわけじゃないでしょ。
それに「Claudeによって」という言葉を付け加えたところで、本質は何も変わらないし。人間に金を払って同じことをさせるのと変わらないよ。何十年も前からみんながやってきたことだしね。
アナロジーで言い争うのは無意味だと思うけど、あえて乗っかるならこう答えるよ。「幅優先探索と深さ優先探索、どっちが優れてると思う?」と聞かれたら、「探索範囲による」というのが正解だ。バグや脆弱性も同じで、ソフトウェアの表面に隠れているものもあれば、内部(依存関係の悪用)に隠れているものもあるからね。
結論として、トークンをたくさん使うのは役に立つ!より良いモデルを使うのも役に立つ。両方あればもっと役に立つ。非常に優秀な人間+大量のトークン+最高の最先端モデルの組み合わせが最強だね(特に「優秀な人間」が重要)。
自分で試せばわかるよ、GPT 120B OSSは安くて利用できる。ちなみに、このバグに関して、より強力なモデル(ただし真のバグを発見するには不十分なレベル)を選べば選ぶほど、逆に「バグはない」と判断される可能性が高くなるんだ。
ここが議論の核心だと思う。主張されていることはすべて、誰でも自由に使えるモデルと、限られた顧客しか使えないモデル(Mythos)を比較している。「より良いモデル」というフレーズが問題なんだよ。何をもって「良い」のか?サイバーセキュリティに特化して学習させたのか?単純にトークン/思考予算が高い大規模モデルなのか?より優れたハーネスやスカフォールドを使っているのか?それともプロンプトが上手いだけなのか?
Gemini ProやClaude Opusの方が、小さいモデル(FlashやSonnet)よりもパラメータやコンテキストサイズが大きく、学習期間もデータ量も多いから強力だというのは否定しないよ。
正確な実験セットアップを知らない限り(Mythosは完全にクローズドでAPIですら公開されていないから不可能だけど)、全部ただの口先だけだよ。Anthropicがセットアップを明かすことは絶対にないだろうね。秘密のソースがあるかないかは別として、人々の想像を掻き立ててマーケティングを回す方が価値があるからね。Anthropicは、自分たちが受けている無料の宣伝効果にほくそ笑んでいるはずだよ。
今、2つの人気記事が「サイバーセキュリティはProof of Workと見なせるか」について論争しているね。
面白いことに、私もサイバーセキュリティ(アクセスモデルと運用の前提条件の両方)を、Proof of Work「ではない」証明システムとしてモデル化する記事を書こうか考えていたところだった。どういうことかと言うと、抽象的なモデルには一連の前提(ポリシー、ID、不変条件、設定、実装制約)があり、そこから認証の判断が下されるというモデルだ。
・不正なアクションが導き出せなければ、そのモデルは安全である。
・実装がモデルの前提条件に準拠していれば、システムは正当である。
セキュリティモデルは、その前提条件が実際にどれくらい保持されるかという観点から運用的に分析できるんじゃないかな。
つまり明日のサイバーセキュリティは「GPUを多く積んだ方が勝つ」というProof of Workのようなものにはならない。その代わり、より優れたモデルと、それらへのより迅速なアクセスを持つ側が勝つだろう。
結局、どっちも同じことじゃないの。
AI(LLM)におけるProof of Workは、(このブログで探求されている推論側ではなく)学習側であれば「あり得る」かもね。モデルが学習済みであることを証明するHashcashのようなものが定義されればの話だけど。モデルが追加データによって賢くなったかどうかを測る最低限の基準は、その追加データを正しく認識・推論できることだから、理論的には可能だと思うよ。