HN🔥 141

💬 160

シグモイド関数は魔法じゃない：ニューラルネットワークの限界を知る

Tomte

約16時間前

ディスカッション (11件)

TomteOP🔥 141

約16時間前

AI開発において、とりあえずシグモイド関数を使えばなんとかなると思っていませんか？実は、シグモイド関数には勾配消失問題などの弱点があり、現代の深いネットワークにおいては万能薬にはなり得ません。モデルのパフォーマンスを本気で向上させたいなら、ReLUやその派生関数への理解と使い分けが不可欠です。「とりあえずシグモイド」からの脱却こそが、精度の高いモデル構築への第一歩です。

🔗 リンク先:https://www.astralcodexten.com/p/the-sigmoids-wont-save-you

gm678

約11時間前

そのWhartonのAI能力グラフのY軸が何を表しているのかは知らないけど、Opus 4.6がGPT 5.1 Maxの2倍以上の知能や能力を持っているなんて到底信じられないな。

LarsDu88

約10時間前

最近のAIの発展について興味深いのは、ムーアの法則という「実はシグモイド曲線だった指数関数」が収穫逓減の局面に入ったのとちょうど同じタイミングで起きていることだ。

AIはムーアの法則が終わることで減速するというのが素朴な予想だけど、現在シリコン上でどう実装されているかをよく考えてみると、モデルはまだめちゃくちゃ非効率なんだよ。

そのうち誰かが、デジタルな行列演算をアナログなログアンプの行列演算に置き換えるようなテンソル処理チップを作るだろうし、あるいはメモリスタのブレイクスルーがメモリと計算の境界を壊し始めるかもしれない。

ハードウェアへの研究資金が適切に投じられれば、AIの天井はまだまだ高くできるはず。

btilly

約10時間前

リンディの法則は本当に素晴らしい名言で、自分も大事にしようと思ってる。

特定のトレンドの根本的な限界がわからない場合、デフォルトの仮定として「これまで続いてきた期間と同じくらい続く」と考えるべきだ。

実際、これには簡単に信頼区間を設けられる。90%の確率で、私たちはトレンドの最初の5%や最後の5%にいないはずだ。つまり、あと1/19から19倍は続くだろう。中央値としては、これまで続いた期間と同じだけ続くということになる。

これは非常に直感に反するよね。何かが有限の期間で終わると予想しているときは、年を経るごとに終了に近づいていると感じる。でも、実際に続いている間は、さらに1年長く続くだろうという期待が強まるわけだ。

私たちはトレンドを見ている。それが有限だと信じている。その直感は、年を重ねるごとに終わりに近づいているというものだ。しかし期待値としては、年を重ねるごとに、さらに1年長く続くようになる！

これをどう応用するか？簡単なのは株だ。急成長している企業が、あとどれくらい急成長を続けると予想すべきだろうか？

stymaar

約8時間前

いつシグモイド曲線が顔を出すかはわからないけど、Nvidiaの四半期データセンター収益は過去3年で15倍に成長した[1]。Scottを含め、誰もこれがあと3年続くとは信じていない。そうでなければ、Nvidiaの時価総額は控えめに見積もっても今の10倍にはなっているはずだからね。

指数関数的な成長は、初期には限界ではなかった要因を露呈させるため、結局は必ずシグモイド曲線になる。1年前までは、シリコン製造にはNvidiaのような高利益率の顧客を受け入れる余地がたくさんあった（単に利益率の低い顧客を出し抜くだけでよかったから）。でも今はもうほぼ残っていないし、いくら金をつぎ込んだところでファブが勝手に一夜で建つわけじゃない。

dreambuffer

約6時間前

参考までに、著者は「AGI」が1〜2年以内に実現すると予測していて、自身の公的な評判をそこに賭けているんだ。彼はトレンドラインがシグモイドではなくリンディに従うことに個人的に投資している状態だね。

トレンドが静的なオブジェクトであるかのようにリンディを適用できるとは思わないけど、まあそれは別の話か。

andy99

約6時間前

AIは便利な指標に従ってうまくスケールしてきた。ニューラルネットワークには、定義したものなら何でも素早く学習して習得できるという性質がある。複雑さを増す様々なタスクが、実は知能を必要とせず、自己回帰的な強化学習の問題としてフレーム化できることがわかっている。個人的には、AIはLeNetの頃と比べて、意識のある知能に近づいているとは思わない。仕組みがわかっている以上、それはほぼ自明だ。私たちは直交する何かを測定しているだけで、基本的にはユニバーサル関数近似器が、与えられた膨大な計算リソースを使って、定義した関数にどれだけフィットできるかを測定し、それを進歩と呼んでいるだけ。本当に興味深いのは、AIに何ができないのか、実際の知能と何が違うのかを適切に測定する方法を見つけられるかどうかだろうね。

追記：特に以下には同意できないな。

でも、AI能力向上のトレンドが決してある特定の恐ろしいレベルには達しないと誰かが主張するなら…

ベンチマーク結果が「恐ろしく」なってきていることは認めざるを得ないけれど、それは最適化する目標を見つければ自動的に導かれる結果であって、それ以上の意味はない。

noosphr

約6時間前

この記事は第2パラグラフで問いに対する答えを出しておきながら、残りの部分ではその答えを完全に無視している。

私の理解では、これは異なるテクノロジー（プロペラ、ターボジェットなど）の3〜4つの「世代」を表している。各技術は通常の反復的な改善を経て、根本的な限界に達したときに、より優れた技術に置き換えられた。最後の技術であるラムジェットは時速3500kmで限界に達したが、それ以上のものを開発する経済的・規制的意志がなかったため、記録がそのまま残っている。

これは単一のシグモイドじゃなくて、複数のシグモイドが積み重なっている状態だ。飛行機は単一の技術ではなく、たまたま同じことをする複数の技術の集合体に過ぎない。

それぞれが完璧にシグモイド曲線に従っている。指数関数的に見えるのは、より高い最大ポテンシャルを持つ別のシグモイドに切り替えられる予測不可能な発見があるからに過ぎない。

AIも同じだ。もし今日、GPT-2と同じアーキテクチャを使っていたら、新しいフロンティアモデルを学習させるのはかなり厳しいはず。何十ものブレイクスルーがあったからこそ、これだけの性能向上が実現したんだ。

そうは言っても、指数関数やシグモイドは成長をモデル化するのに適したモデルじゃない。成長は微分方程式だ。独立した入力があり、出力があり、その出力の一部は任意の複雑さを持つ因果関係を通じて、再び依存する入力となる。何が起きるかは、その技術を支配する特定の微分方程式が何であるかに完全に依存する。経済と呼んでいる現在のシステムは、全くランダムな好況と不況が繰り返される、深く根本的な理由のないカオスなシステムになり得る。

pron

約5時間前

Scott Alexanderは、知識の浅いトピックについて書くことで有名だ。彼が今回、自分だけでなく誰にとっても知識の浅い分野を見つけたのは喜ばしいことだよ。
「Xが起きる前に成長曲線が平坦化する」と予測するよりもひどいのは、「Yが起きた『後』で、かつXが起きる『前』に平坦化する」と予測することだ。AIとソフトウェア開発の関係がまさにそう。AIがほとんどのソフトウェアを書けるようになりソフトウェアエンジニアを置き換えるが、一方でそのソフトウェアのアイデアの源泉となる人々や利用者までは置き換えられない、と予測する人が多すぎる。航空管制や医療診断のソフトウェアを書けるようになった段階で成長が止まり、航空管制官や医師を置き換えられる段階には至らない、と考える理由が見当たらない。
私たちはAI（というか一般的な知能）についてあまり知らないが、計算複雑性については少し知っている。「恐ろしいことが起きる」という予測（Alexanderがほのめかしているであろうもの）の一部は、既知の計算複雑性の限界にぶつかる。人々に影響を与えるシステムのほとんどは非線形だ（天気から経済まで）。それらを予測するには知能ではなく計算リソースが必要になる。同様に、制御にも知能ではなく計算リソースやその他のリソースが必要だ。コンピュータに制御権を与えるという選択肢はあるだろうけど（といっても、厄介な問題を解決できるほどではないだろう）、他国が平均以下の知能の人間に制御権を与えている現状（アメリカ、お前のことだよ）を見ると、超人的な知能が存在したとしても、それがそれだけで例外的に危険だとは思えない。

whatshisface

約4時間前

モデルが欲しいなら、これだ：LLMは学習データを補間することを超えた能力を明らかに示したことは一度もない。ChatGPTに宿題を解かせるには、宿題を解く報酬を得たデータ作成者の軍団が必要だ。成功したと言われる「バイブコード（雰囲気コード）」系のアプリを、他のアプリと一緒にGitHubのどこかにあるような地質学的な土壌図の隅っこに置いてみるとどうなるか。予測？彼らは成功しないだろう。

このモデルにおいて、皆が騒いでいる指数関数的な成長とは、単にモジュール式ソフトウェアの夢（「歴史上たった一度、ORMを書くだけでいい！」）と、ライブラリ内の膨大な知識が実現したというだけの話だ。

少なくともこれは反証可能だ。

stego-tech

約3時間前

この記事の教訓としてより適切だと思うのは、どんなデータやモデルを使おうと、この先どうなるかを確実に知ることは不可能だということ。もし誰かがそんなに正確に予測できるなら、世界で一番の金持ちになっているはずだからね。

AIがいつ（あるいは本当に）破綻するのか成功するのか、証明可能な確信を持って言うことはできない。それは私の専門分野じゃないから。それよりも、推進派と終末派の議論における欠陥を指摘して、両者が話し合いたがらない問題を特定することはできる。それは気休めにはなるけれど、どちらかの方向に確信を持って資金を投じるには十分じゃない。だから、特定の企業への露出は制限して、うまくいけば恩恵を受け、失敗すれば損失を最小限に抑えられるようなインデックスやファンドを対象にしている。

そもそも、そのような数学を使って立場を正当化すること自体、技術者としては少し馬鹿げていると思う。数学モデルは機能しなくなる時までしか機能せず、その時点で新しい知識を取り込むために全く新しいモデルを設計する必要がある。一方で、論理的な議論は新しいデータに適応しやすく、数学的な思考ではなく、批判的な思考と推論を体現している。

シグモイド曲線やリンディの法則などが理由でAIがブーム／バストになるというのは「議論」ではなく単なる「言い訳」だ。本質的な議論は、なぜそういった事象が現れるのか（あるいは現れないのか）、そして規制、イノベーション、政策を通じて、AIの内外でどう対処していくかという点にあるはず。