HN🔥 116
💬 29

【Show HN】ブラウザ上でAIが「スネークゲーム」を攻略!tinygradで学ぶ強化学習デモ

c1b
1日前

ディスカッション (10件)

0
c1bOP🔥 116
1日前

ブラウザ上で動作するPPO(Proximal Policy Optimization)の学習デモを公開しました。tinygradの「TinyJit」から「WebGPU」カーネルへの変換機能によって実現しています。動作にはWebGPU対応ブラウザが必要です。

1
simedw
約11時間前

いいプロジェクトだね!トレーニングからウォッチ画面に切り替えてまた戻ると、スコアが一時的にガクッと落ちることに気づいたよ。

2
neduma
約11時間前

もっと詳細な説明や実装のポイントを教えてもらえる?

3
beardsciences
約11時間前

自分の平均スコアは最終的に3900くらいまで行ったんだけど、そこから3600〜3900の間で停滞しちゃった。これって皆も同じような挙動になるのかな?今のところステップ数は5kくらい。

4
ldoughty
約10時間前

すごく面白いね!でも4000に近づいたところで壊れちゃったみたいで、0以上のスコアが出なくなったよ。コードのバグなのか、ニューラルネットワークの問題なのかはよく分からない。

avg500 -4.6 (直近500エピソード)

peak 3959.3 (ベストウィンドウ)

roll/s 20.68 (20ステップ平均)

progress 4388 562749 エピソード

5
snats
約8時間前

先月、テキストレンダリングライブラリで似たようなことをやったよ。

モデルを学習させて可視化ツールを作って、テキストをずらすようにしたんだ。

ちゃんと記事にまとめないとね: https://x.com/i/status/2038367016969724259

6
mavdol04
約7時間前

それいいじゃん、自分も数年前に全く同じことをやったよ。

7
ziofill
約6時間前

スネークゲームで、リンゴを早く取らないとペナルティがあることに気づいたんだけど、それって本当に意図した挙動?スネークゲームは長さのバランスじゃなくて、どれだけ長く成長できるかが重要じゃないかな。

8
jesuo
約6時間前

プログラムがイマイチだね。失敗から学習してないよ。スネークがエサを食べないのにエサが残って隙間ができるせいで、同じルートをループし続けてスコアがマイナスになる無限ループに陥ってる。まるで陰陽が固定化されたみたいにね ;) 隙間とエサの配置の間に反復パターンがあるんだ。