HN🔥 83
💬 16

AWSの大規模データセンターを支えるフラットネットワーク技術の全貌

tanelpoder
4日前

ディスカッション (9件)

1
epistasis
4日前

いやー、James Hamiltonのブログ投稿、最高だね!(追記:具体的な詳細を知りたいなら、ブログで紹介されてるArxivの論文はここ https://arxiv.org/pdf/2604.15261 (https://arxiv.org/pdf/2604.15261) だし、amazon.scienceのリンクにはもう少し高レベルな視点での詳細が載ってるよ https://www.amazon.science/blog/how-flat-is-replacing-fat-in... (https://www.amazon.science/blog/how-flat-is-replacing-fat-in-aws-data-center-networks) )

結果は驚異的だった。従来のファットツリーネットワークと比較して、RNG(Resilient Network Graphs)はルーター数を69%削減し、スループットを33%向上させ、ネットワーク電力を40%カットし、運用コストを27%削減した。2026年初頭には、RNGが世界中のAmazonデータセンターの新しい標準設計になった。

ケーブル接続については、ShuffleBoxというパッシブな光デバイスが開発された。内部配線とランダム化されたShuffleBox間ケーブル接続の組み合わせにより、真のランダムグラフのように振る舞う「準ランダム」グラフが生成される。

これってかなり凄くない?ネットワークのランダムなレイアウトが、平均してより良い特性を持つなんて…

ただ、パフォーマンスのロングテール部分がすごく気になる。最悪のケースはどうなるんだろう?逆に、より良いケースはあるのかな?Closネットワークの均一性は素晴らしいけど、多くの負荷は均一性を必要としていない。もしRNGベースのネットワークに不均一性があるなら、それが役立つのか、あるいは逆に悪影響を及ぼすような運用特性があるのかもしれない。

2
kev009
4日前

インターネットの仕組みとそんなに変わらないよね。IXピアリングスイッチのような制御はあるし、社会的・経済的要因もあるけど、全体としてはかなりランダムだ。

3
socketcluster
4日前

これ読んでて面白いと思ったのは、これが基本的には https://socketcluster.io/ (https://socketcluster.io/) のスケーラビリティの原理と同じだからだ。利用可能なブローカー間でチャンネルをシャーディングするのは疑似ランダムなんだよ。決定論的であるためにハッシュ関数を使ってるけど、分散結果はランダムに見える。利用可能なノード間で負荷を均等に分散させる方法として、これが自分が見つけられた最良の手法だった。これが「恥ずかしいほどの並列性(embarrassingly parallel)」設計の鍵なんだ。

これをデータセンターレベルでやってるっていうのが面白いね。

7
wofo
4日前

運用コストの削減はすごいな、信じられないレベルだ(27倍?)。どこからそんな削減効果が生まれるのか、何か分かる人いる?

8
protocolture
4日前

情報が足りてない気がする(ここで言う「データセンターネットワーク」とは何を指しているのか、など)。理解が追いつかないのはそのせいかも。これって、従来のラックやコロケーションのパラダイムの外にあって、ハイパースケーラーに関係する話なんじゃないかな。