HN🔥 40
💬 7
アリスが待ちきれない!非同期処理のイライラを解消するには?
birdculture
約15時間前
アリスが処理の完了を待てずに焦っています。非同期処理やレスポンス待ちで発生する「待ち時間」の課題について、エンジニアの視点から解決策を考えていきましょう。
ユーザーへの影響を考えるなら、p99以外のメトリクスを見るのは賢明じゃないな。すべてのユーザーがいつかは1%未満の極端なリクエストを経験するわけだし、半分が中央値以下のレイテンシに収まるようなリクエストしか送らないなんてことはないんだから。結局、彼らのリクエストの一部は最悪のケースに直面することになる。テール部分に注目して最悪のケースを最適化するほうが、中央値を改善するよりもよっぽどユーザーのためになるよ。
この記事、中身が薄すぎるよ。数式を見せてくれよ!
E_a[X]の式って自明なのか?自分にはすぐにはピンとこないんだけど…
最近、典型的なテールレイテンシの測定方法がすっかり嫌いになったよ。今は測定期間中に「許容できない体験」をしたユニークユーザーの割合を何よりも重視している。こっちのほうがずっと本質的だし直感的だね。今のp99の考え方には正直驚かされるよ。2N(99%)なんて可用性の指標としてはひどい数字なのに、UXだと全然別扱いされるだろ?測定結果を見てもまさにその通りで、優れたUXにはデータセンター並みの高い信頼性が求められるんだよ。1つや2つの9じゃ足りない。結局、今の質の低いサービスが増えた原因って、p90やp99といった指標のせいじゃないかと思ってる。0.5%以下しかエラーが出てないって提示されると、改善を主張するのも難しいからね。規模が大きくなれば、ほとんどのユーザーが毎週のようにその不具合を経験しているってことなのに。