OpenAIはどうやって爆速の音声AIを大規模に提供しているのか？裏側の技術を徹底解説

Sean-Der

約17時間前

ディスカッション (11件)

Sean-DerOP🔥 246

約17時間前

OpenAIが提供する音声AI機能において、いかにして低遅延かつ大規模なスケールでの配信を実現しているのか。その技術的な裏側について解説します。

🔗 リンク先:https://openai.com/index/delivering-low-latency-voice-ai-at-scale/

thimabi

約16時間前

Voice AIは会話が話すスピードで進まないと自然に感じられない […] OpenAIの規模だと、9億人以上の週間アクティブユーザーに対応するという具体的な要件に変換される

この数字ってChatGPT全体のユーザー数を指してるはずだよね？実際に音声機能を使ってるユーザーはその中の一部で、かなり少ないんじゃないの？

ハードウェアやソフトウェアの最適化にどれだけリソースを割くべきかっていうビジネス判断に影響するような重要なポイントだと思うんだよね。

Aeroi

約16時間前

もしこれに手を出そうとしてる人がいたら、pipecatがおすすめ。素晴らしいオープンソースのレポだしコミュニティも活発だよ。https://github.com/pipecat-ai/pipecat

didibus

約15時間前

より優れたモデルでしっかり思考させるために回答まで時間がかかる分には、全然気にしないかな。それよりも、こちらの割り込みをうまく処理してくれるかどうかが重要。あと、1秒間隔を空けただけで話し始めたら困るし、話が終わったかどうかをちゃんと見極めてくれる賢さが欲しいね。

charisma123

約15時間前

ストリーミング中にトランシーバーがクラッシュしたら、アクティブなセッションってどうやって復旧させるんだ？システムが自動的に新しいWebRTCセッションでコンテキストを再確立してくれるの？

legohead

約15時間前

現状の実装だと、低遅延はむしろ弊害になってる気がする。人間同士の自然な会話なら間を置くことは普通だけど、GPTはそれを「終わり」と判断して勝手に喋り出しちゃうからね。

それに、最近は年を取って言葉が出てくるのが遅くなってるから、この速すぎる音声GPTには助けられるどころかイライラさせられるよ。全部言いたいことを頭の中で組み立ててからじゃないと喋れないし、これじゃ自然な会話とは言えないよ。

Sean-Der

約15時間前

OpenAIが自分の関わっているPion[0]というライブラリについて記事を書いたり、活用を公表してくれたのは本当にありがたい。WebRTCに詳しくないなら、この分野は最高に面白いよ。WebRTCの仕組みを詳しく解説する『WebRTC for the Curious [1]』という本も書いてるから見てみて。

qrush

約15時間前

OpenAIはもうWebRTC/オーディオにLivekitを使ってないって認識で合ってるのかな？

logickkk1

約15時間前

個人的には、これは単にレイテンシだけの問題じゃないと思う。音声でやり取りさせることは、テキストだけじゃ決して得られない学習データを集めることにつながるからね。SFUじゃなくてトランシーバー方式を選んで、マルチパーティをほぼ無視してたのもそのせいじゃないかな？

Lucasoato

約14時間前

ちょっと待って……共有してくれるのは純粋に嬉しいんだけど、OpenAIのリアルタイム音声モデルは能力的にまだ4oファミリーで止まってるってことは忘れちゃいけないね。今のままでも十分役立つし、この分野にまともな競合がいないのは本当に残念。リアルな会話ができるっていう体験自体には、アイデアや概念を言語化するのにすごく助けられてるんだけどね。

それでも、リリース当初とは違って、これらが今の最先端モデルではないってことは意識しておいたほうがいい。

（サム、もしこれを見てたら、新しいリアルタイム音声モデルを頼むよ）

hnav

約13時間前

ブラウザでのRFC 9297対応が待ち遠しいね。これが来ればクライアント・サーバー構成でわざわざWebRTCを扱わなくて済むようになるのに。