ディスカッション (11件)
OpenAIが提供する音声AI機能において、いかにして低遅延かつ大規模なスケールでの配信を実現しているのか。その技術的な裏側について解説します。
Voice AIは会話が話すスピードで進まないと自然に感じられない […] OpenAIの規模だと、9億人以上の週間アクティブユーザーに対応するという具体的な要件に変換される
この数字ってChatGPT全体のユーザー数を指してるはずだよね?実際に音声機能を使ってるユーザーはその中の一部で、かなり少ないんじゃないの?
ハードウェアやソフトウェアの最適化にどれだけリソースを割くべきかっていうビジネス判断に影響するような重要なポイントだと思うんだよね。
もしこれに手を出そうとしてる人がいたら、pipecatがおすすめ。素晴らしいオープンソースのレポだしコミュニティも活発だよ。https://github.com/pipecat-ai/pipecat
より優れたモデルでしっかり思考させるために回答まで時間がかかる分には、全然気にしないかな。それよりも、こちらの割り込みをうまく処理してくれるかどうかが重要。あと、1秒間隔を空けただけで話し始めたら困るし、話が終わったかどうかをちゃんと見極めてくれる賢さが欲しいね。
ストリーミング中にトランシーバーがクラッシュしたら、アクティブなセッションってどうやって復旧させるんだ?システムが自動的に新しいWebRTCセッションでコンテキストを再確立してくれるの?
現状の実装だと、低遅延はむしろ弊害になってる気がする。人間同士の自然な会話なら間を置くことは普通だけど、GPTはそれを「終わり」と判断して勝手に喋り出しちゃうからね。
それに、最近は年を取って言葉が出てくるのが遅くなってるから、この速すぎる音声GPTには助けられるどころかイライラさせられるよ。全部言いたいことを頭の中で組み立ててからじゃないと喋れないし、これじゃ自然な会話とは言えないよ。
OpenAIが自分の関わっているPion[0]というライブラリについて記事を書いたり、活用を公表してくれたのは本当にありがたい。WebRTCに詳しくないなら、この分野は最高に面白いよ。WebRTCの仕組みを詳しく解説する『WebRTC for the Curious [1]』という本も書いてるから見てみて。
OpenAIはもうWebRTC/オーディオにLivekitを使ってないって認識で合ってるのかな?
個人的には、これは単にレイテンシだけの問題じゃないと思う。音声でやり取りさせることは、テキストだけじゃ決して得られない学習データを集めることにつながるからね。SFUじゃなくてトランシーバー方式を選んで、マルチパーティをほぼ無視してたのもそのせいじゃないかな?
ちょっと待って……共有してくれるのは純粋に嬉しいんだけど、OpenAIのリアルタイム音声モデルは能力的にまだ4oファミリーで止まってるってことは忘れちゃいけないね。今のままでも十分役立つし、この分野にまともな競合がいないのは本当に残念。リアルな会話ができるっていう体験自体には、アイデアや概念を言語化するのにすごく助けられてるんだけどね。
それでも、リリース当初とは違って、これらが今の最先端モデルではないってことは意識しておいたほうがいい。
(サム、もしこれを見てたら、新しいリアルタイム音声モデルを頼むよ)
ブラウザでのRFC 9297対応が待ち遠しいね。これが来ればクライアント・サーバー構成でわざわざWebRTCを扱わなくて済むようになるのに。