超速リアルタイム会話機能!OpenAIの新Realtime APIでアプリはどう変わる?
OpenAIは10月1日に新しい「Realtime API」のパブリックベータ版をリリースしました。
このAPIは、開発者がアプリ内で低遅延のマルチモーダルエクスペリエンスを構築するのに役立ちます。
これにより、AIを用いたリアルタイム会話がアプリで可能になります。
音声アシスタントの機能を実現するために、音声認識モデルがユーザーの音声入力をテキストに変換し、それをテキストモデルに渡して推論を行い、出力されたテキストを音声として読み上げることが求められますが、従来の方法では遅延が顕著で問題が発生していました。
新しいRealtime APIは、オーディオの入出力を直接ストリーミングすることでこれらの遅延問題を改善し、より自然な会話体験を提供します。
また、有料ユーザー向けには「Advanced Voice Mode」と似た機能が利用可能で、中断を自動的に処理できる機能も備わっています。
実際にこのAPIを利用しているアプリとしては、栄養とフィットネスをサポートする「Healthify」があります。
このアプリでは「Ria」というAIコーチがリアルタイムで自然な会話を行い、ユーザーにパーソナライズされたサポートを提供しています。
また、言語学習アプリ「Speak」は、このAPIを使用してロールプレイ機能を強化し、ユーザーの言語学習を支援しています。
さて、プログラマーとして感じるのは、技術は素晴らしいが、APIの利用コストにも注意が必要だということです。
特にOpenAIのオーディオ入力の価格は1分あたり約0.6ドル、出力は0.24ドルで、これをどうコスト管理するかが興味深い課題
0