OpenAIは10月1日に新しい「Realtime API」のパブリックベータ版をリリースしました。
このAPIは、開発者がアプリ内で低遅延のマルチモーダルエクスペリエンスを構築するのに役立ちます。
これにより、AIを用いたリアルタイム会話がアプリで可能になります。
音声アシスタントの機能を実現するために、音声認識モデルがユーザーの音声入力をテキストに変換し、それをテキストモデルに渡して推論を行い、出力されたテキストを音声として読み上げることが求められますが、従来の方法では遅延が顕著で問題が発生していました。
新しいRealtime APIは、オーディオの入出力を直接ストリーミングすることでこれらの遅延問題を改善し、より自然な会話体験を提供します。
また、有料ユーザー向けには「Advanced Voice Mode」と似た機能が利用可能で、中断を自動的に処理できる機能も備わっています。
実際にこのAPIを利用しているアプリとしては、栄養とフィットネスをサポートする「Healthify」があります。
このアプリでは「Ria」というAIコーチがリアルタイムで自然な会話を行い、ユーザーにパーソナライズされたサポートを提供しています。
また、言語学習アプリ「Speak」は、このAPIを使用してロールプレイ機能を強化し、ユーザーの言語学習を支援しています。
さて、プログラマーとして感じるのは、技術は素晴らしいが、APIの利用コストにも注意が必要だということです。
特にOpenAIのオーディオ入力の価格は1分あたり約0.6ドル、出力は0.24ドルで、これをどうコスト管理するかが興味深い課題です。
安全性についてもOpenAIは強調しており、自動監視モデルを用いて入力と出力を人間がレビューするなど、複数の安全保護レイヤーを使用しています。
しかし、開発者にはまだ多くの責任があり、ユーザーに対してAIの利用方法を明確に伝える義務があると忠告されています。
将来的には、画像や動画のモダリティ追加やレート制限の引上げ、公式SDKのサポートなどの機能拡張も予定されているとのことです。
これにより、さらに多くの可能性が広がりそうですが、技術的なハードルもあり、開発者には慎重な対応が求められるでしょう。
阿修羅ワークスの出品リスト
阿修羅ワークスのプロフィール