【業務内容】
【募集背景】
音声合成およびTTS技術を活用したプロダクト・サービスの高度化を目的として、専門性の高いエンジニアを募集しております。
【作業内容】
TTS/音声合成モデルのFine-tuningおよび追加学習を行い、話者適応や感情・プロソディ制御、多言語対応などの高度なカスタマイズを実施していただきます。音声データセットの構築や前処理パイプラインの設計・実装、GPUを活用した推論最適化や推論基盤のチューニングを行っていただきます。また、REST APIやWebSocket、gRPCを用いた推論サービスの設計・実装および運用に携わっていただきます。
【求める人物像】
独自データや事業領域に強い関心を持ち、新たな価値創造に貢献したいという強い意欲のある方を求めております。非常に困難な課題に対しても粘り強く研究開発を推進でき、自律的に行動し未知の領域にも積極的に挑戦できる方、チーム内外との円滑なコミュニケーションを通じてプロジェクトを推進できる方を歓迎いたします。
【ポジションの魅力】
最先端のTTSおよび音声生成技術に携わりながら、モデル開発から推論基盤の構築、サービス化まで一連のプロセスに関与していただけます。高難度な技術課題に取り組むことで、音声AI分野における専門性を高めることができ、事業インパクトの大きい取り組みに参画していただけます。
【開発環境】
PyTorchを中心とした機械学習環境およびGPUを活用した推論基盤を使用し、vLLM、TensorRT-LLM、SGLang等のミドルウェアや各種監視・可観測性ツールを組み合わせて開発を行います。
【必須スキル】
・TTS/音声合成モデルに関する知見
・Qwen-TTS、Orpheus、VITS、Fish-Speech等のTTSモデルのFine-tuning・追加学習の実務経験
・話者適応、感情/プロソディ制御、多言語対応などのカスタマイズ経験
・音声データセットの構築および音声/テキストアライメント等を含む前処理パイプラインの開発経験
・PyTorchでのモデル学習およびLoRA等の効率的Fine-tuning手法の実装経験
・GPU上での推論最適化(バッチング、KV cache管理、量子化、ストリーミング生成)の実務経験
・vLLM、TensorRT-LLM、SGLang等の推論基盤の選定・導入・最適化経験
・同時実行数(concurrency)のチューニングおよびレイテンシ(TTFS等)改善の実務経験
・CUDA最適化およびメモリ効率化に関する深い理解
・REST API、WebSocket、gRPC設計およびストリーミング音声配信の実装経験
・推論サービスのレプリカ構成、オートスケーリング、監視・可観測性基盤の構築経験
【歓迎スキル】
・音素タイムライン(phoneme timestamp)生成をTTSに統合した経験
・リアルタイム音声対話・AIアバターのリップシンク等の開発経験
・日本語および英語でのビジネスレベルのコミュニケーション能力
・音声AI領域におけるTTS/音声生成モデルの開発・運用経験
--------------------------------
ココナラテックの案件の選考フローは以下の流れとなっております。
① ココナラ募集上での応募:受注者がココナラ募集から応募いただく。
※応募時には、スキルシートを添付の上、応募をお願いいたします。
② 担当者面談:書類選考の上、スキルシート・応募時の内容をもとにご希望の条件などをヒアリングいたします。
③ 企業面談:クライアントにココナラテック担当者が書類をもとに提案し、面談の希望をいただいたら、クライアントを含めた三者面談を設定させていただきます。
④契約・稼働開始:面談後に双方で契約条件の合意がされたら契約を締結し、実際に稼働を開始します。契約締結後も専属エージェントが、定期的にサポートいたします。
※応募いただいた際には、次のとおりクライアントへ提供させていただきます。
応募をもって、クライアントへの提供に同意いただいたものとさせていただきますので、予めご了承のうえ、応募いただきますようお願い申し上げます。
■利用目的
・書類選考、契約締結、その他業務管理のため
■提供情報
・苗字、年代、性別、都道府県名、現職の状況、職務経歴、ポートフォリオ・スキルシート及び各種実績