400万人が利用する会社訪問アプリ
ExaWizards Inc. / ソフトウェアエンジニア
ログインユーザーのみに公開
【研究】 ・何をしているか 任意の声を入力された顔画像に合う声に変換するモデルの作成
【概要】 2023年5月23日に東京理科大学で開催されたオープンキャンパスの展示用に、リアルタイム音声変換器の作成を行った。 【メンバー】 開発要員が私と友人の2名、他プレゼン要員が1名 【担当】 私の担当は主に声質変換モデルの作成、また、それに伴う特徴量処理等 【反響】 展示室とは別室にて教授がアンケートを行ったところ、概算8割程度のお客さんが一番印象に残った展示として挙げていた。 【工夫点】 ・声質変換モデルを精度を落とさずに軽量化し、リアルタイム性を高めている ・雑音除去モデルを声質変換モデルの入力前に適用することで、生成品質UP ・通信を介してデータの送受信を行う(有線)ことで、デスクトップを移動させずに済む 【開発にあたって苦労した点】 ・開発要員が少なく、開発期間も1ヶ月半と少なかった点 ・チーム開発の経験がない2名だったため、それぞれスクリプトを別々に作成してしまった点 ・上に伴い、スクリプトの統合に手間取った点 【得られた経験・知識】 ・少人数ではあるがチーム開発の経験 ・雑音除去モデルの知識 ・音声のリアルタイム処理についての知識
受託開発しているプロジェクトのチームに参加し、バックエンド部分を一部担当
Sugimoto Kosukeさん
のプロフィールをすべて閲覧
Wantedlyユーザー もしくは つながりユーザーのみ閲覧できる項目があります
過去の投稿を確認する
共通の知り合いを確認する
Sugimoto Kosukeさんのプロフィールをすべて見る