400万人が利用する会社訪問アプリ

髙橋卓杜

東京都

登録してプロフィールを閲覧

髙橋卓杜

登録してプロフィールを閲覧

個人の実績

声質変換の研究
・声質変換ある人物の音声を別の人物の音声に変換すること。・アルゴリズム音声を直接変換せず、音声特徴量を介して変換する。音声を合成する2つの手法を組み合わせて、精度を改善させる。 1. 深層学習を用いて音声特徴量の変換を行い、音声を合成するフィルタを用いて一度音声を復元する。学習では、二者の音声特徴量間の対応を見つけるために、同じ内容を話した音声データを用いる。話し手が変わると、話すスピードや間の取り方が異なるため、動的伸縮法を用いて対応させる。 2. 振幅情報に対して位相を復元することで音声を合成する手法と組み合わせ、音声を改善させる。・結果対象とする話者らしさの面でどれだけ近づけられているかを評価し、既存手法と比較して音声特徴量上での評価指標では改善した。一方でまだまだノイズの多い音声だった。・修了後研究を始めた当初掲げていた目標の一つにリアルタイムに変換するというものがあった。音声特徴量を計算する過程で時間がかかり、リアルタイムの妨げとなっていた。またリアルタイムのための時間面の制約によって、一部のパラメータも制約された状態となっていた。そこで大学院修了後、Go言語を用いて並列処理を行った。並列処理によって時間面の余裕が生まれたことで、各種パラメータなどの制約が緩まり、より自然な変換をできるようになった。また変換後の音声のノイズは、深層学習の利用によって音声特徴量の連続性が劣化したことが原因の一つではないかと考えた。音声特徴量を変換する処理を深層学習を用いないものにして、ノイズ面の改善を行った。・振り返り Goで書き直し始めた当初掲げていた改善点は全てやり尽くすことができた。リアルタイムを目指すあまり高速な手法に絞って改善を行っていたが、時間かかる手法を高速化する方向で実装すると変換精度と音質の両面を改善できたかもしれないと考えている。