音声言語処理技術における世界最大規模の国際会議「INTERSPEECH 2022」にPKSHAの音声合成技術に関する論文が採択

プレスリリース発表元企業:株式会社PKSHA Technology

配信日時: 2022-09-16 11:00:00

テイラー展開法を拡張した独自のアプローチにより、高品質な音声合成と高い計算効率を実現するアルゴリズムを開発

株式会社PKSHA Technology(本社:東京都文京区、代表取締役:上野山 勝也、以下PKSHA)は、同社の音声合成技術に関する論文が、音声言語処理技術における世界最大規模の国際会議「INTERSPEECH 2022」に採択されたことをお知らせいたします。PKSHAは「未来のソフトウエアを形にする」というミッションの下、音声言語処理をはじめ独自の技術を基盤にしたソフトウエアの社会実装を通じ、日本の経済活動の新たな形の実現を目指しています。




論文採択の概要

 「INTERSPEECH」はInternational Speech Communication Association(ISCA)が主催する音声言語処理分野の世界最大規模の国際会議です。 PKSHAのR&D部門において、音声処理、自然言語処理、画像処理等、様々な技術の研究・開発を進める中で、音声合成の品質を高める研究に以前より取組んでいました。本論文では、音声合成を行う特定のモデルの計算の効率化を実現する新技術を紹介しています。採択された論文は9月18日から22日にかけて韓国・仁川で開催される「INTERSPEECH 2022」にて発表されます。


採択された論文について

「Diffusion Generative Vocoder for Fullband Speech Synthesis Based on Weak Third-order SDE Solver」
Hideyuki Tachibana, Muneyoshi Inahara, Mocho Go, Yotaro Katayama, Yotaro Watanabe

「確率微分方程式の3次弱近似法に基づくフルバンド音声合成のための拡散生成型ボコーダー」
橘秀幸、稲原宗能、呉孟超、堅山耀太郎、渡邉陽太郎

深層生成モデルの一つである拡散モデル(Diffusion Model)は、画像や音声の合成において、サンプルに忠実な生成を高精度に実現するモデルとして近年急速に利用が広まっています。一方で、高い合成品質を保ちながらその計算をいかに効率化するかは重要な研究課題となっていました。PKSHAでは、その効率化手法として、拡散モデルを、テイラー展開法(※)と導関数近似モデルに基づいて差分化するという、独自のアプローチで研究を進めていました。今回、テイラー展開法に基づく合成アルゴリズムを新規に開発し、音声合成における計算効率の改善が期待される結果となりました。今回の研究成果を基盤に、継続的な研究・開発を通じさらに高品質・高効率な音声合成の実現を視野に入れています。
※関数を、導関数を用いて局所的に多項式近似する手法


PKSHAが注力する音声処理技術について

 ソフトウエアの社会実装に取組むPKSHAでは、ビジネスを展開するソリューション事業、AI SaaS事業を支えるべく、先端技術の研究・開発に創業初期より注力をしています。先端技術の研究・開発部門では分野をまたぐスペシャリスト同士が、また同部門とビジネス部門が、それぞれの層において境界を超えてサイクルを回すことにより先端技術の事業化を早期に実現する体制のもと事業を推進しています。

 特に、音声処理技術の領域においては、現在展開が加速するボイスボットを含むAI SaaSやコミュニケーションのDXにおける新たな事業活用を視野に、自然言語処理と並行して研究・開発に注力し、未来のソフトウエアの社会実装を目指します。


その他のPKSHA R&Dにおける取組み実績(一部)

 R&D部門においては、実際のビジネス運用で蓄積されたデータや顧客フィードバックを取入れながら、機械学習の技術を基盤に、独自の音声合成技術「DCTTS」や日本語のアクセント推定技術「tdmelodic」を音声領域でのトップ学会の一つであるICASSPで発表するなど、音声分野にて先端のアルゴリズムを開発しております。

・オトバンクのAI音声合成サービスに技術提供:
https://prtimes.jp/main/html/rd/p/000000140.000034798.html

・多数の話者が同時に話す環境下での音源分離技術 SinkPIT を開発:
https://www.pkshatech.com/business/research/project003/

・東京式アクセントを自動推定する自然言語処理ソフトウエア「tdmelodic」をオープンソースとして公開:
https://prtimes.jp/main/html/rd/p/000000017.000022705.html

・自然言語処理ライブラリ「Camphr」(カンファー)をオープンソースとして公開:
https://www.pkshatech.com/business/research/project001/

◆PKSHAの自然言語処理技術に関する登壇を予定しています。
タイトル:【自然言語処理 研究開発 最前線】最新NLP技術を用いた”人と機械の対話”の現在と未来
日時:   2022/10/11(火) 18:00 ~ 19:30
詳細:   https://aitechguild.connpass.com/event/258940/

◆INTERSPEECH 2022について日時:2022年9月18日(日)~22日(木)
公式サイト:https://interspeech2022.org/

◆PKSHA Technologyについて
「未来のソフトウエアを形にする」をミッションに、企業と顧客の未来の関係性を創るべく自社開発した機械学習/深層学習領域のアルゴリズムを用いたAIソリューションの開発・AI SaaSの提供を行っています。自然言語処理技術を用いた自動応答や、画像/動画認識、予測モデルなど多岐に渡る技術をベースにお客様の課題にあわせた解決策を提供する他、共通課題を解決するAI SaaSの展開により、日本のDX推進を多面的に支援し、人とソフトウエアが共に進化する豊かな社会を目指します。

会社名:株式会社PKSHA Technology
所在地:東京都文京区本郷 2-35-10 本郷瀬川ビル 4F
代表者:代表取締役 上野山 勝也
URL: https://www.pkshatech.com/

【本件に関する報道関係者からのお問い合わせ先】
株式会社PKSHA Technology広報担当
電話:03-6801-6718 メールアドレス:pr@pkshatech.com

PR TIMESプレスリリース詳細へ