パーソナルボイスとカスタムボイスによる音声合成技術の拡張

パーソナルボイスとカスタムボイスによる音声合成技術の拡張

最新の音声合成技術の革新をアプリに導入しましょう。iOSやmacOSにカスタム音声合成や音声を統合する方法を紹介します。SSMLを使用して表現力豊かな音声合成を生成する方法や、パーソナルボイスを利用して補助的な役割を果たすコミュニケーションアプリで本人に代わって自然な声で話す方法を解説します。

関連する章
- 0:00 - Welcome
- 1:25 - Explore SSML
- 2:37 - Implement a synthesis provider
- 10:01 - Use Personal Voice
リソース
関連ビデオ

WWDC20
- App内でシームレスな音声体験を作成する
ダウンロード

♪ ♪
こんにちは Grantですアクセシビリティチームのエンジニアです多くの方がAppleのプラットフォームで音声合成を使っており一部の方は合成音声に頼っています音声がデバイスの利用に欠かせない窓口になっていますそのため使用する声は時にパーソナルなものとなります iOSで音声合成を使っている方はすでに多くの種類の声を選択できますではさらに多くの音声を提供する方法を見ていきましょう始めに Speech Synthesis Markup Language (SSML)とは何かカスタムボイスでイマーシブな音声を出力する方法そして音声プロバイダがこれを採用すべき理由について説明します次に音声合成プロバイダを導入して音声合成と音声体験をデバイス全体で実現する方法を説明しますそして最後にパーソナルボイスについて説明しますこちらは新機能となりますこれにより自分の声を録音しそれを基に合成音声を生成することが可能ですつまりユーザー自身の声で音声を合成できますでは SSMLから見ていきましょう SSMLは音声テキストを表現するための W3C標準規格です SSML音声は XML形式に従い宣言し様々なタグや属性を使って表現しますこれらのタグを使って速度やピッチなどの音声プロパティを制御できます SSMLはファーストパーティの音声合成で使用されていますこれにはWebkitのWebSpeechも含まれ音声合成ソフトの標準入力となっていますではSSMLの使い方を見ていきましょうポーズを含むフレーズの例を見てみましょうこのポーズもSSMLで表現できますまず“hello”という文字列から始め SSMLのbreakタグを使って1秒間ポーズし最後に早口の “nice to meet you!”で終わります SSMLの韻律タグを追加し rate属性を200%に設定しますこのSSMLを使ってAVSpeechUtterance を作成し発話します次に独自の音声合成ボイスを実装する方法を見てみましょう
そもそも音声合成とは何でしょうか？音声合成とはあるテキストと希望する音声特性に関する情報をSSML形式で受け取りそのテキストの音声表現を提供するものですたとえば素晴らしい新しい音声を有するシンセサイザーがありそれをiOS macOS iPadOSに導入したいと仮定します音声合成プロバイダは独自の音声合成や音声を私たちのプラットフォームへ導入することを可能にしユーザーにシステム音声以上のパーソナル化を提供します
その仕組みを見てみましょう音声合成プロバイダの音声ユニット機能拡張はホストアプリに組み込まれ SSMLの形で音声リクエストを受け取りますこの機能拡張は SSML入力の音声をレンダリングしオプションで音声バッファ内の単語の位置を示すマーカーを返しますシステムはその音声リクエストのすべての再生を管理します音声セッションの管理は Speech Synthesis Provider フレームワークにより内部的に管理され処理を行う必要はありません音声合成の仕組みが分かったので音声合成機能拡張を作ってみましょうまず XcodeでAudio Unit Extension アプリプロジェクトを作成し “Speech Synthesizer” Audio Unit Typeを選択してシンセサイザーの4文字のサブタイプ識別子と制作者を示す 4文字の識別子を指定します Audio Unit Extensionsは音声合成機能拡張のコアとなるアーキテクチャですこれによりシンセサイザーはホストアプリのプロセスではなく拡張プロセスで実行可能になります
このアプリは機能拡張が合成する音声を選択し購入するためのシンプルなインターフェイスを提供しますまず購入可能な音声を表示するリストビューを作成します各音声のセルには音声名と購入ボタンが表示されます
次にリストにいくつか音声を入力しますこのWWDCVoiceは音声名と識別子を有するシンプルな構造体です
また購入した音声を管理するためのステート変数とそれらを表示するための新しいセクションも必要です次に音声を購入するための関数を作りましょうここで新しく購入した音声をリストに追加しそれに応じてUIを更新します AVSpeechSynthesisProviderVoice メソッドの updateSpeechVoicesに注意してくださいこれによりシンセサイザーで利用可能なボイスセットが変更されシステムボイスセットを再構築する必要があるとアプリに知らせることができますこの例では音声のアプリ内購入を完了した後にこの呼び出しを行うことができますまた音声合成機能拡張でどの音声が利用可能か把握する方法も必要ですこれはアプリグループを通して共有されるUserDefaultsのインスタンスを作成すると可能になりますアプリグループによってこの音声リストをホストアプリと機能拡張の間で共有できますアプリグループの作成時に指定したスイート名を明示的に指定していますこれによりホストアプリと機能拡張が同じドメインから読み込まれます購入機能を見てみると新しい音声の購入時にユーザーのデフォルトを更新する方法を実装してありますまた AVSpeechSynthesizerには利用可能なシステムボイスの変更を検知する新しいAPIがありますシステムボイスのセットはユーザーが音声を削除したり新たにダウンロードすると更新されます availableVoicesDidChangeNotification にサブスクライブすることでこれらの変更に基づいて音声のリストを変更できますホストアプリが完成したので 4つの主要なコンポーネントからなるオーディオユニットを入力します
最初に追加するのはシンセサイザーがどのような音声を提供するかをシステムに知らせる方法ですこれはspeechVoicesゲッターをオーバーライドして音声のリストを提供し先程指定したアプリグループUserDefaultsから読み取り実現します音声リストの各項目について AVSpeechSynthesisProviderVoice を米国英語に設定します次に合成するテキストをシステムがシンセサイザーに伝える方法が必要です synthesizeSpeechRequestメソッドはシステムがテキストの合成を開始したことを機能拡張に通知したいときに呼び出されますこのメソッドの引数は SSMLと使用する音声を保有する AVSpeechSynthesisProviderRequest のインスタンスになります次に音声エンジンの実装で作成したヘルパーメソッドを呼び出しますこの例では getAudioBufferメソッドがリクエストで指定された音声と SSML入力に基づいて音声データを生成しますまた framePositionと呼ばれるインスタンス変数を0に設定しレンダーブロックが呼び出されバッファからフレームをコピーする時にレンダリングされたフレームを追跡しますシステムは音声合成を停止し現在の音声リクエストを破棄するようシンセサイザーに信号を送る方法も必要です cancelSpeechRequestを使い現在のバッファを破棄することでこれを実現します最後にレンダーブロックの実装が必要ですレンダーブロックは希望のframeCountでシステムから呼び出されますオーディオユニットが要求されたフレーム数を outputAudioBufferに入力します次にターゲットバッファへの参照と synthesizeSpeechRequest 呼び出しの際に生成して保存したバッファへの参照を設定します次にフレームをターゲットバッファにコピーしますそして最後にオーディオユニットが現在のスピーチリクエストのバッファをすべて使いきった後 actionFlags引数を offlineUnitRenderAction_Completeに設定してレンダリングが完了してレンダリングするオーディオバッファが無いことをシステムに知らせます実際に動かしてみましょうこれが私の音声合成アプリです音声を購入し新しい音声と音声合成エンジンを使って音声を合成するビューに移動しますまずシンセサイザーに “hello”と入力します
合成音声：Hello Grant：次に“goodbye”と入力します
合成音声：Goodbye Grant：これで音声合成プロバイダを導入し VoiceOverから独自のアプリまでシステム全体で使用できる音声を提供するアプリが完成しましたこれらのAPIを使ってどんな新しい音声や text-to-speech体験ができるか楽しみです次にパーソナルボイスと呼ばれる新機能について説明します iOSとmacOSでデバイスの力を使って自分の声を録音し再現できるようになりましたあなたのパーソナルボイスはサーバーではなくデバイス上で生成されますこの音声は他のシステム音声と共に表示されライブスピーチという新機能で使用できますライブスピーチはiOS iPadOS macOS watchOSに搭載されている音声合成機能でその場で自分の声を合成できますパーソナルボイス用の新しいリクエスト承認APIを使用してこれらの音声を使った音声合成へのアクセスをリクエストできますパーソナルボイスの使用には注意が必要であり主に拡張または代替コミュニケーションアプリで使用される必要がありますパーソナルボイスを使用するために私が作ったAACアプリをチェックしましょうこのアプリには WWDCで私が良く口にするフレーズを話すボタンとパーソナルボイスの使用をリクエストするボタンがあります AVSpeechSynthesizerの requestPersonalVoiceAuthorization APIで承認をリクエストできます承認されるとパーソナルボイスは AVSpeechSynthesisVoice APIの speechVoicesでシステムボイスと一緒に表示され isPersonalVoiceという新しいvoiceTraitで示されます
これでパーソナルボイスにアクセス可能になり話すことができます
実際にパーソナルボイスを使ってみましょうまず “Use Personal Voice” ボタンをタップして承認を求めます承認されるとシンボルをタップして自分の声を聞くことができますパーソナルボイス：こんにちは Grantです WWDC23へようこそ Grant：すごいですねこれらの音声を皆さんのアプリでも使えます
SSMLについて説明しました音声入力を標準化しアプリでリッチな音声体験を構築するために SSMLを使いましょうまた Appleのプラットフォームに音声合成ソフトを実装する方法についても話しましたこれによりシステム全体で使える音声を提供できます最後にパーソナルボイスを使えば特に自分の声を失う恐れのある人々のためにアプリの合成音声にパーソナルなタッチを加えることができます皆さんがこれらのAPIを使って生み出す体験を楽しみにしていますご視聴ありがとうございました

<speak>
    Hello
    <break time="1s"/>
    <prosody rate="200%">nice to meet you!</prosody>
</speak>

2:29 - SSML utterance

let ssml = """
    <speak>
        Hello
        <break time="1s" />
        <prosody rate="200%">nice to meet you!</prosody>
    </speak>
"""

guard let ssmlUtterance = AVSpeechUtterance(ssmlRepresentation: ssml) else {
    return
}

self.synthesizer.speak(ssmlUtterance)

4:33 - Create a host app

struct ContentView: View {
    
    var body: some View {
        List {
            Section("My Awesome Voices") {
                ForEach(availableVoices) { voice in
                    HStack {
                        Text(voice.name)
                        Spacer()
                        Button("Buy") {
                            // Buy this voice...
                        }
                    }
                }
            }
        }
    }

    var availableVoices: [WWDCVoice] {
        return [
            WWDCVoice(name: "Screen Reader Voice", id: "com.example.screen-reader-voice"),
            WWDCVoice(name: "Reading Voice", id: "com.example.reading-voice")
        ]
    }   
}

5:04 - Keep track of purchased voices

struct ContentView: View {
    
    @State var purchasedVoices: [WWDCVoice] = []
    
    var body: some View {
        NavigationStack {
            List {
                MyAwesomeVoicesSection
                Section("Purchased Voices") {
                    ForEach(purchasedVoices) { voice in
                        NavigationLink {
                            // Destination View
                        } label: {
                            Text(voice.name)
                        }
                    }
                }
            }
        }
    }
}

5:13 - Inform the system when available voices change

struct ContentView: View {
    
    @State var purchasedVoices: [WWDCVoice] = []
    
    var body: some View {
        List {
            MyAwesomeVoicesSection
            PurchasedVoicesSection
        }
    }
    
    func purchase(voice: WWDCVoice) {
        // Append voice to list of purchased voices
        purchasedVoices.append(voice)
        
        // Inform system of change in voices
        AVSpeechSynthesisProviderVoice.updateSpeechVoices()
    }
}

5:39 - Update UI with purchased voices

struct ContentView: View {
    
    @State var purchasedVoices: [WWDCVoice] = []
    
    var body: some View {
        List {
            Section("My Awesome Voices") {
                ForEach(availableVoices.filter { !purchasedVoices.contains($0) }) { voice in
                    HStack {
                        Text(voice.name)
                        Spacer()
                        Button("Buy") {
                            purchase(voice: voice)
                        }
                    }
                }
            }
            PurchasedVoicesSection
        }
    }
}

5:46 - Save available voices into UserDefaults

struct ContentView: View {
    
    let groupDefaults = UserDefaults(suiteName: "group.com.example.SpeechSynthesizerApp")!
    
    @State var purchasedVoices: [WWDCVoice] = []
    
    var body: some View {
        List {
            MyAwesomeVoicesSection
            PurchasedVoicesSection
        }
    }
    
    func purchase(voice: WWDCVoice) {
        // Append voice to list of purchased voices
        purchasedVoices.append(voice)
        
        // Write purchasedVoices to defaults
        updatePurchasedVoices()
        
        // Inform system of change in voices
        AVSpeechSynthesisProviderVoice.updateSpeechVoices()
    }
}

6:25 - Monitor for system voice changes

struct ContentView: View {

    @State var systemVoices: [AVSpeechSynthesisVoice] = AVSpeechSynthesisVoice.speechVoices()
    
    var body: some View {
        List {
            MyAwesomeVoicesSection
            PurchasedVoicesSection
            Section("System Voices") {
                ForEach(systemVoices.filter { $0.language == "en-US" }) { voice in
                    Text(voice.name)
                }
            }
        }
        .onReceive(NotificationCenter.default
            .publisher(for: AVSpeechSynthesizer.availableVoicesDidChangeNotification)) { _ in
                systemVoices = AVSpeechSynthesisVoice.speechVoices()
        }
    }
}

6:53 - Override speechVoices getter

// Implement a synthesis provider

public class WWDCSynthAudioUnit: AVSpeechSynthesisProviderAudioUnit {
    public override var speechVoices: [AVSpeechSynthesisProviderVoice] {
        get { }
    }
}

7:02 - Use UserDefaults to provide set of available voices

public class WWDCSynthAudioUnit: AVSpeechSynthesisProviderAudioUnit {
    public override var speechVoices: [AVSpeechSynthesisProviderVoice] {
        get {
            let voices: [String : String] = groupDefaults.value(forKey: "voices") as? [String : String] ?? [:]
            return voices.map { key, value in
                return AVSpeechSynthesisProviderVoice(name: value,
                                                identifier: key,
                                          primaryLanguages: ["en-US"],
                                        supportedLanguages: ["en-US"] )
            }
        }
    }
}

7:22 - Use your synthesis engine on each synthesis request

public class WWDCSynthAudioUnit: AVSpeechSynthesisProviderAudioUnit {
    public override func synthesizeSpeechRequest(speechRequest: AVSpeechSynthesisProviderRequest) {
        currentBuffer = getAudioBuffer(for: speechRequest.voice, with: speechRequest.ssmlRepresentation)
        framePosition = 0
    }
}

8:14 - Handle request cancellation

public class WWDCSynthAudioUnit: AVSpeechSynthesisProviderAudioUnit {
    public override func synthesizeSpeechRequest(speechRequest: AVSpeechSynthesisProviderRequest) {
        currentBuffer = getAudioBuffer(for: speechRequest.voice, with: speechRequest.ssmlRepresentation)
        framePosition = 0
    }

    public override func cancelSpeechRequest() {
        currentBuffer = nil
    }
}

8:28 - Override internalRenderBlock

public class WWDCSynthAudioUnit: AVSpeechSynthesisProviderAudioUnit {
    public override var internalRenderBlock: AUInternalRenderBlock {
       return { [weak self]
           actionFlags, timestamp, frameCount, outputBusNumber, outputAudioBufferList, _, _ in
           guard let self else { return kAudio_ParamError }

           return noErr
       }
    }
}

8:42 - Implement the render block

public class WWDCSynthAudioUnit: AVSpeechSynthesisProviderAudioUnit {
    public override var internalRenderBlock: AUInternalRenderBlock {
       return { [weak self]
           actionFlags, timestamp, frameCount, outputBusNumber, outputAudioBufferList, _, _ in
           guard let self else { return kAudio_ParamError }

           // This is the audio buffer we are going to fill up
           var unsafeBuffer = UnsafeMutableAudioBufferListPointer(outputAudioBufferList)[0]
           let frames = unsafeBuffer.mData!.assumingMemoryBound(to: Float32.self)
                
           var sourceBuffer = UnsafeMutableAudioBufferListPointer(self.currentBuffer!.mutableAudioBufferList)[0]
           let sourceFrames = sourceBuffer.mData!.assumingMemoryBound(to: Float32.self)

           for frame in 0..<frameCount {
               if frames.count > frame && sourceFrames.count > self.framePosition {
                   frames[Int(frame)] = sourceFrames[Int(self.framePosition)]
                   self.framePosition += 1
                   if self.framePosition >= self.currentBuffer!.frameLength {
                       break
                   }
               }
           }
                
           return noErr
       }
    }
}

11:10 - Request authorization for Personal Voice

struct ContentView: View {

    @State private var personalVoices: [AVSpeechSynthesisVoice] = []

    func fetchPersonalVoices() async {
        AVSpeechSynthesizer.requestPersonalVoiceAuthorization() { status in
            if status == .authorized {
                personalVoices = AVSpeechSynthesisVoice.speechVoices().filter { $0.voiceTraits.contains(.isPersonalVoice) }
            }
        }
    }
}

11:34 - Use Personal Voice

func speakUtterance(string: String) {
    let utterance = AVSpeechUtterance(string: string)
    if let voice = personalVoices.first {
        utterance.voice = voice
        syntheizer.speak(utterance)
    }
}

特定のトピックをお探しの場合は、上にトピックを入力すると、関連するトピックにすばやく移動できます。

クエリの送信中にエラーが発生しました。インターネット接続を確認して、もう一度お試しください。

関連する章

リソース

関連ビデオ

WWDC20