カメラキャプチャとフォトセグメンテーションの最新情報

WWDC19に戻る

カメラキャプチャとフォトセグメンテーションの最新情報

AVCapture APIの強力な新機能を使用すると、複数のカメラから同時に写真やビデオをキャプチャできます。写真では、写真の中の髪、肌、歯を分離できるセマンティックセグメンテーションが利用できるようになりました。このセッションでは、こうした向上点によって優れたカメラAppを作成し、目を見張るような写真効果を簡単に生み出す方法を紹介します。

リソース
関連ビデオ

WWDC19
- フォトセグメンテーションマットの紹介
- iOSの複数カメラキャプチャの紹介
WWDC17
- Capturing Depth in iPhone Photography
(音楽)
こんにちは (拍手) セッション225へようこそカメラソフトウェアチームのブラッド･フォードです長い一日でしたがこれが最後になります残っていただき感謝します５時からのセッションの中でもこれはお勧めです
iOSカメラスタックの２つの追加機能について前半約40分マルチカメラキャプチャの話をして― ジェイコブとデイヴィッドが― セマンティックセグメンテーションの話をしますでは１つ目マルチカメラキャプチャまたの名をマルチカム
サードパーティからの要望が最も多くその需要は年々増えていますそこで今回は同時キャプチャについて話します動画や音声メタデータ深度などを複数のカメラとマイクで同時に記録する機能です
サードパーティだけではなくファーストパーティからも― マルチカムの要望がありました最も人気が高いのは ARKitです Keynoteでも発表された新しいARKit 3では顔とポーズの追跡にフロントカメラを使いますバックカメラのワールドトラッキングは仮想キャラクターの配置を視覚的に補助する機能です
私たちはAVFoundationの開発当初からMacのマルチカムをサポートしていますしかしiOSではいまだに複数のカメラを同時に使えませんそれには正当な理由があるのです１つはハードウェアの制限でカメラは母線を共有しています２つのカメラを同時に稼働するには完全にパワー不足です２つ目の理由は信頼できるAPIにするためです複数のカメラを同時に使っても電話機本体がダメージを受けないようにしなければなりません温度と帯域幅の制限をクリアしハードウェアを現実的にする必要がありましたそしてついにiOS 13と最新のハードウェアでマルチカムをサポートします iPhone XSと iPhone XS Max iPhone XRと新しいiPad Pro すべてにおいてハードウェアの制限を解決しました
新しいAPI一式でマルチカムのセッションを構築してみましょう
AVFoundationには４つの主要なグループがあります入力と出力そしてセッションと接続です
AVCaptureSessionがデータを整理し開始と停止の指示を受けます
それに１つ以上の入力を追加します AVCaptureDeviceInputはカメラやマイクのためのラッパーです
データを受け取るために１つ以上の出力も追加する必要がありますするとセッションが互換性のある入力と出力を自動的に接続しますこの従来のAVCaptureSessionでは各セッションの許容は１つのカメラだけです
iOS 13で導入した AVCaptureSessionの派生― AVCaptureMultiCamSessionでは複数の入出力が可能になりました
AVCaptureSessionが劣るわけではありません１つのカメラによるキャプチャの場合はむしろ勝っています MultiCamSessionにはいくつかの制限があるからですその話は後ほど
ではAVCaptureMultiCamSessionの通常の使い方をお伝えします MultiCamSessionに前面と背面のカメラをデバイスとして加えます各カメラのフレームを同時に受け取るデータ出力も可能ですリアルタイムプレビューを使うなら前面と背面の各カメラに VideoPreviewLayerを加えますもっと加えていきましょう
メタデータの同時出力や同時バーコードスキャン同時顔認識各カメラに記録するために複数の動画ファイル出力もできます複数のリアルタイムキャプチャのために複数の写真出力も追加可能です入力から出力への矢印が増えグラフが複雑になってきました
この矢印が AVCaptureConnectionで入力から出力への流れを決定します接続構造の説明をするのでデバイス入力の話を
キャプチャ入力の AVCapture入力ポートはコンセントのようなものです各メディアタイプに１つずつ作成され何かをつなげばデータが流れますコンセントから流れる電力と同じですこの入力にはどのポートを使えるのかプロパティを開くと― 入力ポートのアレイが表示されますデュアルカメラにあるのは４つのポート動画　深度バーコードスキャンと顔認識に使うメタデータ動画の出力と接続するメタデータです
AVCaptureSessionの出入力の追加方式で入力と出力を加えるとこのような結果にセッションが一致するメディアタイプを検出しますこのVideoDataOutputが動画を受け取ります動画を作成するコンセントと自動的に接続されました AVCaptureSessionには皆さん慣れ親しんでるでしょう MultiCamSessionは別物ですなぜなら複数の入力と複数の出力になるからです間違うことなく確実に正しい入力と出力同士が― 接続される必要があります MultiCamSessionを作成する時は自動接続をお勧めしません代わりに専用の特別なアダーを使い接続をせずに入力または出力を加えるのです動画のプレビューレイヤにも―
使うことができます setSessionWithNoConnectionsはセッションにこう指示します “これらの入力と出力があるけど放っておいてくれ” “後で好きに手動で接続するから” AVCaptureConnectionを自分で作るのです接続したいポートと出力を自分で選びセッションに接続の追加を指示します
実演したほうが分かりやすいここから先は仲間のニック･ゲロが AVMultiCamPiPの実演をニック
ありがとう AVMultiCamPiPは同時再生用のアプリケーションです前面と背面カメラのプレビューが表示されます全画面表示したいほうのカメラを― ダブルタップします
(拍手)
ブラッドがアップル･パークにいます彼に質問をする前に後で見られるように記録ボタンを押しますブラッドアップル･パークはどう？ニック　ここは地獄だよ池の前でいろいろ起こってるんだ水の音がすごくて今にもずぶ濡れになりそうだし野生の動物の鳴き声も聞こえる正直なところ怖いよ恐ろしいね　気をつけてありがとうじゃあさっそく記録したものを見てみましょう
これが動画ですアプリケーションで表示させたように２つのカメラの切り替えができますこれがAVMultiCamPiPです (拍手) ありがとうニック
AVMultiCamPiPの内部で起きたことを説明します前面と背面のカメラ２つのデバイス入力が接続せずに追加されましたビデオデータ出力と VideoPreviewLayerも２つ画面に映すには VideoPreviewLayerに― 片方を大きく表示するように指示を与えますダブルタップすると画面の配置が換わりＺオーダーが逆になります Metal Shader Compositorのコードを見てくださいこの２つのVideoDataOutputを合成すると小さいPiPが１つのフレーム内に並びますすると合成されたバッファが AVAssetWriterに送信され１つのビデオトラックに記録をこのセッションに関連するコードでマルチカムのキャプチャを作成できます
制限について話しましょう AVMultiCamSessionはパワーツールですができないこともあります
第一に１つのカメラを２つとは偽れません AVCaptureDeviceInputは複数のインスタンスを作れますバックカメラで 10個作ることもできますしかしそれをすべて MultiCamSessionに加えるのは無理です例外が発生します１つのカメラにつき入力は１つです同じタイプの出力を２つにすることもできません１つのシグナルを２つのデータ出力に分けられないのです複数のカメラのVideoDataOutputへの接続は可能ですが出力の分散はできません
その反対の場合も同じことが言えます iOSではメディアをミックスできません１つの出力には１つの入力だけです２つのカメラのソースを詰め込むこともできません動画のミックスの仕方が分からないのです別々のデータ出力のバッファを独自のコードで合成はできます Metal Shader Compositorと同じ要領ですしかしセッションの構築においては１つの出力には１つのカメラのみです
次はプリセットについて従来のAVCaptureSessionにおけるプリセットの意図とは共通するサービス品質を検出しすべての入出力に適用することです sessionPresetを “high”に設定すると― デバイスの解像度やフレームレート出力が設定され高品質な動画になります 1080p30のように
プリセットは MultiCamSessionの問題ですこのグラフで分かるように―
MultiCamSessionの配列は混成です全体を高品質にする必要がなくデバイスごとに品質を変えたい場合もあります例えばフロントカメラは 640×480の低解像度のプレビューそれと同時にバックカメラを 1080p60の高品質にしたいとしますこれに対応できるプリセットはありませんそこでMultiCamSessionでは１つのプリセットだけをサポートします入力を優先するのですつまり入力と出力を独立したままにして自身でactiveFormatを設定します
次はコストの作用についてマルチカムに時間をかけたのは信頼できるAPIを目指したからです複数のカメラとすべての機能を使う時に負うコストを計算できるようなAPIです
現実的な目標です “無料のものなどない” 私を父親だと思って聞いてください耳が痛い話ですクレジットカードの機能お金への責任や身分相応の暮らしそのような内容です
iOSは帯域幅に制限があります複数のカメラやセンサーが付いていても― ISPは１つしかありませんセンサーから送られるすべてのピクセルが１つのISPによって処理されるのですクロックごとに処理できるピクセル数には限界があります同時に処理できるピクセル数は限られているのですハードウェアのコストはビデオの解像度に左右されます解像度が高いほどピクセル数が多いピクセルの処理速度を上げれば処理するピクセル数も増えます
センサービニングをご存じでしょうか？
隣り合ったピクセルの情報を結合し帯域幅を減らす方法ですここにある画像に２×２ビニングをします４ピクセルを１つに結合していくので４分の１に縮小されるのですノイズも削減され帯域幅も減り― ピクセルごとの強度は４倍になります多くの利点がありますが欠点は画像の質が少し落ちることです斜線に少し段が生じますしかし超低出力はその欠点を補って余りある利点です ARKitでカメラを使う時は常にこの方法が用いられます ARのためにパワーを節約するのですコストの報告の仕方について話しましょう MultiCamSessionがコストを計算し設定を変えるたびに記録しますスーパーの買い物やオンラインストアでカートに商品を入れる要領です予算の限界に近づいたら商品をカートから自由に出し入れできます MultiCamSessionもコストを把握できます HardwareCostは新しいプロパティです新セッションの作成時はゼロですが機能や出入力を追加すると増加していきます 1.0未満のうちは大丈夫問題なく作動します 1.0以上になったら要注意です ISPの帯域幅の制限は厳しく他のフレームも処理できなくなりますすべてできるか何もできないかです 1.0を超えて稼働すると AVCaptureMultiCamSessionが拒否しますランタイムエラーを表示しハードウェアへの過重負担だと指摘します
コストを削減するには？最も確実な方法は低解像度を選ぶこと解像度を変えたくなければビニング方式を選んでください質は落ちるがパワーは節約できます
フレームレートを下げるのは効果的か？いいえ理由はiOS 4から AVCaptureDeviceがフレームレートの変更を可能にしたからです例えば120fpsの場合 60fpsに設定し直したとしても― コストは120fpsの時と同じですなぜなら120fpsまで上げた時のことを考慮しているからですしかし今はAVCaptureDeviceInputにオーバーライドのプロパティがありますそれを設定すると高フレームレートを― 低いレートに変更可能ですフレームレートの上限が決められるのです
これはAPIの混乱する点ですがフレームレートを時間として捉えます１を時間で割った数を設定するのは同じです 60fpsを30fpsに変更するには 30分の1でCMTimeを作成しますそしてdeviceInputを “videoMinFrameDurationOverride = thirtyFPS”と設定これで60fpsから 30fpsに変更され 30fpsのコストになります
AVMultiCamPiPのすばらしい機能にも言及しましょう反復的にコストを削減できます最も重要なものを選ぶ再帰関数で重要度の低いものを抑制しコスト削減を図るのですシステムの負担は２番目に大きなコストの要因です電話機は熱しやすい小さな箱に包まれた極めて高出力のコンピュータです iOS 11では Camera System Pressure Statesでカメラの状況を確認できますカメラシステムの負担は OS全体の熱によるものです
バッテリーが瞬時給電をします充電はどれくらいか？自分がすることに必要なだけ電圧を上げることができるのか？そして赤外線プロジェクタの温度 TrueDepthカメラのあるデバイスには赤外線やRGBのカメラもあり熱を発するのでシステムの負担になります
“軽少”から“停止”まで５段階あり “軽少”であれば調子がよく何でも実行できます “適正”でもほぼ問題はありません “深刻”になるとシステムが抑制し始めます GPUのサイクル数が減り質が低下するということです “重大”では多くが抑制され “停止”になるとハードウェアの破損を防ぐためにカメラも稼働不可にシステムの負担が原因だと表示されセッションが自動的に停止しますカメラを再び使えるのは “軽少”に戻ってからです
これはiOS 11の話です iOS 13では前もってシステムの負担を把握できます現在の状況を示すだけでは起動前に遊んだゲームが影響することもありますシステムの負担に関してはカメラの独立したコストを知ることができますそのコストの要因はハードウェアや他のものと同じですビデオ手ぶれ補正や光学式手ぶれ補正などの電力コストスマートHDRもそうですこれらはすべてシステム全体の負担になります
MultiCamSessionが前もって計算する場合― すでにある情報だけを根拠にします GPUの処理を同時に行ってもカメラ以外のことはスコアに含まれません
使い方を話しましょう systemPressureCostは作動できる時間を示してくれますシステムが静止しておらず 1.0未満なら無限に使えますよく管理された状態です 1.0～2.0だと 15分までは問題ありません 2.0～3.0は10分まで 3.0を超えるとかなり短くなります 3.0を超過してもカメラは使えますがすぐに問題が起きるでしょう強制終了が行われる場合セッションは中断ハードウェアを守るためですシステムの負担が極めて高コストでも 30秒以内に作業を終えるのであれば構いません
稼働中に負担を軽減するには？セッションの設定中ではなく稼働し始めて負担の増加に気づいた時ですフレームレートを下げるとすぐに負担が減りますもう１つはGPUやCPUの処理を抑える方法です最後の手段としてカメラを停止することが挙げられます AVMultiCamSessionにはすばらしい機能があります他のカメラに影響を及ぼすことなく１つのカメラを停止できる機能です前面と背面のカメラを稼働中過重負担に気づいたとしましょう片方を停止してももう１つのカメラの機能は損なわれません止めたいカメラの入力ポートを停止するには入力ポートの対応プロパティを “false”に設定しますするとストリーミングが停止しかなりの電力の節約になります
ハードウェアとシステムの負担２つのコストについて話しました別のコストもありますないとウソをつく気はありません例えばメモリがあります iOS 13では稼働できるデバイスの組み合わせを制限しました確実にトラブルを避けるのが目的です
組み合わせの数は限られていますこれはiPhone XSのリストです後でじっくり見てみてください６つの構成をサポートしており同時に稼働できるカメラは２つです構成１のチェックが１つだけの理由が気になりますか？デュアルカメラはソフトウェアカメラで広角と望遠レンズがある２つのカメラだからです
マルチカムがサポートされているか知るには？ MultiCamSessionで複数のカメラを稼働できるか確認を isMultiCamSupportedというクラスですぐに分かります同時に稼働できるデバイスを知るには？ AVCaptureDevice.DiscoverySessionを作成し supportedMultiCamDeviceSetsで確認をどのデバイスを同時に使えるか知ることができます次に私たちが人為的に制限を設けた― フォーマットについて iPhone XSのバックカメラは 40以上のフォーマットがサポートされています MultiCamSessionでビデオフォーマットを制限したのはデバイスで快適に同時に使えるからですグループに注目してください１つ目のグループは低出力のビニングです２×２ビニングにより低出力を実現できます 60fpsまで使えて 640×480から1920×1440まで選択肢があります
次のグループは 30fpsの1920×1080 非ビニングのフォーマットで従来のセッションの high presetと同じですマルチカムに使えます最後は非ビニングの 30fps 1920×1440で写真にも使えるフォーマットです 12メガピクセルのサポートはしていません本体に悪影響を及ぼしますしかし30fps 1920×1440のフォーマットで― 12メガピクセルの高解像度の写真は撮れます複数のカメラを使用して同時撮影する時に代用できます
マルチカムをサポートしているか知るには？フォーマットを通した処理中に確認することが可能ですデバイスのフォーマットを通して処理し解像度が次に低くマルチカムをサポートするのですそれをフォーマットに設定
最後の方法を紹介しますコストを報告するためには MultiCamSessionを使いますよってアプリケーションでの複数のセッションはサポートしていません複数のカメラを同時に使う場合も同様です同時に稼働はできますが iOSでのサポートは― １度に１つのセッションのみ
以上が父親からの話でしたいいコードを書き 11時までには帰宅すること以上楽しい話に戻ります同時ストリーミング
ソフトウェアカメラは iPhone 7 Plusで発表したデュアルカメラです現在はXSとXS Maxにも搭載されています TrueDepthカメラも赤外線とRGBカメラから成るので同じです２つのカメラの差異から深度を測れます今までそれらに名前がなかったのですが iOS 13ではバーチャルカメラと命名デュアルカメラもその１つでズーム比に基づきビデオストリームが入れ替わります２倍に近づくと広角から望遠レンズに替わるのです２つの画像の間に生まれる差異により深度の調整もできますしかし一度に得られるストリームは１つです
名前を付けて APIにプロパティもあるのでそのデバイスがプログラムによりバーチャルデバイスなのか分かりますでは物理デバイスは何なのか？ APIでは constituentDevicesと呼びます
同時ストリーミングはバーチャルデバイスのそれらを同時に稼働させるのです広角と望遠からの同時ビデオをストリームできるのは初めてです
バーチャルデバイス上で設定をします
いくつかルールがありますバーチャルデバイスと constituentDevicesを別々に考えてはいけません解像度やフレームレートも同じでハードウェアレベルで一致していますつまりセンサーがそれらのフレームを同じ方法で読み取っているのですだから読み出しのミドルラインはまったく同じ時刻ですフレームセンターも一致します露出やホワイトバランスフォーカスも同じなのでほぼ同じカメラのようなものです視界だけが異なります
分かりやすいように実演を行いますこれはAVDualCamです
よし
２つの同期化されたカメラを読み込むことで― バーチャルカメラの映像を表示します
異なる見え方で表示できますこれは― 広角と望遠カメラのストリームで構成されています左が広角で右が望遠カメラです証明するために片方のレンズに指を
反対も　別々のカメラです (拍手) 広角で拡大しているので望遠と同じ見え方です完全に一致しているのが分かりますおかしな部分は何もありません露出とフォーカスは同時に変わります次に Side by Side Viewから Split Viewに― 切り替えてみましょう少し見にくいですね左に見えるのが広角カメラで右が望遠カメラ各フレーム半分ずつですトリプルタップすると Distance-o-meterが現れ２つのイメージの深度の度合いを変えられます２つのイメージを関連付けて記録することで深度の度合いを変えて遊べるのです目が近くや遠くのものに焦点を合わせるように― 深度を調整できます例えばすぐ近くの手に― 最適な深度を見つけることも可能です１つの手になりました次は後ろの車に合わせて深度の度合いを変えていきます奥の車には合っていませんこの車にも合わせましょう
これがデュアルカメラのストリーミングです (拍手)
これはAVDualCamのグラフですデュアルカメラのデバイス入力は１つしかありませんしかし広角と望遠のフレームは２つのVideoDataOutputsに接続します下のほうにあるのは AVCaptureDataOutputSynchronizerですハードウェアの同期を行うものではありませんこれはセッションの下部にあるオブジェクトで複数のコールバックを一度で行えます別々にコールバックする必要はありません DataOutputSynchronizerにより一度のコールバックで両方のフレームを得られますその下に魔法をかける Metal Shader Filter / Compositorがそれらのフレームを合成しプレビューで表示する場所を決めます AVAssetWriterに送りビデオトラックに記録することも
前の図表に戻ります
デュアルカメラの AVCaptureDeviceInputをお見せしましたデュアルカメラの入力ポートはどれでしょうか？２つのビデオポートが？
ありませんねこれらの入力ポートから広角と望遠の両方を得るには？１つのポートから両方を？いいえ　広角か望遠かではなくデュアルカメラがズーム比に適したものを決めますでは両方のストリームを同時に得るには？
今から教えることは誰にも話さないでくださいバーチャルデバイスには秘密のポートがありますそのポートは―
今まで隠れていましたポートのアレイにはなくある要求をすると得られるのですあらゆるタイプのポートのアレイを得るとカメラに使えないポートも含まれますだから名前で要求を dualCameraInputにポートのデバイスタイプを “WideAngleCamera” “TelephotoCamera”と入力すると秘密のポートを得られます入力ポートを得たらそれを接続できますが手動で接続を作成するのと同じ方法ですこれで両方からストリーミングできます
AVDualCamの実演で広角と望遠カメラの深度の度合いを変更し調整しましたすべてを動かすのではなく基準線に沿って動かしコントロールしただけですそれはAVFoundationのホモグラフィのおかげですホモグラフィは２つの画像を関連付けますコンピュータビジョンの基礎で画像の修正やレジストレーションに使います
カメラ内部パラメータは iOS 11で発表しました３×３の行列で表される幾何学上のカメラのプロパティですその焦点距離と光学中心にはピンホールカメラを用いますピンホールを通過して達するのが光学センサーでその距離が焦点距離です
フレームのパラメータを取得するには AVCaptureConnectionに提供を求めるメッセージを送りますするとすべてのビデオデータの出力バッファに添付されます CameraIntrinsicMatrixは３×３の行列を送る simdタイプのNSDataです広角のフレームには広角カメラの行列望遠のフレームには望遠カメラの行列が付きます
iOS 13にはカメラ外部パラメータを採用外部パラメータは回転行列と並進ベクトルが１つの行列の中に―
押し込まれたものです基準と比較したカメラのポーズを表します２つのカメラの位置や傾きを関連付けるのに役立つものです AVDualCamはこれを使い広角と望遠のフレームを並べますそれにより視点も変えられるのです
内部と外部パラメータの簡単な説明でした２年前のセッション507で長々と詳細の説明を冗談が苦手でなければ見直してみてください (笑い声) マルチカムキャプチャの最後のトピックはマルチマイクキャプチャです
従来のAVCaptureSessionでのデフォルト動作を見てみましょう
単純にマイクはカメラに従いますフロントカメラがセッションにあればマイクはどうなるか？フロントカメラと同じ向きのマイクが選ばれますバックも同様ですカージオイド型になるので不要な音は拾いません背面でも前面でも対象を追跡できます音声だけのセッションで方向が不明な時は無指向性という選択もすべて停止するにはこう指示を “自分のAVAudioSessionを使って―” “自分で音声を設定したい”
もう１つの秘密を教えましょう
実はフロントマイクなど存在しません iPhoneにはマイクのアレイが含まれデバイスにより番号が違います最新のiPhoneは４でiPadは５位置も戦略によって異なります最新のiPhoneは下部に２つと上の両側に１つずつありすべて無指向性マイクです上の両側のマイクはデバイスが隔壁となり音響が分離しますそれでも指向性に満足できませんではフロントやバックマイクに似せるには何をするか？マイクロフォンビームフォーミングですこれは低い音声信号を指向性にする処理の方法で Core Audioの機能ですこの青い点はiPhoneの両側のマイクを表しています円はそれらの無指向性マイクが拾う音声のパターンですそれらの信号を抜き出すと８の字になりますそれも悪くありませんもっとよくするにはキープしたいほうに感度を加えますパックマンのゴーストの形です不要なものを取り除きましたが信号が弱まって静かになりすぎますしかしこの信号にさらに感度を加えると目的の美しいカージオイド型になりました脇からの不要な音は拾いませんこれは簡略化した説明ですホワイトノイズを防ぐ必要がありますが概要はこのとおりです今までビームフォーミングは１つでしたが Core Audioのチームがマルチカムに大きな貢献を iOS 13では同時に複数のビームフォーミングをサポートします (拍手) AVCaptureSessionに戻りますマイクのデバイス入力の音声ポートは多くの役割を受け持っていますカメラによってどのマイクにもなるのですしかしMultiCamSessionは融通が利きません１つ目の音声ポートは常に無指向性ですそしてビームフォーミングを得るために先ほどの秘密のポートがありますそれを得るには先ほどと同じ―
入力ポートの取得法を今回は位置を指定します前後どちらかの位置を指示すると― 目的のポートとビームフォーミングを得られます
こちらが前で― こちらが後ろです
MultiCamPiPの実演ではビデオのすばらしい面をお見せしました今度は音声について話します１つのデバイス入力には―
前と後ろに１つずつ２つのビームフォーミングがそれらを稼働する２つのAudioDataOutputからどちらかが選ばれますどちらが大きいかによって― 前後どちらかのビームフォーミングが得られます
マルチマイクキャプチャのビームフォーミングは内蔵マイクのみで外部からのUSBなどには対応できません
AirPodsなど他のものをつなぐともちろん音声は読み込めますビームフォーミングはできないのですべての入力を通してつなぎ信号を保ちます
マルチカメラキャプチャの話は以上です簡単に要約を
マルチカムキャプチャのセッションは iOSで複数のカメラを使う方法ですパワーツールですが制限もあります
ハードウェアとシステムの負担によるコストには慎重に
同時ストリーミングはバーチャルデバイスでマルチマイクキャプチャではビームフォーミングと無指向性を次はセマンティックセグメンテーションマットのお話です (拍手)
セマンティックセグメンテーションマットという新しいマットの話を今日はします後半ではCore Imageへの活用法を紹介します
iOS 12のポートレートエフェクトマットはポートレートでエフェクトを適用するマットでした美しいポートレートモード写真の生成に使われていますポートレートのマットを見てみましょう背景を除いた人物だけが描写されています黒色と白色に分かれたマットです１の値が前景０の値が背景を示します
iOS 13ではマットをさらに進化させました髪のマットと―
肌のマット
そして歯です
髪のマットを見てみましょう髪のある部分だけが― きれいに分かれています髪の毛の細かい情報も描かれ肌の部分ともちゃんと分かれています
また肌のマットにはアルファ値が含まれピクセルの肌の割合を示します 0.7のアルファ値が示すのは 70％が肌ということですこの新しい３つのマットを使えばすてきな写真やエフェクトを作る自由度が増すでしょう
実はマットは元の画像の半分のサイズなので縦横は半分の長さで解像度は４分の１になりますまたポートレートエフェクトマットと特に肌のマットは部分的に一致しています
生成にはNeural Engineによる機械学習を最大限に生かしています内部処理ではオリジナルサイズの画像を Neural Engineに渡します高品質画像を一貫性のあるマットでレンダリングしますそしてマットは被写界深度と共に HEIFやJPEGファイルに格納できます
マットの生成には２つの方法がありますポートレートモードの写真から引き出す方法と自分でキャプチャーアプリケーションを作る方法ですマットを格納したファイルがあれば Core ImageとImage I/Oが使えますまずはAVFoundation APIを使った方法です
４つの段階があります１つ目はAVCapturePhotoOutputの設定次はアプリケーションで取得リクエストが開始された時そしてキャプチャ用に設定が解決され最後は写真の処理が終わった時ですそれぞれの詳細は2017年のセッションを参考にしてください
まずはAVCapturePhotoOutputの設定から見ていきます beginConfigurationを呼びプリセットを決めデバイスの入力と AVCapturePhotoOutputを追加しましたここでどのマットを生成するかを APIに伝えます
そしてリクエストを開始する時は AVCapturePhotoSettingsを指定して APIに伝えます有効にしたすべての設定や髪や肌を指定できますリクエストを開始すると AVCapturePhotoSettingsに渡り通知先に渡りますそれから時間がたつと― コールバックに willBeginCaptureForが戻ります実際に取得したものをこの時 APIが知らせてくれますこれはマットにとって重要です人物がいない場合マットはできませんですからサイズが０でないか確認する必要があります
そして処理が完了しましたここでセマンティックセグメンテーションマットが戻りますポートレートエフェクトマットと同じメソッドとプロパティですそのため Exif情報から画像を回転させたり CVPixelBufferを参照できます
詳しい情報はサンプルアプリケーション AVCamを参照してくださいセマンティックセグメンテーションマットが追加されています
では同僚と変わります (拍手)
ありがとうセグメンテーションマットについて Core Imageでの活用方法を紹介していきます今からデモを見せますがクラウンの写真が出てきますもしクラウン恐怖症の人や苦手な人がいれば目を閉じてくださいねポートレートモードで撮った写真ですこのアプリケーションでは写真にあるそれぞれのマットを簡単に表示させられます従来のポートレートエフェクトマットやこちらは肌のマットですさらに髪や歯のマットもありますまたCore Imageで合成することもできます例えば論理演算を用いて合成した目と口だけのマットです元の写真で私はApple Parkにいますポートレートエフェクトマットを使えば背景を簡単に追加できます背景をサーカスのテント内に変えましたですが私の写真が背景から浮いていますではエフェクトを加えてみましょう例えばクラウンの化粧やもっと本格的に髪を緑色にしてもいいですね別のマットで化粧も追加しました今からアプリケーションへの実装方法を紹介します (拍手) もうクラウンは登場しませんので安心してください
では Core Imageを使ってマット画像を生成する方法フィルターの適用方法保存方法を説明しますまずはマット画像の生成方法です２つの方法があり１つ目はAVCapturePhoto APIの使用ですそれからCore Imageを使います semanticSegmentationMatte APIを使い髪や肌もしくは歯を指定します結果 AVSemanticSegmentationMatteのオブジェクトが返り CIImageを簡単に生成できますインスタンスの生成もできます２つ目はHEIFかJPEGファイルから読み込む方法ですファイルはRGB画像を格納していますさらに補助画像であるポートレートエフェクトマットや髪や歯のセグメンテーションマットを含んでいます HEIFファイルからCIImageを生成するにはCIImageと書いて URLを指定するだけですね補助画像を生成するのも同じでオプションでどのマット画像を返すか指定するだけです髪なら auxiliarySemantic SegmentationHairMatteなど― 各マットをオプションで指定できます数行のコードでシンプルです
次は画像へのエフェクトの適用方法です先ほどのエフェクトを詳しく紹介しますまずベースのRGB画像から始めますさらにクラウンの色あせた白い化粧のエフェクトを出すために写真を調整します写真全体ではなく調整を肌だけに適用したいので肌のマットを使います３枚を合成すれば期待した結果が出ます
コードはとてもシンプルです実はその前に報告があります 200以上あるフィルターが使いやすくなりましたそれが新しいCIFilterBuiltinsですフィルターや入力の名前を覚えなくてもフィルターが使えます (拍手) このヘッダーを使ってコードを紹介しますまずはベースとなる画像を生成します従来のRGB画像ですね次はエフェクトですまずはグレースケールにしますフィルターはmaximumComponentです画像をフィルターに渡し出力するよう― コードを書きます結果グレースケールになりましたまだ白さが足りないのでガンマを調整するフィルターを追加します入力は先ほど出力した画像ですそしてガンマの値を指定して出力を求めますガンマの値はFloat型で指定できるので NSNumberよりとても簡単です
最初のエフェクトの完成です次の工程に移ります
肌のマットを取得します先ほどと同様に肌のマットを取得するよう指定しますしかしマットの画像はオリジナルの半分のサイズです
そこでサイズを合わせます CGAffineTransformMakeScaleを使ってマット画像を変形させますサイズが正しい画像が生成されました
次は２つの画像を合成します blendWithMaskフィルターを使いますまずはこのRGB画像を背景として設定します次に前景となる― 白い化粧のエフェクトを加えた画像を指定しますそして最後にマスクを指定します先ほどお見せした画像ですねこの３つをフィルターにかけるとこうなります他にもエフェクトを組み合わせて面白いものが作れますよ
エフェクトの適用後は補助画像の保存に対応している― HEIFかJPEGで保存しますメイン画像に加えマットを格納すれば他のアプリケーションでも使えますからね
Core Imageの writeHEIFRepresentation APIで保存したいメイン画像とURLを指定しますピクセルフォーマットとカラースペースも指定しますさらに別のオプションを追加することができますセグメンテーションマットを指定すれば肌のマットや髪― 歯のマットを保存できますこれらすべての画像が HEIFやJPEGで保存されますまた別の方法でも保存できます AVSemanticSegmentationMattesのオブジェクトです APIはシンプルでメイン画像からカラースペースまで指定しますこの場合マット画像を保存するには AVSemanticSegmentationMattesで指定するだけです
マットの活用方法を紹介しましたマット画像の生成方法フィルターの適用と保存方法ですデモは写真Appのプラグインとして書かれたものです HEIFだけでなくPhoto Libraryに保存する方法を知りたい方は過去のセッションを参考にしてください特に2014年の“Introducing the Photos Frameworks”です
ありがとうございました皆さん頑張ってください以上です (拍手)

リソース

関連ビデオ

WWDC19

WWDC17