CapWordsの魅力的なデザインの舞台裏
CapWordsは、アイデアの一部を3歳の子どもが生み出したアプリとは思えないほど、最先端のテクノロジーを多数活用しています。
CapWordsを技術的にリリースしたのはAce Lee氏であり、同氏が設立した中国拠点のHappyPlan Techは、2025年のApple Design Awards(「喜びと楽しさ」部門)を受賞しています。しかし、このアプリのコンセプト(アニメーションスタンプを使って言葉を学べるAI活用型の語学学習ツール)は、さらに若い関係者に端を発しています。
「実はこのアイデアは、娘との何気ないひとときから生まれたんです」とLee氏は語ります。「幼稚園からの帰り道、娘は毎日のようにいろいろなものを指差して、『これ、英語でなんて言うの?』と聞いてきました。ある日、道路標識を指さして『これはなんて言うの?』と聞かれたんですが、そのとき私はまったく答えが出てきませんでした。そこで翻訳アプリを開いてみると、アプリはなんとも機械的な声で、『Signpost』と答えました。娘は小さな声で、『ああ』とだけ言いました。その時、何かが足りないと気付いたんです。」
欠けていたものは「つながり」でした。一般的に、子どもは冷たく機械的な声があまり好きではありません。そこでLee氏は、娘が反応するのは事実そのものではなく、散歩のたびに二人の間に生まれる、自然な「つながり」の温かさなのだと気づいたのです。
対応デバイス: iPhone、iPad
チームの規模: 3人
拠点: 北京
受賞歴 Apple Design Awards受賞(2025年)、App Store Awardsファイナリスト(2025年)
そのためCapWordsでは、驚きや発見の感覚を何よりも大切にしています。コーヒーカップ、三角コーン、カップケーキ、道路標識など、何でもよいので写真を撮ると、アプリがAIを使ってその写真をスタンプに変換し、その物の名前と発音を教えてくれます。スタンプはアプリ内にそのまま保存されます。そして写真をクリックしたり、アニメーションを見たり、フィードバックを受け取ったりという能動的な関与が、3歳以上のユーザーの記憶定着を高めてくれるのです。「CapWordsは音、触覚、視覚といった、現実世界の物理的フィードバックに基づいています」と、Lee氏の親しい友人で開発を支援したClu Soh氏は語ります。「だからこそ、これほどうまく機能するんです。」
実はこのスタンプというアイデアも、Lee氏の娘が開発の道筋に与えた、もう1つの大きなヒントでした。「娘は2歳の頃から、シールをあらゆるところに貼っていたんです。冷蔵庫やソファ、しまいには私の顔にまで」と、Lee氏は笑います。「しかもその様子がとても真剣で、まるでアート作品でも作っているかのようでした。その様子を見ていて、現実のものを『剥がして』集めるというアイデアを得たんです。」
まず、その「剥がす」プロセスが、チームにとって最初の技術的課題となりました。「まずはデバイス上で動作し、写真から対象物を切り抜くことができるモデルをいろいろ調べてみましたが、どのモデルにも何かしら問題がありました」と、Soh氏は語ります。「画像は事前にダウンロードしておくか、アプリ起動時にダウンロードするかのどちらかで、いずれにしても時間もストレージも食ってしまう状況でした。また場合によっては、対象物の輪郭がぼやけていて、きれいに切り抜けないこともありました。」
CapWordsの創設者であるAce Lee氏は、このアプリの言語学習理念の基盤となっている、実物のスタンプ作りにも取り組んでいます。
幸いなことに、VisionKitですぐに解決策が見つかりました。「大型のモデルをアプリに組み込む必要もなく、非常にうまく機能してくれたんです」と、Soh氏は語ります。「そのおかげで、対象物を簡単に“剥がす”ことができるようになりました。」
次のステップでは、スタンプにした各アイテムをどう識別するかを考える必要がありました。そこでチームが頼ったのが、公開されたばかりのChatGPT-4でした。「まだアプリは存在してもいませんでした」とSoh氏は言います。「ただVisionKitで切り抜いたさまざまなアイテムを、ChatGPTに次々と入力して、『これは何?中国語・フランス語・スペイン語など、私たちが学びたいすべての言語で教えてください』と尋ね続けていました。」
基盤が整ってきたところで、開発チームはほかのAppleフレームワークも活用し始めました。「音声の再生にはAVAudioEngineを使い、より自然な響きにするためにNeural Voiceも利用しました。またiOSの空間認識APIは、フラッシュカード機能を実現するうえで大いに役立ちました。そしてCloudKitを使えば、ユーザーデータをiPhoneやiPad間で同期できます。」
さらにCapWordsは、ユーザーが撮影した画像を一切保存しません。写真はAIモデルに送られて一度だけ識別され、その後すぐに削除されます。画像は端末内にも保存されず、サーバにアップロードされることもありません(というのも、CapWordsにはそもそもサーバがないからです)。
日常の身近な物(例えばマグカップなど)を撮影すると、CapWordsがAIを利用してそれをスタンプに変換し、その意味と発音を教えてくれます。
しかしCapWordsがApple Design Awardsで受賞したのは「Delight and Fun(喜びと楽しさ)」部門であり、これは教育系アプリで簡単に達成できることではありません。そしてその理由の大部分は、写真がスタンプへと変わる瞬間にあります。
「画像を撮影し、アプリで処理されたら、それが実際にスタンプとして取り込みたいものかどうかを確認します。実際この確認ステップによって、APIから結果が返ってくるまでの待ち時間をシステムが確保できるんです」とSoh氏は言います。「バックエンドでは、この処理を段階ごとに分割しており、撮影→背景除去→確認→結果表示という流れになっています。」
しかしSoh氏によれば、大半のユーザーはこの処理に気づきません。裏側で処理が進んでいる最中も、アプリが「マイクロアニメーション」を表示してユーザーの注意を引きつけるからです。
驚くべきことに、最初の道路標識の会話からアプリのリリースまで、全工程にはわずか4か月しかかかりませんでした。このアプリは技術的にも非常に優れていますが、CapWordsを本当に輝かせているのは、驚きや好奇心に対する着目であり、まさに子どもの目線から世界を捉えているという点です。Soh氏によれば、まさに最高のほめ言葉まで耳にしたと言います。友人の娘さんが、CapWordsで遊ぶためにポケモンGOをやめてしまったというのです。「それは狙っていたわけではないんですが」とSoh氏は笑います。「でもそのおかげで、CapWordsは子ども向けでも大人向けでもなく、家族が一緒に楽しめるものだということがわかりました。親子で周囲を探索し、言葉を見つけて振り返るといった体験を、一緒に楽しめるアプリなんです。」
「このアプリで、人々が言語を学ぶ喜びを再発見する手助けができていることを光栄に思います」と語る、CapWords創設者で蕎麦好きのAce Lee氏。
CapWordsはリリース当初からずっと、家族をつなぐ存在であり続けています。「まるで地球に住むエイリアンになって、身の回りの物を集めながらその名前を確かめているような気分だ、という声を聞きました。またCapWordsを、これまで使った中で最も温かく人間味のあるAIだと言ってくれた人もいます」と、Lee氏は語ります。「このアプリで、人々が教科書ではなく日常生活を通じて、言語を学ぶ喜びを再発見する手助けができていることを光栄に思います。」