
ここ数ヶ月、AppleがAI搭載スマートウェアラブルデバイスの発売を計画しているという噂や報道が飛び交っています。現時点では、Appleのスマートグラスは2027年頃に発売予定で、Meta Ray-Banの直接的な競合となる見込みです。同時に、カメラ付きAirPodsの発売も見込まれています。これらのデバイスには様々なAI機能が搭載される予定です。これらのデバイスが具体的にどのようなものになるかは不明ですが、AppleはすでにAIモデルの動作原理を明らかにしています。
2023年、Appleの機械学習研究チームは、Appleのチップ専用に設計されたオープンソースの機械学習フレームワーク「MLX」をリリースしました。つまり、MLXは開発者に、従来のAI開発フレームワークや言語との一貫性を保ちながら、Appleデバイス上でローカルにモデルをトレーニング・実行するための軽量な方法を提供します。
Appleの新しい視覚モデルであるFastVLMは、ユーザーが掲げる指の数、画面に表示される絵文字、手書きのテキストを迅速かつ正確に識別できます。
Appleは本日、MLXを用いて、同等のモデルよりもはるかに少ない計算リソースで、ほぼ瞬時に高解像度の画像処理を実現する視覚言語モデル(VLM)であるFastVLMを発表しました。Appleは次のように述べています。「画像解像度、視覚的な遅延、マーカー数、LLMサイズの相互作用に関する徹底的な効率分析に基づき、遅延、モデルサイズ、精度の間で最適なトレードオフを実現するモデル、FastVLMを導入します。」
FastVLMの中核を成すのは、FastViTHDと呼ばれるエンコーダーです。これは「高解像度画像で効率的なVLMパフォーマンスを実現するように設計」されています。類似モデルと比較して、最大3.2倍高速で、サイズは3.6倍小型です。これは、ユーザーの要求(または閲覧内容)に対する応答を生成するためにクラウドに依存するのではなく、デバイスがローカルで情報を処理する必要がある場合に重要です。
さらに、FastVLMは出力トークンの数を削減することを考慮して設計されており、これはモデルがデータを解釈して応答を生成する推論フェーズでも重要です。 Appleによると、このモデルの最初のラベル付き応答までの時間、つまりユーザーが最初のプロンプトを送信してから最初のラベル付き回答を受け取るまでの時間は、類似モデルと比較して85倍高速です。マークアップが少ないということは、モデルの高速化と軽量化を意味し、結果として処理速度が向上します。
FastVLMのコードはGitHubで公開されており、関連レポートはarXivで公開されています。部分的には読みづらい部分もありますが、AppleのAIプロジェクトの技術的な詳細に関心のある方であれば、一読の価値は十分にあります。