
AppleのAI研究者は、GPT-4を「大幅に上回る」便利なデバイス内モデルを誇示c

Siriは最近、CarPlayや通知のアナウンス機能を使用している際に、メッセージアプリで受信した画像の説明を試みています。しかし、Siriの常套手段であるこの機能は一貫性がなく、結果もまちまちです。
それでも、AppleはAIの約束を掲げて前進しています。最近発表された研究論文の中で、AppleのAI専門家たちは、Siriが画像内の認識だけにとどまらない、はるかに多くのことを実現できるシステムを説明しています。そして何より素晴らしいのは、Appleが開発したこのベンチマークモデルの1つが、ChatGPT 4.0よりも優れていると考えていることです。
Appleは論文(ReALM:言語モデルとしての参照解像度)の中で、大規模な言語モデル強化型音声アシスタントの有用性を高める可能性のある技術について説明しています。ReALMは、画面に表示されているものとアクティブなタスクの両方を考慮します。論文からその仕組みについて抜粋します。
1. 画面上のエンティティ: これらは現在ユーザーの画面に表示されているエンティティです
2. 会話エンティティ:会話に関連するエンティティです。これらのエンティティは、ユーザーの以前のターンから取得される場合があります(例えば、ユーザーが「お母さんに電話して」と言った場合、お母さんの連絡先が関連するエンティティになります)。また、バーチャルアシスタントから取得される場合があります(例えば、エージェントがユーザーに場所やアラームのリストを提示して選択肢を提示した場合など)。
3. バックグラウンド エンティティ: これらは、バックグラウンド プロセスから取得される関連エンティティであり、必ずしもユーザーの画面に表示される内容や仮想エージェントとのやり取りに直接関係するとは限りません。たとえば、アラームが鳴り始めたり、バックグラウンドで音楽が再生されたりすることなどです。
もしうまく機能すれば、より賢く、より便利なSiriの実現につながるでしょう。Appleも、このようなタスクを驚異的な速度で完了できると自信を持っているようです。ベンチマークは、OpenAIのChatGPT 3.5とChatGPT 4.0と比較されています。
別のベースラインとして、2024年1月24日に利用可能になったChatGPTのGPT-3.5(Brown et al., 2020; Ouyang et al., 2022)とGPT-4(Achiam et al., 2023)のバリアントを、コンテキスト内学習で実行します。私たちのセットアップと同様に、両方のバリアントで利用可能なセットからエンティティのリストを予測することを目指します。テキストのみを受け入れるGPT-3.5の場合、入力はプロンプトのみで構成されます。ただし、画像にコンテキストを付与する機能も備えているGPT-4の場合は、画面上の参照解決タスクのためにシステムにスクリーンショットを提供します。これにより、パフォーマンスが大幅に向上することがわかりました。
では、Apple のモデルはどのように機能するのでしょうか?
類似機能を持つ既存システムと比較して、異なる種類の参照に対して大幅な改善を示しました。最小モデルでも画面上の参照において5%以上の絶対値向上を達成しました。また、GPT-3.5およびGPT-4と比較したベンチマークテストでは、最小モデルはGPT-4に匹敵するパフォーマンスを達成し、より大規模なモデルはGPT-4を大幅に上回るパフォーマンスを示しました。
大幅に上回っている、とおっしゃるでしょうか?論文は次のように結論づけています。
ReaLMは、従来のアプローチを凌駕し、画面上の参照(純粋にテキスト領域)においても、はるかに少ないパラメータ数であるにもかかわらず、今日の最先端のLLMであるGPT-4とほぼ同等の性能を発揮することを示します。また、ドメイン固有のユーザー発話においてもGPT-4を上回る性能を発揮するため、ReaLMは、パフォーマンスを損なうことなくデバイス上で動作可能な実用的な参照解決システムとして理想的な選択肢となります。
パフォーマンスを犠牲にすることなくデバイス上で動作させることが、Appleにとって鍵となるようだ。iOS 18と6月10日のWWDC 2024を皮切りに、今後数年間のプラットフォーム開発は興味深いものになるだろう。
bandboth.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。