図から対話へ:Azure AI Searchの新しいマルチモーダル機能の紹介
マルチモーダルインデックスが簡単に利用可能に。以下まとめ
Introduction
Azure AI Searchに新たに加わったマルチモーダル機能群をご紹介します。
主な機能
ページおよびインライン画像からのテキスト抽出
画像説明(バーバライゼーション)の生成
ビジョン/テキストの埋め込み生成
ナレッジストアへの切り抜き画像の保存
RAG(Retrieval Augmented Generation)アプリケーション向けのテキスト/画像アノテーション返却
設定方法
新しいAzureポータルのウィザード(マルチモーダル対応)
リソース
Azure AI Searchのインデックスを利用したRAGアプリのサンプルコードを含む新しいGitHubリポジトリ
なぜマルチモーダルがGenAIアプリに重要なのか
マルチモーダルとは
テキストや画像など、異なる種類のデータを一つのシステムがシームレスに処理・解釈できる能力
重要性
テキストだけでなく、図やチャート、インフォグラフィックなど画像からも情報を理解・抽出可能
例:HRシステムへのアクセス方法など、重要な回答が画像のワークフロー内に含まれている場合にも対応
効果
画像内の情報にもアクセス可能になり、コパイロットやエージェントがより完全で根拠のある回答を提供可能
OCRとの違い
従来のOCR(光学式文字認識)
画像をプレーンテキストに変換するのみ
構造や文脈、特にフローチャートのような複雑な視覚情報は理解できない
マルチモーダル検索
テキスト・画像内の関係性や文脈、意味を解釈可能
よりリッチで関連性の高い回答が得られる
埋め込み(エンベディング)について
画像およびマルチモーダル埋め込み
内容や意味に基づき、ビジュアルとクエリをマッチング
課題
埋め込みのみでは、図内のシーケンスなど構造的な論理を捉えきれない場合がある
バーバライゼーションの役割
画像から基礎となる構造や関係性を抽出し、埋め込みを補完
両者の併用で、より深い理解と精度の高いGenAI応答が可能
開発者にとってなぜ重要なのか
これまでの課題
画像・テキスト用に別々のパイプラインを構築・維持する必要があり、非常に手間がかかる
新しいウィザードの利点
設定の簡素化(ビルトイン対応)
画像抽出・正規化
画像バーバライゼーション(自動キャプション)
マルチモーダル埋め込み
ナレッジストアへの切り抜き画像保存
検索/RAG用インデックス作成
GitHubリポジトリ
RAGアプリ構築のスターターコードを提供
複雑な事前準備から解放され、ユーザー体験の構築に集中できる
「私たちは、MiM(AI搭載ナレッジアシスタント)の強化のため、Azure AI Searchのマルチモーダル機能を検証しています。これにより、複雑な技術文書や独自のナレッジソース(図、構造化テーブル、埋め込みビジュアル等)から情報を解釈し取得できるようになります。Azure AI Searchとの早期連携により、実際のシナリオで新機能のテストが可能になりました。まだ初期段階ですが、その進捗に勇気づけられており、今後の展開が楽しみです。」
エンドツーエンドフロー:取り込みから回答まで
下記はマルチモーダル機能のエンドツーエンドの全体像です。
マルチモーダル機能セットの詳細
各ステップの機能と概要
1.1 拡張ドキュメントインテリジェンス レイアウトスキル(更新)
機能:画像・テキストのページ番号、バウンディングボックス、プレーンテキスト、ページ単位スライス(複数文書タイプ対応)を抽出
または
1.2 ドキュメント抽出スキル(既存)
機能:画像・テキスト抽出。テキストページ番号や多角形抽出が不要なRAGアプリ向き。ページ番号抽出はPDFのみ対応
2. 拡張スプリットスキル(更新)
機能:各チャンクごとのオフセット、長さ、順序位置を抽出
3. GenAIプロンプトスキル(新規)
機能:抽出画像のバーバライゼーション・要約・分類などをAzure AI Foundry上の任意のチャット補完モデルに依頼。後でAOAI埋め込みモデルと組み合わせ
4. 埋め込みモデル対応(既存)
機能:文書取り込みや各ユーザークエリ時にビジョン・テキスト埋め込み生成。Azure OpenAI埋め込みスキル、AMLスキル、AI Vision埋め込みスキル等に対応
提供場所:Portal wizard, AOAI embedding skill/vectorizer, AML skill / AML vectorizer, AI Vision multimodal embedding skill / vectorizer, REST (2025-05-01-preview), GitHub repo
5. ナレッジストアへのネイティブ画像保存(新規)
機能:抽出画像をKnowledge storeに自動保存し、RAGアプリから直接参照可能
提供場所:Portal wizard, GitHub repo
1〜5. 標準Azureポータルウィザード(新規)
機能:数クリックでRAG対応マルチモーダルインデックスを作成。JSON編集不要のノーコード統合ツール
6. GitHubサンプルアプリコード(新規)
機能:ウィザード作成インデックスを活用し、テキスト+画像アノテーションを取得するマルチモーダル検索RAGアプリを提供
特徴:High-code
はじめ方
ウィザードでマルチモーダルインデックスを作成
[How-to Multimodal Search wizardドキュメント]を参照し、ステップバイステップでRAGマルチモーダル対応インデックスを構築してください。
2. サンプルアプリコードの利用
[GitHubのマルチモーダルサンプルアプリコードリポジトリ]から、ステップ#1で作成したインデックスに接続できるコード対応アプリを取得できます。
コードのみでの構築や、サンプルコードの一部利用も可能です。
開発者向けTips
サンプルアプリコードで、すぐにエンドツーエンドの機能を試せます。
ドキュメント抽出スキルはテキスト・画像抽出が可能ですが、多角形ボックスやページ番号抽出などテキスト位置メタデータはサポートしません(PDFのみ対応)。
より高度な抽出には、Document Intelligenceコンテンツレイアウトスキルをご利用ください。既存スキル(カスタムスキル含む)やインデックス投影を活用し、カスタマイズや拡張が可能です。
What’s next?
フルマルチモーダルアノテーションで、「見逃していた答え」をユーザーに提示!
コメント