見出し画像

図から対話へ:Azure AI Searchの新しいマルチモーダル機能の紹介

マルチモーダルインデックスが簡単に利用可能に。以下まとめ

Introduction

Azure AI Searchに新たに加わったマルチモーダル機能群をご紹介します。

  • 主な機能

    • ページおよびインライン画像からのテキスト抽出

    • 画像説明(バーバライゼーション)の生成

    • ビジョン/テキストの埋め込み生成

    • ナレッジストアへの切り抜き画像の保存

    • RAG(Retrieval Augmented Generation)アプリケーション向けのテキスト/画像アノテーション返却

  • 設定方法

  • リソース

    • Azure AI Searchのインデックスを利用したRAGアプリのサンプルコードを含む新しいGitHubリポジトリ


なぜマルチモーダルがGenAIアプリに重要なのか

  • マルチモーダルとは

    • テキストや画像など、異なる種類のデータを一つのシステムがシームレスに処理・解釈できる能力

  • 重要性

    • テキストだけでなく、図やチャート、インフォグラフィックなど画像からも情報を理解・抽出可能

    • 例:HRシステムへのアクセス方法など、重要な回答が画像のワークフロー内に含まれている場合にも対応

  • 効果

    • 画像内の情報にもアクセス可能になり、コパイロットやエージェントがより完全で根拠のある回答を提供可能


OCRとの違い

  • 従来のOCR(光学式文字認識)

    • 画像をプレーンテキストに変換するのみ

    • 構造や文脈、特にフローチャートのような複雑な視覚情報は理解できない

  • マルチモーダル検索

    • テキスト・画像内の関係性や文脈、意味を解釈可能

    • よりリッチで関連性の高い回答が得られる


埋め込み(エンベディング)について

  • 画像およびマルチモーダル埋め込み

    • 内容や意味に基づき、ビジュアルとクエリをマッチング

  • 課題

    • 埋め込みのみでは、図内のシーケンスなど構造的な論理を捉えきれない場合がある

  • バーバライゼーションの役割

    • 画像から基礎となる構造や関係性を抽出し、埋め込みを補完

    • 両者の併用で、より深い理解と精度の高いGenAI応答が可能


開発者にとってなぜ重要なのか

  • これまでの課題

    • 画像・テキスト用に別々のパイプラインを構築・維持する必要があり、非常に手間がかかる

  • 新しいウィザードの利点

    • 設定の簡素化(ビルトイン対応)

      • 画像抽出・正規化

      • 画像バーバライゼーション(自動キャプション)

      • マルチモーダル埋め込み

      • ナレッジストアへの切り抜き画像保存

      • 検索/RAG用インデックス作成

  • GitHubリポジトリ

    • RAGアプリ構築のスターターコードを提供

    • 複雑な事前準備から解放され、ユーザー体験の構築に集中できる


「私たちは、MiM(AI搭載ナレッジアシスタント)の強化のため、Azure AI Searchのマルチモーダル機能を検証しています。これにより、複雑な技術文書や独自のナレッジソース(図、構造化テーブル、埋め込みビジュアル等)から情報を解釈し取得できるようになります。Azure AI Searchとの早期連携により、実際のシナリオで新機能のテストが可能になりました。まだ初期段階ですが、その進捗に勇気づけられており、今後の展開が楽しみです。」

Subhas Patel, Spirax Group テクノロジー部門統括
画像

エンドツーエンドフロー:取り込みから回答まで

下記はマルチモーダル機能のエンドツーエンドの全体像です。

画像

マルチモーダル機能セットの詳細

各ステップの機能と概要

1.1 拡張ドキュメントインテリジェンス レイアウトスキル(更新)

  • 機能:画像・テキストのページ番号、バウンディングボックス、プレーンテキスト、ページ単位スライス(複数文書タイプ対応)を抽出

  • 提供場所:Portal wizard, REST (2025-05-01-preview), GitHub repo

または

1.2 ドキュメント抽出スキル(既存)

  • 機能:画像・テキスト抽出。テキストページ番号や多角形抽出が不要なRAGアプリ向き。ページ番号抽出はPDFのみ対応

  • 提供場所:Portal wizard, REST (2025-05-01-preview)

2. 拡張スプリットスキル(更新)

3. GenAIプロンプトスキル(新規)

  • 機能:抽出画像のバーバライゼーション・要約・分類などをAzure AI Foundry上の任意のチャット補完モデルに依頼。後でAOAI埋め込みモデルと組み合わせ

  • 提供場所:Portal wizard, REST (2025-05-01-preview), GitHub repo

4. 埋め込みモデル対応(既存)

5. ナレッジストアへのネイティブ画像保存(新規)

  • 機能:抽出画像をKnowledge storeに自動保存し、RAGアプリから直接参照可能

  • 提供場所:Portal wizard, GitHub repo

1〜5. 標準Azureポータルウィザード(新規)

  • 機能:数クリックでRAG対応マルチモーダルインデックスを作成。JSON編集不要のノーコード統合ツール

6. GitHubサンプルアプリコード(新規)

  • 機能:ウィザード作成インデックスを活用し、テキスト+画像アノテーションを取得するマルチモーダル検索RAGアプリを提供

  • 特徴:High-code


はじめ方

  1. ウィザードでマルチモーダルインデックスを作成

画像

2. サンプルアプリコードの利用

画像

開発者向けTips

  • サンプルアプリコードで、すぐにエンドツーエンドの機能を試せます。

  • ドキュメント抽出スキルはテキスト・画像抽出が可能ですが、多角形ボックスやページ番号抽出などテキスト位置メタデータはサポートしません(PDFのみ対応)。
    より高度な抽出には、Document Intelligenceコンテンツレイアウトスキルをご利用ください。

  • 既存スキル(カスタムスキル含む)やインデックス投影を活用し、カスタマイズや拡張が可能です。


What’s next?

いいなと思ったら応援しよう!

コメント

ログイン または 会員登録 するとコメントできます。
図から対話へ:Azure AI Searchの新しいマルチモーダル機能の紹介|daka | Microsoft | AI
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1