Content
検索拡張生成 (RAG)
検索拡張生成 (RAG) とは何ですか?
検索拡張生成 (RAG) は、調整されたデータを利用することで大規模言語モデル (LLM) の有効性を高めるように設計されたテクノロジーです。 RAG は、LLM のコンテキストとして特定のデータまたはドキュメントを活用して、有効性を向上させ、最新の情報をサポートし、ドメイン固有の専門知識を提供します。簡単に言うと、大規模言語モデル (LLM) が、トレーニングされていないデータに関する質問に答えることができるようになります。
検索拡張生成 (RAG) は何に使用されますか?
検索拡張生成 (RAG) は、大規模言語モデル (LLM) の出力を強化するために使用されます。デフォルトでは、大規模言語モデル (LLM) は膨大で多様な公開データでトレーニングされ、必ずしも最新の情報にアクセスできるわけではありません。これにより、LLM が役に立たないとみなされる、不慣れなデータ クエリでの潜在的な不正確さ、または幻覚が発生します。
LLM が自社のドメインに合わせた正確な応答を提供する必要がある組織の場合、モデルはデータからの洞察を使用して特定の応答を得る必要があります。検索拡張生成 (RAG) は、非公開データを LLM ワークフローで活用できるようにする業界標準となっているため、ユーザーは正確で関連性の高い応答から恩恵を受けることができます。
検索拡張生成 (RAG) の利点は何ですか?
検索拡張生成 (RAG) は、現在のコンテキストに応じた外部データ ソースを使用して、大規模言語モデル (LLM) の応答品質を向上させます。このアプローチにより、生成された回答の不正確性が効果的に最小限に抑えられ、カスタマイズされたドメイン固有の情報が提供されるため、組織は AI 導入の真のメリットを得ることができます。
検索拡張生成 (RAG) にはセキュリティ リスクはありますか?
1. データ侵害と漏洩
検索拡張生成 (RAG) システムは、検索と生成の両方で膨大な量のデータに依存しており、このデータはベクトル データベースに保存されます。 ベクター データベースが提供するセキュリティは未熟であるため、悪意のある攻撃者が弱点を悪用して機密データや PII にアクセスする可能性があります。 適切に保護されていない場合、このデータは侵害や不正アクセスに対して脆弱になる可能性があり、データの漏洩や、GDPR、HIPPA、CCPA などの多数のデータ プライバシー法や規制の違反につながる可能性があります。
2. モデルの操作とポイズニング
AI モデル(検索拡張生成(RAG)システムで使用されるモデルを含む)は、操作やポイズニング攻撃の影響を受けやすいです。 悪意のある者は、破損したデータや誤解を招くデータをシステムに送り込み、有害な応答や誤解を招く応答を生成させる可能性があります。これは AI の信頼性を損なうだけでなく、重大なセキュリティ リスクも引き起こします。
3. 不正確または誤解を招く情報
検索モデルと生成モデルを組み合わせた場合でも、不正確な情報や誤解を招く情報が生成されるリスクは依然としてあります。検索拡張生成(RAG)システムに古いデータや不正確なデータが供給されると、生成モデルによってこれらのエラーが増幅され、誤った情報の拡散につながる可能性があります。
検索拡張生成 (RAG セキュリティ) の脆弱性にどう対処すればよいでしょうか?
大規模言語モデル(LLM)について述べたデータ セキュリティの推奨事項とベスト プラクティスは、検索拡張生成(RAG)モデルにも同様に適用できます。
OWASP 大規模言語モデル アプリケーションのトップ 10
https://owasp.org/www-project-top-10-for-large-language-model-applications/
NIST AI リスク管理フレームワーク (AI RMF 1.0) の説明