RAG/GraphRAGが上手く働かない根本原因

私たちはふだん、自分が見ている世界を「そのままの世界」だと思っています。

目の前に机がある。
犬がいる。
会社がある。
お客様がいる。
良い商品がある。
悪い判断がある。

このように言うとき、私たちはまるで「机」「犬」「会社」「お客様」「良い商品」「悪い判断」といったものが、世界の中に最初からはっきり存在しているかのように考えています。

しかし、よく考えると、これはそれほど単純な話ではありません。

たとえば、どこまでが「机」でしょうか。折りたたみ式の台は机でしょうか。段ボール箱を作業台として使っていれば、それは机でしょうか。床に板を置いてパソコンを載せたら、それは机でしょうか。

「犬」も同じです。チワワとセントバーナードはまったく違う姿をしていますが、私たちはどちらも犬だと判断します。逆に、犬によく似たロボットは犬ではないと判断するかもしれません。

つまり、私たちが世界を見ているとき、私たちは単に目に映ったものを受け取っているだけではありません。無数の違いをまとめ、似ているものをひとくくりにし、名前を与え、使い道や経験や目的に応じて分類しています。

この「ひとまとめにする働き」が概念です。

概念とは、世界の中に最初からラベルが貼られて存在しているものではありません。人間が世界を理解し、記憶し、判断し、他人と共有するために作り出している認識の単位です。

もちろん、これは「世界はすべて幻だ」という意味ではありません。机も犬も会社も現実に存在します。しかし、「何を机と呼ぶか」「何を犬と見なすか」「どこまでを会社の問題と考えるか」は、人間の認識、文化、経験、目的によって形づくられています。

ところが、多くの人はこの点をあまり意識していません。

私たちは、自分が使っている概念を、あたかも世界そのものの構造であるかのように信じてしまいます。「これは正しい分類だ」「これは客観的な意味だ」「これは事実だ」と思ってしまう。しかし、実際には、その背後には人間の判断があります。

この錯覚は、AIやデータサイエンスの理解を難しくしてきました。

機械学習では、画像や文章にラベルを付けてAIに学習させます。猫の画像には「猫」、犬の画像には「犬」、迷惑メールには「スパム」、良いレビューには「高評価」といったラベルを付けます。

このラベルは、しばしば「正解データ」や「教師信号」と呼ばれます。そのため、多くの人は、それが客観的で絶対的な正解であるかのように感じます。

しかし実際には、多くのラベルは人間の概念判断です。

ある文章が「攻撃的」かどうか。
あるレビューが「好意的」かどうか。
ある顧客が「優良顧客」かどうか。
ある事業アイデアが「有望」かどうか。
ある行動が「リスク」かどうか。

これらは、自然界にそのまま存在する事実ではありません。人間が何を重視するか、どの文脈で判断するか、どのような目的を持って分類するかによって変わります。

つまり、AIは単に客観的事実を学習しているのではありません。多くの場合、人間が世界をどう分け、どう名づけ、どう意味づけているかを学習しています。

これは、今日の大規模言語モデルを考えるうえで非常に重要です。

LLMは、膨大な文章を通して、人間がどのように言葉を使い、物事を関係づけ、意味を作ってきたかを学習しています。言い換えれば、LLMは人間の概念世界をかなり深く学習しているとも言えます。

ところが、その力を実際に業務で使う場面になると、私たちはしばしば「埋め込みベクトル」に頼ります。

埋め込みとは、文章や単語を数値のベクトルに変換する技術です。似た意味を持つ文章や単語は、ベクトル空間の中で近い位置に置かれます。この仕組みによって、AIは「この質問に近い文章はどれか」「この文書に関連する情報はどれか」を検索できます。

これは非常に便利な技術です。しかし、ここに落とし穴があります。

多くの人は、埋め込み空間を「意味空間」だと考えます。たしかに、近い位置にあるものは似た意味を持つことが多い。しかし、それは「意味の近さ」を表しているのであって、「概念そのもの」を表しているわけではありません。

人間の概念は、単なる距離ではありません。

概念には、中心があります。周辺があります。例外があります。用途があります。文脈があります。判断基準があります。歴史があります。価値があります。

たとえば、「顧客」という概念を考えてみましょう。

ある人は一度だけ商品を買った人を顧客と呼ぶかもしれません。別の人は、継続的な関係がある人だけを顧客と呼ぶかもしれません。営業部門にとっての顧客、サポート部門にとっての顧客、経営者にとっての顧客は、同じ言葉でも少しずつ意味が違います。

埋め込み検索では、「顧客」に近い文章を探すことはできます。しかし、「この会社にとって顧客とは何か」「優良顧客と単なる購入者はどう違うのか」「顧客満足と収益性はどう関係するのか」といった概念の構造までは、そのままでは扱えません。

ここに、通常のRAGがうまく動かない一つの理由があります。

RAGは、質問に関連しそうな文書の断片を探し、それをLLMに渡して回答を生成する仕組みです。しかし、検索の単位が断片であり、判断の基準が類似度だけである場合、AIは文書の奥にある概念構造をつかみにくくなります。

人間なら、いくつもの文書を読んで、「これは同じ問題を別の角度から言っている」「この事例は例外だ」「この会社ではこの言葉を特殊な意味で使っている」と理解できます。ところが、単純なベクトル検索では、情報がばらばらの断片として扱われがちです。

つまり、埋め込み空間の中では、人間が概念としてまとめていたものが、いったん細かく分解されます。似たもの同士は近くにありますが、それらをどの範囲でまとめ、どのような意味のかたまりとして扱うかは、別の処理が必要になります。

この問題を補おうとする技術の一つがGraphRAGです。

GraphRAGは、文書から人物、組織、場所、出来事、関係などを取り出し、それらをグラフとして構造化します。これによって、単なる断片検索よりも、情報同士のつながりを扱いやすくなります。

これは大きな前進です。しかし、GraphRAGにも限界があります。

GraphRAGが得意なのは、「何と何が関係しているか」を表すことです。つまり、存在するもの同士の関係を構造化することです。これはオントロジー、つまり存在論的な整理に近いものです。

一方で、人間の概念は、それだけではありません。

人間の概念は、「何が存在するか」だけでなく、「人間がそれをどう見ているか」「どのような目的でまとめているか」「どのような判断に使っているか」という認識の問題です。

たとえば、同じ「クレーム」という言葉でも、ある会社では面倒な苦情を意味し、別の会社では製品改善の重要なヒントを意味します。存在している出来事は同じでも、それをどの概念で捉えるかによって、組織の行動はまったく変わります。

AIが本当に人間の仕事を支援するためには、単にデータを検索するだけでは足りません。単にエンティティの関係を結ぶだけでも足りません。

必要なのは、人間がどのような概念で世界を見ているのかを明らかにすることです。

概念とは、情報を圧縮する道具です。
概念とは、判断の基準です。
概念とは、経験を整理する枠組みです。
概念とは、人間が世界を理解するための地図です。

AI時代に重要なのは、「AIが意味を理解しているか」という問いだけではありません。むしろ、「私たち人間がどのような概念で世界を見ているのか」を問い直すことです。

なぜなら、AIは人間の概念を学習しているからです。

しかし、人間自身が自分の概念を意識していなければ、AIの出力もまた曖昧になります。教師信号を客観的事実だと思い込み、埋め込み空間を意味そのものだと思い込み、検索結果を知識だと思い込むと、AIは本来の力を発揮できません。

これからのAI活用で必要なのは、データを増やすことだけではありません。モデルを大きくすることだけでもありません。

必要なのは、概念を設計し、概念を構造化し、概念を更新できる仕組みです。

人間がどのように世界を分け、何を同じものと見なし、何を違うものと見なし、どの判断基準で行動しているのか。それを明らかにすることによって、AIは単なる検索装置ではなく、人間の思考を支援する道具になります。

AI時代に問われているのは、AIの知能だけではありません。

私たち人間が、自分たちの概念をどこまで理解しているか。

そこから、本当のAI活用が始まります。

RAG/GraphRAGが上手く働かない根本原因

Author: tada@thinknavi.ai

コメントを残すコメントをキャンセル

Mindware Research Institute

Need Help?

Learn More

Get in Touch

Author: tada@thinknavi.ai

Related Posts

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル