第10章 ConceptMap-Text — データ入力と前処理

第10章 ConceptMap-Text — データ入力と前処理 — ThinkNavi 操作マニュアル

第10章 ConceptMap-Text — データ入力と前処理

ConceptMap-Text は、テキストデータから概念構造モデル（GNG-MST）を構築するための7ステップウィザードです。サイドバーの「モデル＆探索」をクリックしてアクセスします。

10.1 画面構成

ConceptMap-Text の画面は以下の構成です：

左サイドバー（ステップナビゲーション）:

7つのステップボタンが縦に並んでいます
現在のステップがハイライト表示されます
未完了のステップはグレーアウトしてクリックできません
完了したステップには緑のチェックマークが表示されます
最下部に「保存/読込」ボタンがあります

メインエリア:

選択中のステップに対応するコントロールパネル

ステップの順序:

データ入力 → 2. 埋め込み → 3. 次元削減 → 4. 特徴設定 → 5. モデル構築 → 6. クラスタリング → 7. 探索

各ステップは前のステップが完了しないと進めません。ただし、完了済みのステップに戻って再実行することは可能です（その場合、以降のステップがリセットされます）。

10.2 ステップ1：データ入力

データソースとテキスト列を指定します。

プロジェクトとファイルの選択

「プロジェクト」ドロップダウンから、自動リサーチで作成したプロジェクトを選択
「ファイル」ドロップダウンから、使用するCSVファイルを選択
CSVの先頭数行のプレビューと、カラム一覧が表示されます

カラムの役割設定

CSVの各列に対して、以下の役割をボタンクリックで指定します：

役割	ボタン色	説明	用途
Text	青	テキストデータとして分析に使用	埋め込み生成→モデル構築の対象
Numeric	緑	数値データ	プロファイル分析のメタデータ
Categorical	紫	カテゴリデータ	クラスター分析のフィルタリング
Reference	黄	参照情報として表示のみ	探索時に各ノードの詳細で表示
Unused	グレー	分析に使用しない	不要な列を除外

重要: 最低1つの列を「Text」に設定してください。Text列が選択されていない場合、次のステップに進めません。

推奨設定の例（概念抽出CSVの場合）:

concept_name_en → Text（メインのモデリング対象）
summary_en → Text（要約もモデリングに含める場合）
trigger_context_en → Text または Reference
abstract_structure_en → Text または Reference
chapter_section → Categorical
chunk_index → Numeric または Unused
book, author → Reference
key_terms → Reference または Unused

CCM（Connected Concept Model）の構築:

複数のText列を設定すると、各列ごとに独立したモデルが構築され、行インデックスで相互参照可能なCCMが作成されます。例えば、concept_name_en と summary_en の両方をTextに設定すると、概念名のモデルと要約のモデルが連結された状態で構築されます。

データの読み込み

全てのカラムの役割設定が完了したら「データを読み込み」ボタンをクリック
CSVデータがエンジンに送信されます
成功すると、最初の20行のデータプレビューテーブルが表示されます
このステップが「完了」マークになり、次のステップ（埋め込み）がアンロックされます

注意: 「データを読み込み」を再実行すると、エンジンセッションがリセットされ、埋め込み・次元削減・モデルなど全ての後続ステップがリセットされます。

10.3 ステップ2：埋め込み（Embedding）

テキストデータを高次元ベクトル空間に変換します。意味的に近いテキストが近いベクトルになるように変換され、後の分析の基礎となります。

設定項目

モデル選択:

モデル	次元数	特徴	推奨用途
text-embedding-3-small	1536	高速・低コスト。十分な精度	通常使用（推奨）
text-embedding-3-large	3072	高精度。処理時間・コスト大	高精度が必要な場合

次元数選択:

選択肢	説明
Auto	モデルのデフォルト次元数を使用（推奨）
256	低次元。高速だが精度が下がる可能性
512	バランス型
1024	中〜高精度
1536	text-embedding-3-small のデフォルト
3072	text-embedding-3-large のデフォルト

推奨: 通常は text-embedding-3-small + Auto で十分です。

操作手順

モデルと次元数を選択
「埋め込みを生成」ボタンをクリック
進行状況バーが表示されます（データ量に応じて数秒〜数分）
完了すると次のステップに進めます

追加機能

埋め込みCSVのアップロード:

事前に計算した埋め込みベクトルをCSV形式でアップロードできます
各行が1つのデータに対応し、列が各次元の値です
独自の埋め込みモデルを使用したい場合に便利です

埋め込みCSVのダウンロード:

生成した埋め込みベクトルをCSV形式でエクスポートできます
外部ツールでの分析や、後で再利用する場合に便利です

クレジット消費: 埋め込み生成に10クレジット（自前APIキー使用時は5クレジット）

10.4 ステップ3：次元削減（Dimension Reduction）

高次元の埋め込みベクトル（1536次元など）を、分析可能な低次元空間（通常3〜8次元）に圧縮します。各次元は概念の「分析軸」として解釈できます。

設定項目

方式:

方式	説明	推奨用途
UMAP	局所的な構造を保持する非線形次元削減。推奨	ほとんどの場合
PCA	分散最大化の線形変換。高速	データ構造の大まかな把握
PCA+UMAP	PCAで中間次元に削減後、UMAPで最終次元に	高次元データの安定化

次元数:

出力する次元数を指定します
デフォルト: データ量に応じて3〜8（少量データは少なく、大量データは多く）
推奨: 概念数30以下→3次元、30〜100→5次元、100以上→6〜8次元

UMAPパラメータ:

パラメータ	デフォルト	範囲	説明
n_neighbors	15	2〜100	近傍数。小さい値→局所構造を重視（細かいクラスター）。大きい値→大域構造を重視（大きな傾向）
min_dist	0.1	0.0〜1.0	最小距離。小さい値→密なクラスター。大きい値→均等な分布
metric	cosine	cosine / euclidean / manhattan	距離計算方式。テキスト埋め込みにはcosineを推奨

パラメータの調整ガイド:

データのクラスターをはっきり分けたい場合：n_neighbors を小さく（5〜10）、min_dist を小さく（0.01〜0.05）
全体的な傾向を見たい場合：n_neighbors を大きく（30〜50）、min_dist を大きく（0.3〜0.5）
デフォルト値は多くのケースで良好に動作します

操作手順

方式、次元数、パラメータを設定
「実行」ボタンをクリック
処理が完了すると、各次元の統計情報が表示されます

次元の解釈（ラベル付け）

次元削減の結果に意味を与える重要なステップです。

「次元を解釈」ボタンをクリック
AIが各次元のデータを分析し、意味ラベルの候補を提案します
各次元について：
AI提案のラベルがボタンとして表示されます。クリックで選択
または、テキスト入力欄にカスタムラベルを手動入力

ラベルの例:

「Dim 1」→「具体的 ↔ 抽象的」
「Dim 2」→「理論 ↔ 実践」
「Dim 3」→「個人 ↔ 組織」
「Dim 4」→「短期 ↔ 長期」

次元ラベルは、後のモデル探索で各ノードやクラスターの「位置」の意味を理解するために使用されます。

10.5 トラブルシューティング

問題	原因と対処法
「テキスト列が選択されていません」エラー	ステップ1でCSVの列に「Text」ロールを1つ以上指定してください
埋め込み生成が失敗する	OpenAI APIキーが有効か確認してください。クレジット残高も確認してください
次元削減の結果がランダムに見える	UMAPは確率的アルゴリズムのため、実行ごとに結果が異なります。これは正常な動作です。結果に不満な場合、パラメータを変更して再実行してください
「エンジンセッションが期限切れ」	長時間操作しなかった場合、エンジンセッションがタイムアウトします。「データを読み込み」から再開してください
次元のラベル提案が的外れ	AIの提案は参考程度です。データの内容を踏まえて手動でラベルを入力することを推奨します

第10章 ConceptMap-Text — データ入力と前処理