第8章 概念抽出

第8章 概念抽出 — ThinkNavi 操作マニュアル

第8章 概念抽出

概念抽出は、テキストデータからAIが概念構造(概念名、論理構造、含意など)を自動的に抽出する機能です。ConceptMap-Text でモデルを構築するための主要なデータ準備手段です。

8.1 概念抽出の概要

テキスト(書籍、論文、マニュアルなど)を「チャンク」(断片)に分割し、各チャンクに対してAIが以下の概念要素を抽出します:

共通項目(Full / Compact 両モード):

フィールド名説明日英両方
chapter_section章・セクション名いいえ
key_termsドメイン固有のキーワード(5〜10個)いいえ
concept_name概念の核心を表す短いラベル(5〜15語)はい
trigger_contextその概念が対処する人間の課題・ニーズ(15〜30語)はい
abstract_structure論理メカニズムを変数A,B,Cで表現(15〜40語)はい
action_implication「XならばY」形式のアクション提案(15〜30語)はい

Fullモード追加項目:

フィールド名説明日英両方
summaryテキスト内容の忠実な要約(120〜180語)はい
logical_structure因果関係と推論の連鎖(120〜180語)はい
implication結論、応用、帰結(120〜180語)はい

各フィールドは英語版(_en)と日本語版(_jp)の両方が生成されます(chapter_section と key_terms を除く)。

8.2 テキストの入力

直接入力:

  1. 左サイドバーで「概念抽出」タブを選択
  2. テキストエリアにテキストを貼り付けます
  3. 書籍タイトルと著者名を入力(CSVのメタデータになります)

ファイルアップロード:

  1. 「ファイルを選択」ボタンでPDFをアップロード
  2. PDFのテキストが自動的に抽出されます
  3. PDFのページ番号が各チャンクに記録されます

対応ファイル形式: PDF

8.3 チャンク分割の設定

テキストをどのように分割するかを設定します。

チャンク方式の選択:

  • チャンク数指定: テキスト全体を指定した数で等分割します。例:30チャンクなら、テキストを30等分
  • チャンクサイズ指定: 指定した文字数ごとに分割します。例:4000文字なら、約4000文字ごとに区切り

チャンク分割の仕組み(内部動作):

  1. PDFの場合、まずページ区切りでテキストを分割
  2. 段落区切り(空行)でさらに分割
  3. 段落が存在しない場合、改行で分割
  4. 改行もない場合、文末(。.!?)で分割
  5. 分割された段落を、指定サイズを目安にまとめてチャンクを構成
  6. 最後のチャンクが小さすぎる場合(目安の20%以下)、前のチャンクに結合

推奨設定:

  • 書籍1冊(300ページ): チャンク数30〜50
  • 論文1本(20ページ): チャンク数5〜10
  • マニュアル(100ページ): チャンク数20〜30

8.4 抽出設定

元テキストを含める: チェックすると、抽出結果のCSVに元のテキスト断片(source_text列)も含まれます。モデル構築時に元テキストを参照したい場合に便利です。

抽出モード:

  • Full: 要約、論理構造、含意を含む詳細な分析。1チャンクあたり約500〜800トークンの応答
  • Compact: concept_name, trigger_context, abstract_structure, action_implication のみ。高速で低コスト

8.5 ブラウザ処理 — リアルタイム抽出

ブラウザ上でリアルタイムに概念抽出を実行します。

操作手順:

  1. テキスト入力、チャンク設定、抽出設定を完了
  2. 「抽出を開始」ボタンをクリック
  3. 各チャンクの処理がリアルタイムで表示されます
  4. 完了後、結果テーブルが表示されます
  5. 「CSVとして保存」で結果を保存

注意: ブラウザを開いたままにする必要があります。ブラウザを閉じると処理が中断されます。

進行中の表示:

  • 現在処理中のチャンク番号(例:「チャンク 15/30 を処理中…」)
  • 処理済みチャンクのプレビュー
  • 推定残り時間

8.6 サーバー処理 — バックグラウンド抽出

サーバー側でバックグラウンド処理を行います。ブラウザを閉じても処理が継続します。

操作手順:

  1. テキスト入力、チャンク設定、抽出設定を完了
  2. 「サーバーで処理」ボタンをクリック
  3. ジョブが開始され、ジョブIDが表示されます
  4. 進行状況は5秒ごとに自動ポーリングされます
  5. 完了後、結果CSVが自動的にプロジェクトに保存されます

進行状況の表示:

  • ステータスバッジ:「処理中」「完了」「失敗」
  • 進捗:「15/30 チャンク処理済み」
  • 推定残り時間

サーバー処理の利点:

  • ブラウザを閉じても処理が継続
  • 別の作業を並行して行える
  • ネットワーク切断に強い(サーバーがリトライ)

8.7 エラーハンドリングとリトライ

概念抽出は内部的に以下のエラーハンドリングを行っています:

  • リトライ: 各チャンクの処理は最大2回リトライされます
  • 連続エラー制限: 3チャンク連続でエラーが発生した場合、ジョブ全体が失敗として停止します
  • クレジットチェック: 処理開始前と各チャンク処理前にクレジット残高を確認します。途中でクレジットが不足した場合、処理済み分までのCSVが保存され、残りは停止します
  • 部分結果の保存: エラーで中断した場合でも、正常に処理されたチャンク分のCSVは保存されます

8.8 抽出結果のCSV構造

出力されるCSVの列構成:

列名説明
book入力した書籍タイトル
author入力した著者名
chunk_indexチャンクの番号(0始まり)
page_numberPDFの場合のページ番号
source_text元のテキスト断片(「元テキストを含める」がオンの場合)
chapter_section章・セクション名
key_termsキーターム(カンマ区切り)
concept_name_en概念名(英語)
concept_name_jp概念名(日本語)
trigger_context_enトリガーコンテキスト(英語)
trigger_context_jpトリガーコンテキスト(日本語)
abstract_structure_en抽象構造(英語)
abstract_structure_jp抽象構造(日本語)
action_implication_enアクション含意(英語)
action_implication_jpアクション含意(日本語)
summary_en要約(英語、Fullモードのみ)
summary_jp要約(日本語、Fullモードのみ)
logical_structure_en論理構造(英語、Fullモードのみ)
logical_structure_jp論理構造(日本語、Fullモードのみ)
implication_en含意(英語、Fullモードのみ)
implication_jp含意(日本語、Fullモードのみ)

chapter_section の自動補完: 空のchapter_sectionセルは、前のチャンクのchapter_section値で自動補完されます。「N/A」「None」などのプレースホルダーは自動的に除去されます。

8.9 概念抽出のトラブルシューティング

問題原因と対処法
チャンクが1つしかできないテキストに段落区切り(空行)がない場合、テキスト全体が1チャンクになります。「チャンク数指定」モードに切り替えてください
抽出結果の日本語が不自然AIモデルの応答品質に依存します。概念名やトリガーコンテキストは、英語版を基準にしてモデル構築することを推奨します
「Credits exhausted」で途中停止クレジットが不足しています。追加クレジットを購入して、残りのチャンクを再処理してください。処理済み分のCSVは保存されています
PDFの文字が正しく抽出されない画像ベースのPDF(スキャン文書)はテキスト抽出できません。OCR処理済みのPDFをご使用ください
サーバー処理のステータスが「失敗」エラーメッセージを確認してください。APIの一時的なエラーの場合、しばらく時間をおいて再実行してください
「確認:未保存のアイテムがあります」ダイアログ現在の抽出結果がCSVに保存されていません。「続行」で破棄して新しい抽出を開始するか、「キャンセル」で戻って保存してください