オントロジー・Semantic Web・Watson

知識表現とデータ連携の仕組み
🔰 初心者

オントロジーって何ですか?哲学の用語のように聞こえますが...

🎓 上級者

もともとは哲学用語ですが、AI分野では概念や関係を体系的に定義した「知識の辞書・設計図」のことです。異なるシステム間で同じ言葉=同じ意味を保証するために使います。

🕸️ 意味ネットワーク(Semantic Network)
🔰 初心者

知識を表現する方法って、具体的にはどうやるんですか?

🎓 上級者

代表的な方法が意味ネットワークです。概念をノード(丸)概念同士の関係をリンク(矢印)で表す方法で、人間が知識を整理するときの考え方に近い表現方法です。

意味ネットワークとは

概念(ノード)と関係(リンク)で知識をグラフ構造として表現する手法。

リンクにはis-a(〜の一種)、has-a(〜を持つ)、part-of(〜の一部)などの種類がある。上位概念の性質を下位概念が継承できるのが特徴。

意味ネットワークの例 動物 カナリア ペンギン 飛べる 黄色い 泳げる エラ is-a is-a is-a is-a has has has has-a 凡例 is-a(〜の一種) has(〜を持つ) 上位の性質を下位が継承する
図: 意味ネットワーク ── 概念(ノード)と関係(リンク)で知識を表現
継承の仕組み

「カナリア is-a 鳥」「鳥 has 飛べる」→ カナリアも「飛べる」と推論できる。
ただしペンギンのような例外もあるため、すべての知識をこの方法だけで表現するのは難しい。

この意味ネットワークの考え方をより体系的・厳密に発展させたものがオントロジーです。

📖 オントロジー(Ontology)
オントロジーとは

概念や関係を体系的に定義した「知識の辞書・設計図」。異なるシステム間で同じ言葉=同じ意味を保証する仕組み。

⚖️ 軽量オントロジー vs 重量オントロジー
項目軽量(Lightweight)重量(Heavyweight)
定義の厳密さ緩やか厳密・形式的
構築コスト低い高い
柔軟性高い低い
推論能力限定的高度な推論が可能
用途情報整理・検索厳密な知識処理
Webカテゴリ、タグ分類医療用語規格、法律定義
🔰 初心者

軽量と重量の違い、具体的にイメージが湧きません...

🎓 上級者

果物を例にしましょう。軽量オントロジーは「果物にはりんご、みかん、バナナがある」というシンプルな階層分類。重量オントロジーは「りんごは果物の一種で、色は赤・緑・黄、産地は寒冷地域のみ、収穫時期は9月〜11月、必ず種子を持つ」という厳密な定義です。

軽量オントロジー

「だいたいこんな分類」というゆるい辞書

[果物]
  ├ りんご
  ├ みかん
  └ バナナ

重量オントロジー

「これはこう定義する」という厳密な仕様書

りんご:
  is-a: 果物
  色: {赤, 緑, 黄}
  産地: 寒冷地域のみ
  収穫時期: 9月〜11月

重量オントロジーの例 ── 階層構造と関係 生物 動物 植物 is-a is-a 果物 野菜 is-a is-a is-a is-a is-a is-a りんご みかん 属性: 色 = 赤 収穫: 9〜11月 property 凡例 最上位概念 上位概念 中位概念 下位概念(具体) is-a(上位概念への帰属)と property(属性情報)で知識を構造化する
図1: 重量オントロジーの階層構造 ── 概念間の is-a 関係と属性定義
🌐 Semantic Web(セマンティックWeb)
Semantic Webとは

Webページに意味(セマンティクス)を付与し、コンピュータが内容を理解できるようにする構想。

提唱者:ティム・バーナーズ=リー(WWWの発明者)

項目従来のWebSemantic Web
対象人間が読むコンピュータも理解
検索キーワード一致意味を理解して検索
データバラバラ関連付けられている
🔗 Linked Open Data(LOD)
Linked Open Dataとは

Semantic Webを実現するためのデータ公開・連携の仕組み

用語意味
Linkedデータ同士がリンクで繋がっている
Open誰でも自由に使える
Data機械が読める形式のデータ
代表例

DBpediaWikidata ── Wikipediaの情報を機械可読なデータとして公開したもの。

🤖 Watson(IBM Watson)
🔰 初心者

Watsonって聞いたことがあります。どういうAIなんですか?

🎓 上級者

IBMが開発した質問応答AIです。2011年にクイズ番組「Jeopardy!」で人間のチャンピオンに勝利して話題になりました。軽量オントロジー大量テキスト解析を組み合わせた技術が特徴です。

項目内容
開発IBM
話題2011年クイズ番組「Jeopardy!」で人間に勝利
技術軽量オントロジー + 大量テキスト解析
Watsonの処理パイプライン 質問入力 「この都市は 日本の首都で...」 質問解析 自然言語処理で 構文解析 候補生成 大量の回答候補 を生成 スコアリング 各候補に 確信度スコア付与 回答出力 最高スコアの 回答を出力 1 2 3 4 5 大量のデータベース・辞書・オントロジーを参照 Wikipedia、辞書、百科事典、Web文書、構造化データなど 具体例 質問「日本の首都は?」→ 解析 → 候補: 東京, 京都, 大阪... → スコア: 東京=0.95 → 回答「東京」 Jeopardy! では3秒以内にこの処理を完了していた
図2: Watsonの質問応答パイプライン ── 質問解析から回答出力までの5ステップ
🔀 Semantic Web と Watson の違い(重要)

Semantic Web / LOD

データにラベルを付けて整理してから使う

例え:整理された図書館

Watson

ラベルなしの文章をそのまま読んで理解する

例え:本を読んで理解するAI

Watsonが画期的だった理由

Semantic Webの理想:「みんながラベル付きデータを公開すれば便利」

現実の問題:みんながラベルを付けてくれない(手間がかかる)

Watsonの解決策:「ラベルなしでも理解できるAIを作ろう」

ラベルがなくても文章から意味を抽出できたのが画期的だった。

Watsonの動作イメージ

普通の文章:「東京は日本の首都で、人口は約1400万人です」
  ↓
Watson:文章を解析して「東京」「首都」「1400万人」の関係を理解
  ↓
質問「東京の人口は?」 → 「1400万人」と回答

🎯 G検定ポイント