セマンティック・ウェブ

宮尾 祐介(情報理工学系研究科コンピュータ科学専攻 助教)

現在のWWW(World Wide Web)は単にデータの集合であり人間がデータを解釈して初めて意味のある情報となるが,セマンティック・ウェブ(Semantic Web)はウェブページにメタデータを付加することでコンピュータが意味情報を解釈・処理することを目指す枠組みである。

セマンティック・ウェブ技術のひとつであるRDF(Resource Description Framework)はコンピュータが理解可能な形式でメタデータを記述する枠組みである。たとえば,「源氏物語の作者は紫式部である」という情報を自然言語で表すと「紫式部が源氏物語を書いた」「源氏物語は紫式部によって作られた」などさまざまな表現があり,これらが同一の意味を表していることをコンピュータは理解できない。いっぽう,RDFは<主語,述語,目的語>の3つ組でさまざまな関係を表す。たとえば上の例は<源氏物語,作者,紫式部>と表現する。ただし,主語,述語,目的語に勝手な単語を使うと結局自然言語と変わらないため,それらに使える単語(語彙)の共通化・標準化が行われている。

単語を列挙するだけでは意味を記述したとは言えず,単語間の関係を定義する必要がある。セマンティック・ウェブのもうひとつの重要な技術であるOWL(Web Ontology Language)は,オントロジー(単語間の関係を定義するもの)を記述するための言語である。たとえば,「紫式部は女性である」という関係がオントロジーに記述されていれば,上の情報と合わせて「源氏物語の作者は女性である」という推論が可能となる。

これらの技術の一部はすでに広く利用されている。たとえば,ブログやニュースサイトの配信に利用されているRSS(RDF Site Summary)はRDFを記述方式として利用している。現在はRDFとOWLによる意味記述が研究の中心であるが,将来的にはこれらの意味記述を利用して推論,証明,矛盾検出,信頼性判定などの高度な意味処理を行うことが想定されている。

マンティック・ウェブはメタデータにより意味処理を実現するアプローチであるが,自然言語処理ではテキストから意味を計算する技術が古くから研究されている。情報理工学系研究科辻井研究室では自然言語処理やオントロジーを利用したテキストマイニングの研究を行っており,その成果として意味に基づく論文検索エンジンMEDIEなどを公開している。