第11章 画像処理分野におけるGNN
はじめに
画像処理分野の多くのタスクにおいて,グラフ構造データが用いられている. 与えられた画像の内容に基づいて質問に答えることが要求される,画像を使った質問応答タスク(VQA)では,画像内のオブジェクト間の関係をモデル化するためにグラフが利用されることがある. また,骨格の動きから人間の行動を予測する骨格認識タスクでは,骨格をグラフで表現することができる. また,画像分類では,知識グラフやカテゴリ共起グラフを通じて,異なるカテゴリが互いに関連付けられる(Wang et al., 2018b; Chen et al., 2019c). さらに,形状や物体を表す不規則なデータ構造の一種である点群も,グラフとして表すことができる.
以上のように,グラフニューラルネットワークを利用することで,これらのグラフからパターンを抽出し,画像処理分野における様々なタスクに取り組みやすくなる. 本章では,GNNが画像処理分野におけるタスクにどのように適応できるかについて,代表的なアルゴリズムを用いて紹介する.
目次
- 11.1 はじめに
- 11.2 VQA: 画像を使った質問応答タスク
- 11.2.1 画像をグラフとして捉える方法
- 11.2.2 画像と質問をグラフとして捉える方法
- 11.3 骨格情報に基づく行動認識タスク
- 11.4 画像分類
- 11.4.1 ゼロショット画像分類
- 11.4.2 少数ショット画像分類
- 11.4.3 マルチラベル画像分類
- 11.5 点群学習
- 11.6 本章のまとめ
- 11.7 参考文献