独自技術のご紹介

開発現場での最新ニュース!<English>

最先端のイメージマイニングテクノロジー ~コンピュータに「眼」を与える~


画像コンテンツを「理解」することは、これまで人類の眼と脳だけに与えられた能力であり、ピクセル(デジタル画像を構成する画素)の集まりは、コンピュータにとってただの記号の羅列でしかありませんでした。しかし今日、LTU Technologiesが開発し、世界に向けて展開してきたソリューションは、コンピュータに「眼」を与えることに成功しました。あらゆる組織が保持する写真やビデオなどを「理解」し、論理的判断に従って自在に操る能力を得たのです。

LTUのコア技術は、MIT(米:マサチューセッツ工科大学)、オックスフォード大学(英)、INRIA(仏:国立コンピュータサイエンス研究所)でそれぞれ国際的に輝かしい評価を得た、3人の創設者の長年の研究成果に基づいて構築されています。この成果はLTU Technologiesだけの資産であり、LTUの代表的なパッケージアプリケーション群は、LTUが取得した国際特許により保護されています。

このLTUのコア技術は、画像検索・抽出・認識のためのプラットフォームとしてLTUの製品にインテグレートされています。高度なスケーラビリティと、強健なアーキテクチャがこのプラットフォームに採用されており、数百万点にものぼる画像コンテンツ資産を抱える組織や、同時にこれらのデータやシステムに対して最高度のセキュリティを必要とする難易度の高い業務への適用も可能にしています。加えて、このプラットフォームはあらゆるワークフロー、システム環境や画像コンテンツ種類に容易に適用することが可能なようにデザインされています。

<LTUエンジン>とは?

LTUのコア技術の結晶である<LTUエンジン>とは、画像コンテンツをその内容に基づいて解析し、認識し、さらに表現することを実現する、イメージ分析システムのことを指します。

この<LTUエンジン>は、あらゆるタイプの画像データを扱うことが出来ます。個人またはプロのカメラマンによるデジタル写真、インターネットから収集された画像ファイル、グラフィックデザイン、スキャナで電子化されたドキュメント、商標やロゴマーク、さらには動画までもが対象となります。<LTUエンジン>は、こうした画像データを構成するピクセルの配列を分析し、そこに映し出されるグラフィカルな内容を表現するためのデジタル識別子、すなわち<イメージDNA>を生成します。


図1:<LTUエンジン>の概念図

 

複製(Duplicate)・クローン(Clone)・類似(Similar)


 

画像の類似性が「複製」、「クローン」または「類似」のいずれに当たるか。LTUのコア技術は、人間の視覚と同様もしくはそれ以上に正確に、この判断を行うことが出来ます。


図2:「複製」、「クローン」または「類似」の概念図

「複製(Duplicate)」とは全く同じ内容(例えば電子ファイルのバイナリィコピー)を指します。また「クローン(Clone)」について、LTUの<DNA>は、200種類にも及ぶ多種のフォーマット変換に対して、強固な解析によってコンテンツの同一性を見破る能力を持ちます(下図3参照)。これはPhotoshop®など、市販の画像編集ツールが提供する変換パターンのほとんど全てを対象にします。


図3:「クローン」画像として認識される範囲

最後に「類似(Similar)」は、文字通り人間の眼で見て(意味論的に)類似している2つの画像の関係を表します。

 

分類・グループ化(Classification, Clustering)、キーワード付与(Keywording)


 


図4:分類・グループ化、キーワード付与の概念図

「コア技術」詳細の一部を紹介


ピクセルから<イメージDNA>へ

LTUは、人間の視覚の仕組みをコピーし、再構築することに挑戦し続けています。実際の人間の視覚において、網膜は無数の感光細胞から構成されており、ここで捉えられる情報はまさにコンピュータにとってのピクセルと同じ意味を持ちます。得られた視覚情報は、そのまま直接脳に送られて分析・認識される訳ではありません。シナプスの複雑なネットワークによって各細胞で捉えた無数の情報は、圧縮され、最適化されていわゆる画像データとなり、こうして導かれたデータの集合が視覚神経を通じて伝達されているのです。視覚神経中のコネクションを数えると、数千にも及ぶことが分かっています。このコネクションを暗号化したものが、まさにLTUの<イメージDNA>なのです。

LTUのコア技術において、人間の視覚神経は「<DNA>算出モジュール」として表現され、また脳はLTUの「検索・認識モジュール」に当たるといえます。「<DNA>算出モジュール」は、無数のピクセル情報に対して、独自の表現単位としての識別子(signature)、つまり<イメージDNA>を構成する各要素を割り当てます。この<DNA>要素には、色、形状やテクスチャなどのイメージ固有の視覚的特徴を表現するために最適化された情報の組合せが含まれます。

<イメージDNA>から、意味論的表現へ

表現プロセスにおいて、<イメージDNA>は、システムの知識ベースに照らして認識されるために、複数の専用モジュール、つまり「検索・認識モジュール」に入力されます (下図5参照)。この知識ベースは、一つにはLTUオリジナルの、どのようなコンテンツ表現をも可能にするデータベースになる可能性があり、また一方では、入力クエリと照らし合わせながら相対的なコンテンツ表現を可能にする為の、専門的な外部データベースとなる可能性もあります。最新の画像認識技術の研究成果はLTUの開発者の間で常に共有され、利用されています。ここで強調したい点は、LTUの認識プロセスは統計的に人間の眼と脳が振る舞うようにデザインされており、我々はこの観点からテクノロジーのテストを重ね、技術の向上を続けているという点です。

この専用モジュール群と<イメージDNA>を兼ね備えたシステムは、その柔軟性と、そして学習能力との組み合わせにより、既存のイメージ分類システムと比べて遥かに優れたパフォーマンスを発揮します。つまりこのシステムは、対象物のプロファイルを学習し、対象物が「どのように見えるか」その感覚を精製し続けることで、内部の知識ベースを豊かにし続けることが出来るのです。LTUのテクノロジーはさらに、ユーザのアクションからインタラクティヴなやり取りにより学習することも可能にします。そして一番重要なこととして、全てのプロセスが、つまりイメージのインデックス化から意味論的なコンテンツ表現までが、完全にリアルタイムで行われるのです。

dots
図5:<イメージDNA>による意味論的表現の概念図

Contact US
footer bar
LTU Technologies: Making sense of visual content ™