コンピューター・ビジョン
概要と重要性
Computer vision is a field of artificial intelligence that trains computers to interpret and understand the visual world. Using digital images from cameras and videos and deep learning models, machines can accurately identify and classify objects — and then react to what they “see.”
コンピューター・ビジョンの歴史
コンピューター・ビジョンの初期の実験は1950年代に行われ、物体の輪郭を検出する目的や、単純な物体を円や四角形のようなカテゴリーに分類する目的で、いくつかの初期的なニューラル・ネットワークを利用しました。1970年代には、コンピューター・ビジョンの最初の商業利用が行われ、光学式文字認識を用いてタイプライターや手書きのテキストを解釈しました。この進歩は、書かれたテキストを盲人向けに解釈するために利用されました。
1990年代、インターネットの成熟に伴い、分析向けの大規模な画像セットがオンラインで入手可能となり、顔認識プログラムの研究が盛んになりました。これらのデータセットの成長は、マシンが写真や動画から特定の人物を識別できるようにする取り組みに役立ちました。
今日では、次のような数多くの要因が収斂した結果、コンピューター・ビジョンの “ルネサンス” が生じています。
内蔵カメラを搭載したモバイル・テクノロジーにより、世界には写真や動画が満ちあふれています。
コンピューティング・パワーは、より低コストかつ容易に利用できるようになっています。
コンピューター・ビジョンおよび分析用に設計されたハードウェアが、より広く入手可能になっています。
畳み込みニューラル・ネットワークのような新しいアルゴリズムが、ハードウェアやソフトウェアの機能を有効活用します。
これらの進歩がコンピューター・ビジョン分野にもたらした影響は驚異的でした。物体識別や物体分類の精度は10年足らずで50%から99%へと向上しました。そして、今日のシステムは、ビジュアル入力を対象とした高速な検出タスクや反応タスクに関しては、人間よりも正確です。
Computer vision resembles a jigsaw puzzle
Computers assemble visual images in the same way you might put together a jigsaw puzzle.
Think about how you approach a jigsaw puzzle. You have all these pieces, and you need to assemble them into an image. That’s how neural networks for computer vision work. They distinguish many different pieces of the image, they identify the edges and then model the subcomponents. Using filtering and a series of actions through deep network layers, they can piece all the parts of the image together, much like you would with a puzzle.
The computer isn’t given a final image on the top of a puzzle box — but is often fed hundreds or thousands of related images to train it to recognize specific objects.
Instead of training computers to look for whiskers, tails and pointy ears to recognize a cat, programmers upload millions of photos of cats, and then the model learns on its own the different features that make up a cat.
コンピューター・ビジョンの最新動向
顔の認識から、サッカーの試合における生の動きの処理に至るまで、多くの領域でコンピューター・ビジョンは人間の視覚能力に匹敵し、それを凌駕します。
ディープ・ラーニングとコンピューター・ビジョン
ディープ・ラーニングはどのようにして、コンピューターに “見ること” をトレーニングするのでしょう? 様々なタイプのニューラル・ネットワークが動作する仕組みと、それらをコンピューター・ビジョンに活用する方法とは?
Another set of eyes with computer vision
Georgia-Pacific embedded computer vision in day-to-day manufacturing operations to capture and analyze image data. By constantly monitoring for anomalies, the technology helps solve problems with quality and safety and boosts efficiency.
顔認識のデモ
顔認識とコンピューター・ビジョンに必要とされる基本テクニックとデータ処理ステップとは? このデモでは、SAS® Viya® で作成したモデルが、顔画像の検出、角度調整、表現、分類を行う方法を紹介します。
Computer vision is one of the most remarkable things to come out of the deep learning and artificial intelligence world. The advancements that deep learning has contributed to the computer vision field have really set this field apart.
Learn about the multidisciplinary field of data science
コンピューター・ビジョンは、ディープ・ラーニングと人工知能の世界から生まれた最も画期的な成果の一つです。ディープ・ラーニングがコンピューター・ビジョンにもたらした数々の進歩が、この分野を本当に際立たせています。 ウェイン・トンプソン(Wayne Thompson) SASデータ・サイエンティスト
動物保護のためのコンピューター・ビジョン
L動物の足跡を分析するために設計されたコンピューター・ビジョン・モデルは、どのように機能するのでしょう? 原住民の動物追跡者のように足跡を認識する能力を、コンピューターに学習させることは可能なのでしょうか? コンピューターが動物の種類と性別を判断するために様々な情報レイヤーを処理する方法をご確認ください。このビデオでは、SASのアドバンスト・アナリティクス研究開発部門シニア・マネージャー、ジャレッド・ピーターソン(Jared Peterson)が、ニューラル・ネットワークがコンピューター・ビジョンを背後で支えるサイエンスである理由を示します。
Seeing results with computer vision
Computer vision users in many industries are seeing real results – and we’ve documented many of them in this infographic. For example, did you know:
- Computer vision can distinguish between staged and real auto damage?
- Computer vision enables facial recognition for security applications?
- Computer vision makes automatic checkout possible in modern retail stores.
From spotting defects in manufacturing to detecting early signs of plant disease in agriculture, computer vision is being used in more areas than you might expect.
Click on the infographic here to see results from retail, banking, health care and more.
How computer vision works
Computer vision works in three basic steps:
Acquiring an image
Images, even large sets, can be acquired in real-time through video, photos or 3D technology for analysis.
Processing the image
Deep learning models automate much of this process, but the models are often trained by first being fed thousands of labeled or pre-identified images.
Understanding the image
The final step is the interpretative step, where an object is identified or classified.
Today’s AI systems can go a step further and take actions based on an understanding of the image. There are many types of computer vision that are used in different ways:
- Image segmentation partitions an image into multiple regions or pieces to be examined separately.
- Object detection identifies a specific object in an image. Advanced object detection recognizes many objects in a single image: a football field, an offensive player, a defensive player, a ball and so on. These models use an X,Y coordinate to create a bounding box and identify everything inside the box.
- Facial recognition is an advanced type of object detection that not only recognizes a human face in an image, but identifies a specific individual.
- Edge detection is a technique used to identify the outside edge of an object or landscape to better identify what is in the image.
- Pattern detection is a process of recognizing repeated shapes, colors and other visual indicators in images.
- Image classification groups images into different categories.
- Feature matching is a type of pattern detection that matches similarities in images to help classify them.
Simple applications of computer vision may only use one of these techniques, but more advanced uses, like computer vision for self-driving cars, rely on multiple techniques to accomplish their goal.
Next Steps
Seeing is believing. Discover what SAS can help you achieve with computer vision.
コンピューター・ビジョン向けの注目製品
SAS® Visual Data Mining and Machine Learning
このSASソリューションは、ディープ・ラーニングに加えて、クラスタリング、多種多様な回帰手法、ランダムフォレスト、勾配ブースティング・モデル、サポート・ベクター・マシン(SVM)、センチメント分析などをサポートしています。【レビューで書換】モデルはプロジェクトという単位で管理され、モデル生成プロセスはビジュアルなパイプラインとして描き実行することができます。パイプラインは複数の機能ノードで構成され、色分けして表示されます。
お勧めの資料
- 記事 非構造化テキストに潜んでいる未利用のポテンシャルテキストは人間が生み出した最大のデータソースです。ソーシャルメディアへの投稿、チャットボットやデジタル・アシスタントとのやり取り、Eメールの送信、オンラインでのビジネス契約、レポートの生成などに伴い、また、コンピューターやモバイルデバイスを用いてその日の想いや活動を事実上 “ドキュメント化” する行為に伴い、その量は日々増大しています。
- 記事 チャットボットとは?チャットボットとは、人間とコンピューターのやり取りを簡素化するために設計された会話型AIの一種です。この記事では、チャットボットがビジネスでどのように利用されているか、また、チャットボットをアナリティクス・アプリケーションにどのように組み込めるかを説明します。
- ブログ記事 人工知能:ブームと現実を切り分けて認識するためにAIは “機械に更なるスマート性を” 組み込むために役立っていますが、世界を征服しつつあるわけではありません。私たちはAIに何を期待すべきでしょうか?