Visão computacional
O que é e porque é importante?
A visão computacional é uma área da inteligência artificial que treina os computadores a interpretar e compreender o mundo visual. Utilizando imagens digitais de câmaras ou vídeos e modelos de deep learning, as máquinas podem identificar e classificar objetos com precisão — e depois reagir ao que "veem".
História da visão computacional
As experiências iniciais em visão computacional tiveram lugar em 1950, e utilizaram algumas das primeiras redes neurais para detetar as arestas de alguns objetos e agrupá-los em categorias, tais como, círculos ou elementos retangulares. Nos anos 70 do século XX, o primeiro uso comercial da visão computacional interpretou letra datilografada e manuscrita através do reconhecimento ótico de caracteres. Este avanço foi utilizado para interpretar texto escrito para os cegos.
À medida que a internet foi amadurecendo nos anos 90, e foram disponibilizados grandes conjuntos de imagens online para análise, deu-se o florescimento dos programas de reconhecimento facial. Este crescente número de conjuntos de dados ajudaram a que as máquinas conseguissem identificar determinadas pessoas em fotografias ou vídeos.
Presentemente, um número de fatores convergiram para o renascimento da visão computacional.
Telemóveis com câmaras potenciaram a saturação do mundo atual com fotos e vídeos.
O poder computacional ficou mais económico e acessível.
O hardware para a visão computacional e análise está mais amplamente disponível.
Novos algoritmos como as redes neurais convolucionais podem tirar vantagem dos recursos de hardware e software.
Os efeitos destes avanços no campo da visão computacional têm sido surpreendentes. As taxas de precisão para a identificação e classificação de objetos passaram dos 50% para os 99% em menos de uma década — e os sistemas atuais são mais precisos do que os humanos a rapidamente detetar e a reagir a inputs visuais.
Oiça porque é que a Georgia-Pacific escolheu a SAS
A visão computacional assemelha-se a um puzzle
Os computadores recolhem imagens da mesma forma que uma pessoa monta um puzzle.
Pense no seu método para montar um puzzle. Tem várias peças, e precisa de as montar para obter uma imagem. É assim que as rede neurais para a visão computacional funcionam. Distinguem os vários tipos de peças na imagem, identificam os recortes e depois modelam os subcomponentes. Através da filtragem, e de uma série de várias ações de camadas profundas das redes neurais, conseguem juntar todas as peças da imagem, tal como uma pessoa faz para montar um puzzle.
Porém, o computador não tem ao seu dispor a imagem final que vem na caixa do puzzle — no entanto, tem centenas ou milhares de imagens semelhantes, a partir das quais pode treinar para reconhecer objetos específicos.
Em vez de treinarmos o computador a reconhecer bigodes, orelhas pontiagudas e caudas, para saber reconhecer um gato, os programadores fazem o upload de milhões de fotos de gatos, e depois o modelo aprende por si só, quais são as características únicas dos gatos.
A visão computacional no mundo atual
Desde reconhecer caras a processar um jogo de futebol ao vivo, a visão computacional rivaliza e supera as habilidades humanas em várias áreas.
Deep learning e visão computacional
Como é que o deep learning treina o computador a ver algo? Obtenha uma introdução às técnicas de deep learning e aplicações, aprenda como os diferentes tipos de modelos de redes neurais profundas são utilizados para a visão computacional.
Outro par de olhos com visão computacional
A Georgia-Pacific incorporou visão computacional nas operações diárias de fabrico para capturar e analisar os dados de imagens. Ao monitorizar constantemente as anomalias, a tecnologia ajuda a resolver problemas relacionados com a qualidade e segurança, aumentando assim a eficiência.
The Batting Lab
A The Batting Lab combina AI, visão computacional e IoT analytics com o basebol, para ajudar as crianças a melhorar os movimentos em campo e a sua literacia dos dados. Os sensores e câmaras utilizam a deteção de objetos para recolher pontos de dados e processar imagens, criando assim recomendações em tempo real para os batedores.
Who's using computer vision?
Computer vision is used across industries to enhance the consumer experience, reduce costs and increase security.
Retail
Retailers can use computer vision to enhance the shopping experience, increase loss prevention and detect out-of-stock shelves. Computer vision is already helping customers checkout more quickly – aiding using self-checkout machines or combining with machine learning to alleviate the checkout process completely.
Manufacturing
In manufacturing, businesses use computer vision to identify product defects in real time. As the products are coming off the production line, a computer processes images or videos, and flags dozens of different types of defects — even on the smallest of products.
Public Sector
Public sector agencies use computer vision to better understand the physical condition of assets under their control, including equipment and infrastructure. Computer vision can help agencies perform predictive maintenance by analyzing equipment and infrastructure images to make better decisions on which of these require maintenance. In addition, computer vision is used to help monitor compliance with policies and regulations. For example, computer vision can be used to detect contraband in cargo, flag potential safety violations in buildings, review labels for adherence to guidelines, and ensure compliance with conservation regulations. Finally, as drones become used for more defense and homeland security needs, the use of analytics to identify and analyze critical elements from the visual feed will rise to the forefront of computer vision use cases in the public sector.
Health Care
In the medical field, computer vision systems thoroughly examine imagery from MRIs, CAT scans and X-rays to detect abnormalities as accurately as human doctors. Medical professionals also use neural networks on three-dimensional images like ultrasounds to detect visual differences in heartbeats and more.
Insurance
In the insurance industry, companies use computer vision to conduct more consistent and accurate vehicle damage assessments. The advancement is reducing fraud and streamlining the claims process.
A visão computacional é uma das mais interessantes e valiosas coisas vindas do mundo de deep learning e inteligência artificial. Os avanços para os quais o deep learning contribuiu relativamente à visão computacional fizeram com que este campo se verdadeiramente destacasse.
Aprenda mais sobre a área multidisciplinar da ciência de dados
A visão computacional para a conservação de animais
Aprenda como um modelo de visão computacional desenhado para analisar os registos dos animais funciona. Será que podemos treinar um computador para ver uma pegada da mesma forma que um animal na natureza a vê? Veja como o computador processa camadas diferentes de informação, para saber qual o animal e seu respetivo sexo. Neste vídeo, Jared Peterson, Gestor Sénior do SAS Advanced Analytics R&D, mostra como as redes neurais são a ciência por detrás da visão computacional.
Ver os resultados à luz da visão computacional
Os utilizadores da visão computacional, em várias indústrias, estão a ver resultados reais – e documentámos muitos deles neste infográfico. Por exemplo, sabia que:
- A visão computacional consegue distinguir os danos reais dos danos falsos em viaturas?
- Que a visão computacional permite o reconhecimento facial nas aplicações de segurança?
- A visão computacional possibilita um check-out automático nas lojas de retalho mais modernas.
Desde encontrar defeitos de fabrico a detetar sinais precoces de doenças em plantas na agricultura, a visão computacional é utilizada em áreas que nem imagina.
Clique no infográfico para ver os resultados no retalho, banca, cuidados de saúde e muito mais.
Como funciona a visão computacional?
Existem 3 passos básicos a dar para a visão computacional funcionar:
Adquirir uma imagem
As imagens, mesmo os maiores conjuntos, podem ser adquiridas em tempo real através de vídeos, fotos, ou tecnologia 3D para análise.
Processar uma imagem
Os modelos de deep learning automatizam grande parte deste processo, mas estes costumam ser treinados, primeiramente, através da sua alimentação com milhares de imagens identificadas ou não.
Compreender a imagem
O último passo é interpretativo, onde há um objeto identificado ou classificado.
Atualmente, os sistemas de AI podem ir mais além e realizar ações com base na compreensão de uma imagem. Há vários tipos de visão computacional que são utilizados de várias formas.
- Segmentação de imagens: é a partição de uma imagem em múltiplas áreas ou peças, que são examinadas separadamente.
- Deteção de objetos: identifica um objeto específico numa imagem. A deteção avançada de um objeto permite reconhecer vários objetos numa imagem (um campo de futebol, uma jogada ofensiva ou defensiva, a posição da bola, e muito mais). Estes modelos utilizam coordenadas XY, para criar uma caixa delimitadora e identificar tudo o que se encontra dentro da mesma.
- Reconhecimento facial: é uma deteção de objeto avançada que não só reconhece a face humana numa imagem, como também consegue identificar uma pessoa em particular.
- Deteção de edge: é uma técnica utilizada para detetar a "borda" de um objeto ou paisagem, para perceber melhor qual o tipo de imagem em questão.
- Deteção de padrões: é um processo de reconhecimento da repetição de formas, cores e outros indicadores visuais em imagens.
- Classificação de imagens: agrupa imagens em diferentes categorias.
- Correspondência de características: é um tipo de padrão que combina similaridades em imagens para ajudar a classificar as mesmas.
As aplicações simples de visão computacional podem utilizar apenas uma destas técnicas, mas as mais avançadas, como a visão computacional para carros que se conduzem sozinhos, dependem de múltiplas técnicas para alcançar o seu objetivo.
Funcionalidade em destaque para visão computacional
SAS® para Machine Learning e Deep Learning
Esta funcionalidade SAS permite a colocação em cluster, diferentes tipos de regressão, florestas aleatórias, modelos de aumento de gradiente, máquinas de vetores de suporte, análise de sentimentos e mais, para além do deep learning. Num ambiente de pipeline interativo e visual, cada projeto (ou objetivo) é apresentado como uma série de etapas codificadas por cores, que ocorrem numa sequência lógica.
Leitura recomendada
- Insights Page Break stuff . . . servers, rules and the glass ceilingCarla Gentry knows what it’s like to be the only woman on the team and is happy to share her hard-won knowledge with an ever-growing number of female data scientists. She recently shared with us some sage advice for women entering or interested in advancing in the field.
- Article How to improve your AI marketing skillsMarketing teams can use current AI capabilities to enhance their efforts around campaign automation, dynamic pricing based on forecasting models, and by providing more relevant, real-time customer offers.
- Article AI marketing: What does the future hold?AI marketing uses artificial intelligence and analytics to improve marketing results while enhancing customer experiences through real-time personalization.