Daxdi now accepts payments with Bitcoin

¿Qué es la visión por computadora? | Daxdi

Cuando miras la siguiente imagen, ves personas, objetos y edificios.

Le trae recuerdos de experiencias pasadas, situaciones similares que ha encontrado.

La multitud está mirando en la misma dirección y sosteniendo teléfonos, lo que te dice que se trata de algún tipo de evento.

La persona que está parada cerca de la cámara lleva una camiseta que insinúa lo que podría ser el evento.

Al observar otros pequeños detalles, puede inferir mucha más información de la imagen.

Foto de Joshua J.

Cotten en Unsplash

Pero para una computadora, esta imagen, como todas las imágenes, es una matriz de píxeles, valores numéricos que representan tonos de rojo, verde y azul.

Uno de los desafíos a los que se han enfrentado los científicos informáticos desde la década de 1950 ha sido crear máquinas que puedan dar sentido a las fotos y los videos como lo hacen los humanos.

El campo de visión por computador se ha convertido en una de las áreas de investigación más candentes en informática e inteligencia artificial.

Décadas más tarde, hemos logrado un gran progreso hacia la creación de software que pueda comprender y describir el contenido de los datos visuales.

Pero también hemos descubierto hasta dónde debemos llegar antes de poder comprender y reproducir una de las funciones fundamentales del cerebro humano.

Una breve historia de la visión por computadora

En 1966, Seymour Papert y Marvin Minsky, dos pioneros de la inteligencia artificial, lanzaron el Summer Vision Project, un esfuerzo de dos meses y diez personas para crear un sistema informático que pudiera identificar objetos en imágenes.

Para realizar la tarea, un programa de computadora tenía que poder determinar qué píxeles pertenecían a qué objeto.

Este es un problema que el sistema de visión humana, impulsado por nuestro vasto conocimiento del mundo y miles de millones de años de evolución, resuelve fácilmente.

Pero para las computadoras, cuyo mundo consiste solo en números, es una tarea desafiante.

En el momento de este proyecto, la rama dominante de la inteligencia artificial era la IA simbólica, también conocida como IA basada en reglas: los programadores especificaban manualmente las reglas para detectar objetos en imágenes.

Pero el problema era que los objetos en las imágenes podían aparecer desde diferentes ángulos y con distintas iluminaciones.

El objeto puede aparecer contra una variedad de fondos diferentes o estar parcialmente ocluido por otros objetos.

Cada uno de estos escenarios genera diferentes valores de píxeles y es prácticamente imposible crear reglas manuales para cada uno de ellos.

Naturalmente, el Summer Vision Project no llegó muy lejos y arrojó resultados limitados.

Unos años más tarde, en 1979, el científico japonés Kunihiko Fukushima propuso el neocognitron, un sistema de visión por computadora basado en investigaciones neurocientíficas realizadas en la corteza visual humana.

Aunque el neocognitrón de Fukushima no pudo realizar ninguna tarea visual compleja, sentó las bases para uno de los desarrollos más importantes en la historia de la visión por computadora.

La revolución del aprendizaje profundo

En la década de 1980, el científico informático francés Yan LeCun introdujo la red neuronal convolucional (CNN), un sistema de inteligencia artificial inspirado en el neocognitrón de Fukushima.

Una CNN comprende múltiples capas de neuronas artificiales, componentes matemáticos que imitan aproximadamente el funcionamiento de sus contrapartes biológicas.

Cuando una red neuronal convolucional procesa una imagen, cada una de sus capas extrae características específicas de los píxeles.

La primera capa detecta cosas muy básicas, como bordes verticales y horizontales.

A medida que se adentra en la red neuronal, las capas detectan características más complejas, incluidas esquinas y formas.

Las capas finales de la CNN detectan cosas específicas como caras, puertas y automóviles.

La capa de salida de la CNN proporciona una tabla de valores numéricos que representan la probabilidad de que se descubra un objeto específico en la imagen.

Las capas superiores de las redes neuronales detectan características generales; capas más profundas detectan objetos reales (Fuente: arxiv.org)

Las redes neuronales convolucionales de LeCun eran brillantes y mostraban muchas promesas, pero se vieron frenadas por un problema grave: ajustarlas y usarlas requería grandes cantidades de datos y recursos de computación que no estaban disponibles en ese momento.

Las CNN finalmente encontraron usos comerciales en algunos dominios limitados, como la banca y los servicios postales, donde se utilizaron para procesar dígitos escritos a mano y cartas en sobres y cheques.

Pero en el dominio de la detección de objetos, se quedaron en el camino y dieron paso a otras técnicas de aprendizaje automático, como máquinas de vectores de soporte y bosques aleatorios.

En 2012, investigadores de IA de Toronto desarrollaron AlexNet, una red neuronal convolucional que dominó la popular competencia de reconocimiento de imágenes ImageNet.

La victoria de AlexNet mostró que, dada la creciente disponibilidad de datos y recursos informáticos, tal vez era hora de volver a visitar las CNN.

El evento revivió el interés en las CNN y desencadenó una revolución en el aprendizaje profundo, la rama del aprendizaje automático que implica el uso de redes neuronales artificiales de varias capas.

Gracias a los avances en las redes neuronales convolucionales y el aprendizaje profundo desde entonces, la visión por computadora ha crecido a pasos agigantados.

Aplicaciones de la visión por computadora

Muchas de las aplicaciones que utiliza a diario emplean tecnología de visión por computadora.

Google lo usa para ayudarlo a buscar objetos y escenas, por ejemplo, "perro" o "puesta de sol", en su biblioteca de imágenes.

Otras empresas utilizan la visión por computadora para ayudar a mejorar las imágenes.

Un ejemplo es Adobe Lightroom CC, que utiliza algoritmos de aprendizaje automático para mejorar los detalles de las imágenes ampliadas.

El zoom tradicional utiliza técnicas de interpolación para colorear las áreas ampliadas, pero Lightroom utiliza la visión por computadora para detectar objetos en las imágenes y agudizar sus características al hacer zoom.

Un campo que ha experimentado un progreso notable gracias a los avances en la visión por computadora es el reconocimiento facial.

Apple usa algoritmos de reconocimiento facial para desbloquear iPhones.

Facebook utiliza el reconocimiento facial para detectar a los usuarios en las imágenes que publica en línea (aunque no todos son fanáticos).

En China, muchos minoristas ahora ofrecen tecnología de pago por reconocimiento facial, lo que alivia a sus clientes de la necesidad de meter la mano en los bolsillos.

Sin embargo, los avances en el reconocimiento facial también han causado preocupación entre los defensores de la privacidad y los derechos, especialmente porque las agencias gubernamentales en diferentes países lo están utilizando para la vigilancia.

La moderación de contenido es otra aplicación importante para la visión por computadora.

Empresas como Facebook deben revisar miles de millones de publicaciones todos los días y eliminar imágenes y videos que contengan violencia, extremismo o pornografía.

La mayoría de las redes sociales utilizan algoritmos de aprendizaje profundo para analizar publicaciones y marcar aquellas que contienen contenido prohibido.

Recomendado por nuestros editores

Pasando a campos más especializados, la visión por computadora se está convirtiendo rápidamente en una herramienta indispensable en la medicina.

Los algoritmos de aprendizaje profundo están mostrando una precisión impresionante al analizar imágenes médicas.

Los hospitales y las universidades están utilizando la visión por computadora para predecir varios tipos de cáncer mediante el examen de radiografías y resonancias magnéticas.

Los automóviles autónomos también dependen en gran medida de la visión por computadora para dar sentido a su entorno.

Los algoritmos de aprendizaje profundo analizan las transmisiones de video de las cámaras instaladas en el vehículo y detectan personas, automóviles, carreteras y otros objetos para ayudar al automóvil a navegar por su entorno.

Los límites de la visión por computadora

Los sistemas de visión por computadora actuales hacen un trabajo decente en la clasificación de imágenes y la localización de objetos en fotos, cuando están entrenados con suficientes ejemplos.

Pero en esencia, los algoritmos de aprendizaje profundo que impulsan las aplicaciones de visión por computadora son patrones de píxeles coincidentes.

No entienden lo que sucede en las imágenes.

Comprender las relaciones entre personas y objetos en datos visuales requiere sentido común y conocimientos previos.

Es por eso que los algoritmos de visión por computadora utilizados por las redes sociales pueden detectar contenido desnudo, pero a menudo tienen dificultades para diferenciar la desnudez segura (lactancia materna o arte renacentista) y contenido prohibido como la pornografía.

Asimismo, es difícil para estos algoritmos diferenciar entre la propaganda extremista y un documental sobre grupos extremistas.

Los humanos pueden aprovechar su vasto conocimiento del mundo para llenar los huecos cuando se enfrentan a una situación que no han visto antes.

A diferencia de los humanos, los algoritmos de visión por computadora deben recibir una formación completa sobre los tipos de objetos que deben detectar.

Tan pronto como su entorno contiene cosas que se desvían de sus ejemplos de entrenamiento, comienzan a actuar de manera irracional, como no detectar vehículos de emergencia estacionados en lugares extraños.

Por el momento, la única solución para resolver estos problemas es entrenar algoritmos de IA en más y más ejemplos, con la esperanza de que los datos adicionales cubran todas las situaciones a las que se enfrentará la IA.

Pero como muestra la experiencia, sin conocimiento de la situación, siempre habrá casos de esquina, situaciones raras que confunden el algoritmo de IA.

Muchos expertos creen que solo lograremos una verdadera visión por computadora cuando creamos inteligencia artificial general, IA que puede resolver problemas de la misma manera que los humanos.

Como dice la científica informática e investigadora de inteligencia artificial Melanie Mitchell en su libro Inteligencia artificial: una guía para pensar en humanos: "Parece que la inteligencia visual no se puede separar fácilmente del resto de la inteligencia, especialmente el conocimiento general, la abstracción y el lenguaje ...

Además, podría ser que el conocimiento necesario para una inteligencia visual similar a la humana ...

no se pueda aprender de millones de imágenes descargado de la web, pero debe experimentarse de alguna manera en el mundo real ".

Cuando miras la siguiente imagen, ves personas, objetos y edificios.

Le trae recuerdos de experiencias pasadas, situaciones similares que ha encontrado.

La multitud está mirando en la misma dirección y sosteniendo teléfonos, lo que te dice que se trata de algún tipo de evento.

La persona que está parada cerca de la cámara lleva una camiseta que insinúa lo que podría ser el evento.

Al observar otros pequeños detalles, puede inferir mucha más información de la imagen.

Foto de Joshua J.

Cotten en Unsplash

Pero para una computadora, esta imagen, como todas las imágenes, es una matriz de píxeles, valores numéricos que representan tonos de rojo, verde y azul.

Uno de los desafíos a los que se han enfrentado los científicos informáticos desde la década de 1950 ha sido crear máquinas que puedan dar sentido a las fotos y los videos como lo hacen los humanos.

El campo de visión por computador se ha convertido en una de las áreas de investigación más candentes en informática e inteligencia artificial.

Décadas más tarde, hemos logrado un gran progreso hacia la creación de software que pueda comprender y describir el contenido de los datos visuales.

Pero también hemos descubierto hasta dónde debemos llegar antes de poder comprender y reproducir una de las funciones fundamentales del cerebro humano.

Una breve historia de la visión por computadora

En 1966, Seymour Papert y Marvin Minsky, dos pioneros de la inteligencia artificial, lanzaron el Summer Vision Project, un esfuerzo de dos meses y diez personas para crear un sistema informático que pudiera identificar objetos en imágenes.

Para realizar la tarea, un programa de computadora tenía que poder determinar qué píxeles pertenecían a qué objeto.

Este es un problema que el sistema de visión humana, impulsado por nuestro vasto conocimiento del mundo y miles de millones de años de evolución, resuelve fácilmente.

Pero para las computadoras, cuyo mundo consiste solo en números, es una tarea desafiante.

En el momento de este proyecto, la rama dominante de la inteligencia artificial era la IA simbólica, también conocida como IA basada en reglas: los programadores especificaban manualmente las reglas para detectar objetos en imágenes.

Pero el problema era que los objetos en las imágenes podían aparecer desde diferentes ángulos y con distintas iluminaciones.

El objeto puede aparecer contra una variedad de fondos diferentes o estar parcialmente ocluido por otros objetos.

Cada uno de estos escenarios genera diferentes valores de píxeles y es prácticamente imposible crear reglas manuales para cada uno de ellos.

Naturalmente, el Summer Vision Project no llegó muy lejos y arrojó resultados limitados.

Unos años más tarde, en 1979, el científico japonés Kunihiko Fukushima propuso el neocognitron, un sistema de visión por computadora basado en investigaciones neurocientíficas realizadas en la corteza visual humana.

Aunque el neocognitrón de Fukushima no pudo realizar ninguna tarea visual compleja, sentó las bases para uno de los desarrollos más importantes en la historia de la visión por computadora.

La revolución del aprendizaje profundo

En la década de 1980, el científico informático francés Yan LeCun introdujo la red neuronal convolucional (CNN), un sistema de inteligencia artificial inspirado en el neocognitrón de Fukushima.

Una CNN comprende múltiples capas de neuronas artificiales, componentes matemáticos que imitan aproximadamente el funcionamiento de sus contrapartes biológicas.

Cuando una red neuronal convolucional procesa una imagen, cada una de sus capas extrae características específicas de los píxeles.

La primera capa detecta cosas muy básicas, como bordes verticales y horizontales.

A medida que se adentra en la red neuronal, las capas detectan características más complejas, incluidas esquinas y formas.

Las capas finales de la CNN detectan cosas específicas como caras, puertas y automóviles.

La capa de salida de la CNN proporciona una tabla de valores numéricos que representan la probabilidad de que se descubra un objeto específico en la imagen.

Las capas superiores de las redes neuronales detectan características generales; capas más profundas detectan objetos reales (Fuente: arxiv.org)

Las redes neuronales convolucionales de LeCun eran brillantes y mostraban muchas promesas, pero se vieron frenadas por un problema grave: ajustarlas y usarlas requería grandes cantidades de datos y recursos de computación que no estaban disponibles en ese momento.

Las CNN finalmente encontraron usos comerciales en algunos dominios limitados, como la banca y los servicios postales, donde se utilizaron para procesar dígitos escritos a mano y cartas en sobres y cheques.

Pero en el dominio de la detección de objetos, se quedaron en el camino y dieron paso a otras técnicas de aprendizaje automático, como máquinas de vectores de soporte y bosques aleatorios.

En 2012, investigadores de IA de Toronto desarrollaron AlexNet, una red neuronal convolucional que dominó la popular competencia de reconocimiento de imágenes ImageNet.

La victoria de AlexNet mostró que, dada la creciente disponibilidad de datos y recursos informáticos, tal vez era hora de volver a visitar las CNN.

El evento revivió el interés en las CNN y desencadenó una revolución en el aprendizaje profundo, la rama del aprendizaje automático que implica el uso de redes neuronales artificiales de varias capas.

Gracias a los avances en las redes neuronales convolucionales y el aprendizaje profundo desde entonces, la visión por computadora ha crecido a pasos agigantados.

Aplicaciones de la visión por computadora

Muchas de las aplicaciones que utiliza a diario emplean tecnología de visión por computadora.

Google lo usa para ayudarlo a buscar objetos y escenas, por ejemplo, "perro" o "puesta de sol", en su biblioteca de imágenes.

Otras empresas utilizan la visión por computadora para ayudar a mejorar las imágenes.

Un ejemplo es Adobe Lightroom CC, que utiliza algoritmos de aprendizaje automático para mejorar los detalles de las imágenes ampliadas.

El zoom tradicional utiliza técnicas de interpolación para colorear las áreas ampliadas, pero Lightroom utiliza la visión por computadora para detectar objetos en las imágenes y agudizar sus características al hacer zoom.

Un campo que ha experimentado un progreso notable gracias a los avances en la visión por computadora es el reconocimiento facial.

Apple usa algoritmos de reconocimiento facial para desbloquear iPhones.

Facebook utiliza el reconocimiento facial para detectar a los usuarios en las imágenes que publica en línea (aunque no todos son fanáticos).

En China, muchos minoristas ahora ofrecen tecnología de pago por reconocimiento facial, lo que alivia a sus clientes de la necesidad de meter la mano en los bolsillos.

Sin embargo, los avances en el reconocimiento facial también han causado preocupación entre los defensores de la privacidad y los derechos, especialmente porque las agencias gubernamentales en diferentes países lo están utilizando para la vigilancia.

La moderación de contenido es otra aplicación importante para la visión por computadora.

Empresas como Facebook deben revisar miles de millones de publicaciones todos los días y eliminar imágenes y videos que contengan violencia, extremismo o pornografía.

La mayoría de las redes sociales utilizan algoritmos de aprendizaje profundo para analizar publicaciones y marcar aquellas que contienen contenido prohibido.

Recomendado por nuestros editores

Pasando a campos más especializados, la visión por computadora se está convirtiendo rápidamente en una herramienta indispensable en la medicina.

Los algoritmos de aprendizaje profundo están mostrando una precisión impresionante al analizar imágenes médicas.

Los hospitales y las universidades están utilizando la visión por computadora para predecir varios tipos de cáncer mediante el examen de radiografías y resonancias magnéticas.

Los automóviles autónomos también dependen en gran medida de la visión por computadora para dar sentido a su entorno.

Los algoritmos de aprendizaje profundo analizan las transmisiones de video de las cámaras instaladas en el vehículo y detectan personas, automóviles, carreteras y otros objetos para ayudar al automóvil a navegar por su entorno.

Los límites de la visión por computadora

Los sistemas de visión por computadora actuales hacen un trabajo decente en la clasificación de imágenes y la localización de objetos en fotos, cuando están entrenados con suficientes ejemplos.

Pero en esencia, los algoritmos de aprendizaje profundo que impulsan las aplicaciones de visión por computadora son patrones de píxeles coincidentes.

No entienden lo que sucede en las imágenes.

Comprender las relaciones entre personas y objetos en datos visuales requiere sentido común y conocimientos previos.

Es por eso que los algoritmos de visión por computadora utilizados por las redes sociales pueden detectar contenido desnudo, pero a menudo tienen dificultades para diferenciar la desnudez segura (lactancia materna o arte renacentista) y contenido prohibido como la pornografía.

Asimismo, es difícil para estos algoritmos diferenciar entre la propaganda extremista y un documental sobre grupos extremistas.

Los humanos pueden aprovechar su vasto conocimiento del mundo para llenar los huecos cuando se enfrentan a una situación que no han visto antes.

A diferencia de los humanos, los algoritmos de visión por computadora deben recibir una formación completa sobre los tipos de objetos que deben detectar.

Tan pronto como su entorno contiene cosas que se desvían de sus ejemplos de entrenamiento, comienzan a actuar de manera irracional, como no detectar vehículos de emergencia estacionados en lugares extraños.

Por el momento, la única solución para resolver estos problemas es entrenar algoritmos de IA en más y más ejemplos, con la esperanza de que los datos adicionales cubran todas las situaciones a las que se enfrentará la IA.

Pero como muestra la experiencia, sin conocimiento de la situación, siempre habrá casos de esquina, situaciones raras que confunden el algoritmo de IA.

Muchos expertos creen que solo lograremos una verdadera visión por computadora cuando creamos inteligencia artificial general, IA que puede resolver problemas de la misma manera que los humanos.

Como dice la científica informática e investigadora de inteligencia artificial Melanie Mitchell en su libro Inteligencia artificial: una guía para pensar en humanos: "Parece que la inteligencia visual no se puede separar fácilmente del resto de la inteligencia, especialmente el conocimiento general, la abstracción y el lenguaje ...

Además, podría ser que el conocimiento necesario para una inteligencia visual similar a la humana ...

no se pueda aprender de millones de imágenes descargado de la web, pero debe experimentarse de alguna manera en el mundo real ".

PakaPuka

pakapuka.com Cookies

En pakapuka.com utilizamos cookies (cookies técnicas y de perfil, tanto propias como de terceros) para proporcionarle una mejor experiencia online y enviarle mensajes comerciales personalizados online de acuerdo con sus preferencias. Si selecciona continuar o acceder a cualquier contenido de nuestro sitio web sin personalizar sus opciones, usted acepta el uso de cookies.

Para más información sobre nuestra política de cookies y cómo rechazarlas

acceso aquí.

Preferencias

Continúa