Stefan Wilson descartado de Indy 500 después de una derivación de práctica
Mar 06, 2023Todos los fanáticos de la F1 pensaron lo mismo sobre la derivación Q2 de los compañeros de equipo de Mercedes
Mar 08, 2023[Más reciente] Tamaño/participación del mercado global de transformadores de estado sólido (SST) con un valor de USD 240 millones para 2030 a una tasa compuesta anual del 16 %: Perspectivas personalizadas del mercado (análisis, perspectivas, líderes, informe, tendencias, pronóstico, segmentación, crecimiento, tasa de crecimiento, valor )
Mar 10, 2023El mercado de transformadores de corriente óptica alcanzará los 60,07 millones de USD para 2029, con un crecimiento de 8,2 % CAGR y pronóstico (2023
Mar 12, 2023Reseña de Transformers: El origen de las bestias
Mar 14, 2023Vision Transformers supera los desafíos con el nuevo parche
Publicado
en
Por
Las tecnologías de inteligencia artificial (IA), en particular los transformadores de visión (ViT), se han mostrado inmensamente prometedoras en su capacidad para identificar y categorizar objetos en imágenes. Sin embargo, su aplicación práctica se ha visto limitada por dos desafíos importantes: los requisitos de alta potencia computacional y la falta de transparencia en la toma de decisiones. Ahora, un grupo de investigadores ha desarrollado una solución innovadora: una metodología novedosa conocida como "atención de parche a clúster" (PaCa). PaCa tiene como objetivo mejorar las capacidades de ViT en la identificación, clasificación y segmentación de objetos de imagen, al mismo tiempo que resuelve los problemas de larga data de las demandas computacionales y la claridad en la toma de decisiones.
Los transformadores, debido a sus capacidades superiores, se encuentran entre los modelos más influyentes en el mundo de la IA. El poder de estos modelos se ha extendido a los datos visuales a través de ViT, una clase de transformadores que se entrenan con entradas visuales. A pesar del tremendo potencial que ofrecen los ViT para interpretar y comprender imágenes, se han visto frenados por un par de problemas importantes.
En primer lugar, debido a la naturaleza de las imágenes que contienen grandes cantidades de datos, los ViT requieren una potencia y una memoria de cálculo sustanciales. Esta complejidad puede ser abrumadora para muchos sistemas, especialmente cuando se manejan imágenes de alta resolución. En segundo lugar, el proceso de toma de decisiones dentro de ViTs suele ser enrevesado y opaco. A los usuarios les resulta difícil comprender cómo los ViT diferencian entre varios objetos o características en una imagen, lo cual es crucial para numerosas aplicaciones.
Sin embargo, la innovadora metodología PaCa ofrece una solución a ambos desafíos. "Abordamos el desafío relacionado con las demandas computacionales y de memoria mediante el uso de técnicas de agrupación, que permiten que la arquitectura del transformador identifique y se centre mejor en los objetos de una imagen", explica Tianfu Wu, autor correspondiente de un artículo sobre el trabajo y profesor asociado de Ingeniería Eléctrica e Informática en la Universidad Estatal de Carolina del Norte.
El uso de técnicas de agrupamiento en PaCa reduce drásticamente los requisitos computacionales, convirtiendo el problema de un proceso cuadrático en uno lineal manejable. Wu explica además el proceso: "Al agrupar, podemos hacer de este un proceso lineal, donde cada unidad más pequeña solo necesita compararse con un número predeterminado de grupos".
La agrupación también sirve para aclarar el proceso de toma de decisiones en ViTs. El proceso de formación de grupos revela cómo ViT decide qué características son importantes para agrupar secciones de los datos de la imagen. Como la IA crea solo una cantidad limitada de grupos, los usuarios pueden comprender y examinar fácilmente el proceso de toma de decisiones, lo que mejora significativamente la interpretabilidad del modelo.
A través de pruebas exhaustivas, los investigadores descubrieron que la metodología PaCa supera a otras ViT en varios frentes. Wu elabora: "Descubrimos que PaCa superó a SWin y PVT en todos los sentidos". El proceso de prueba reveló que PaCa se destacó en la clasificación e identificación de objetos dentro de las imágenes y la segmentación, delineando de manera eficiente los límites de los objetos en las imágenes. Además, se encontró que era más eficiente en el tiempo, realizando tareas más rápidamente que otros ViT.
Alentado por el éxito de PaCa, el equipo de investigación tiene como objetivo promover su desarrollo entrenándolo en conjuntos de datos fundamentales más grandes. Al hacerlo, esperan ampliar los límites de lo que actualmente es posible con la IA basada en imágenes.
El trabajo de investigación, "PaCa-ViT: aprendizaje de la atención de parche a clúster en transformadores de visión", se presentará en la próxima Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones. Es un hito importante que podría allanar el camino para sistemas de IA más eficientes, transparentes y accesibles.
Líderes tecnológicos que destacan los riesgos de la IA y la urgencia de una regulación robusta de la IA
Alex McFarland es un escritor con base en Brasil que cubre los últimos desarrollos en inteligencia artificial. Ha trabajado con las principales empresas y publicaciones de IA de todo el mundo.
Modelo Segment Anything: la visión por computadora obtiene un gran impulso
5 aplicaciones de visión artificial en 2022
Separación de humanos 'fusionados' en visión artificial
Uso de IA para resumir videos largos de 'Cómo hacer'
Investigadores desarrollan sistema anfibio de visión artificial
Diagnóstico de trastornos de salud mental a través de la evaluación de la expresión facial con IA