Una reflexión sobre la vanguardia en inteligencia artificial en general y la visión artificial en particular. Algunos conceptos básicos y un breve resumen histórico de lo más relevante en este campo en los últimos años. Se concluye con una breve reflexión sobre sus virtudes, explicando el porqué de su importancia actual, sus riesgos y las iniciativas para minimizarlos.
Inteligencia Artificial (IA)
La inteligencia artificial es un campo muy amplio que lleva preocupando a los científicos e inquietando a la sociedad desde mediados del siglo pasado. En esencia se trata de reproducir, con una maquina, las funciones cognitivas que se asocian a los seres humanos: percibir, razonar, aprender y resolver problemas. En particular se trata de disponer de la tecnología necesaria para construir máquinas que:
- Emulen el razonamiento humano. Construir un cerebro artificial, capaz de razonar de forma similar a la que hace un ser humano
- Sean capaces de aprender y tomar decisiones o asistir a los humanos en la toma de las mismas
- Sean capaces de hablar y escuchar. Comunicarse con nosotros como lo hacemos nosotros por medio del lenguaje
- Sean capaces de emular la visión humana para reconocer objetos o personas. Que sean capaces también de interpretar comportamientos o emociones en las personas
Sobre esto último, y centrándonos en lo que a las ciencias de la computación se refiere, incidiremos en el resto de este artículo.
La visión artificial
La visión artificial, o visión computerizada, es una disciplina científica que incluye métodos para adquirir, procesar, analizar y comprender las imágenes del mundo real con el propósito de ser tratadas por un computador. Eso implica traducir la realidad visible en datos apropiados para ser tratados e interpretados por una máquina. La adquisición se consigue por cámaras de video u otros dispositivos que traducen la realidad a una imagen digital (microscopios, microscopios electrónicos, escáneres de documentos, escaneres médicos, ...), y la interpretación implica diferentes disciplinas como la geometría, la estadística, la física y otras.
Aunque la visión artificial no es una disciplina exclusiva de la inteligencia artificial, es cierto que comparte con ella varios aspectos como el reconocimiento de patrones y el aprendizaje automático entre otros. Esto ha llevado a clasificar la visión artificial como una parte de la disciplina de la inteligencia artificial en particular o de las ciencias de la computación en general.
Pero, ¿por qué es tan importante?
De modo similar a que el vencer "la carrera de la exaescala(1)", o incluso quedar entre los finalistas, es una condición necesaria para la supremacía científica, y por ende la económica, y de un modo parecido al que la carrera por la supremacía en la computación cuántica se asocia a una necesidad de seguridad nacional; la carrera por la supremacía en la inteligencia artificial ha creado, en los últimos años, una burbuja de expectativas que ha atraído la inversión de miles de millones de euros en su desarrollo.
La "Hype Cycle" de Gartner para Tecnologías Emergentes, la clasifica como tecnología con gran impacto en los próximos 5 a 10 años. Según el vicepresidente de investigación de Gartner, "la innovación tecnológica es la clave para la diferenciación competitiva y está transformando muchas industrias".
Volviendo al tema particular de la visión artificial, las posibilidades de este avance científico y tecnológico son innumerables. Por resaltar el impacto que esta tecnología tiene en el desarrollo de cambios en la industria y la sociedad, y el interés que despierta en estados y empresas, mencionamos algunos ejemplos en los que la visión artificial contribuye en mayor o menor medida.
Casos de uso actuales de la visión artificial, agrupados por sectores o disciplina científica:
- En los hiperescalares (Google, Facebook, Microsoft, Amazon,...)
- Clasificación de imágenes
- Busquedas basadas en imagenes
- Producción de bienes (manufacturing)
- Control de calidad en cadenas de montaje
- Orientación de robots
- Reconocimiento facial para autenticación y pagos
- Finanzas
- Autenticación de usuarios
- Pagos por reconocimiento facial (FUJITSU es pionero en España en proveer a un importante banco de cajeros automáticos con reconocimiento facial)
- Ciencias de la salud
- Medicina personalizada
- Ayuda a la diagnosis
- Imagen médica (radiología, anatomía patológica)
- Superresolución
- Astrofísica
- Descubrimiento de nuevos objetos estelares
- Interpretación de imágenes de los telescopios (búsqueda de patrones)
- Satélites artificiales
- Guiado de vehículos lunares
- Seguridad
- Videovigilancia
- Detección
- Proveedores de Servicios (ISPs)
- Provisión de servicios para terceros
- Automoción
- Los mismos que en manufactura
- Asistentes a la conducción
- Coches autónomos
- Bellas artes
- Restauración de obras de arte (detección de defectos)
Incluso dentro de las ciencias humanas, concretamente en bellas artes, se han utilizado las redes neuronales entrenadas para interpretar imágenes, para que sean capaces de crear las suyas propias. Es decir, que una máquina sea capaz de crear una imagen en la que representa su forma de interpretar el mundo que percibe. Aunque por el momento no deja de ser una curiosidad, pone de manifiesto el tremendo potencial de esta tecnología.
Algunos de los siguientes ejemplos de la sociedad actual del mundo desarrollado, han sido creados (en parte o completamente) gracias, en mayor o menor medida, a la visión artificial:
- Digitalización de manuscritos e incunables
- Los coches autónomos o asistentes a la conducción
- Video-vigilancia robotizada, detectores de presencia
- Aplicaciones, como la conocida Adobe Photoshop, para perfilar contornos o sustituir fondos en un retrato
- Aplicaciones móviles de fotografía
- Reconocimiento de matrículas en los parkings
- Clasificación de álbumes fotográficos en función de su contenido
- Creación de mapas digitales a partir de imágenes de satélites
- Detección de enfermedades a partir de imágenes médicas
- Seguimiento de animales protegidos a partir de imágenes aéreas
- Restauración de clásicos del cine o películas deterioradas
- Asistentes para la realización de películas de animación
- ...
La lista completa sería muy extensa y continúa creciendo día a día.
Un poco de historia... ImageNet
La investigación en la visión artificial requiere, como en cualquier disciplina científica, disponer de grandes conjuntos de datos con los que experimentar. En el caso de la visión artificial y con el auge de modelos basados en aprendizaje profundo (deep learning), la necesidad es una condición básica para el entrenamiento de los modelos de visión artificial.
Dos iniciativas de bases de datos públicas de imágenes para la investigación en IA han contribuido al desarrollo de la tecnología de visión artificial y ambas han organizado competiciones que han animado a la comunidad de investigadores y desarrolladores a construir modelos prácticos más eficaces y eficientes. La primera, PASCAL Visual Object Classes (VOC), nació en el año 2005 y se convirtió en un estándar para la medición comparativa (benchmark) en algoritmos de detección de imágenes. La segunda, ImageNet, surgió en el año 2009 como una forma de clasificar las imágenes con una terminología más estándar. Para ello se empleó la base de datos lexicográfica WordNet.
ImageNet consiste en una base de datos de imágenes de alta resolución (actualmente mas de 14 millones) etiquetadas y organizadas en una taxonomía formada fundamentalmente (80%) por nombres. Hay que subrayar que ImageNet no almacena las imágenes, sólo las miniaturas de las mismas (thumbnails) y las URL que apuntan a su origen. Los derechos sobre las mismas también pertenecen a sus autores originales, con el compromiso de los mismos de ceder los derechos de explotación para el uso particular y científico.
Hasta 2012 los mejores resultados obtenidos en el concurso de ImageNet no bajaban del 25% de error, algo que limitaba las aplicaciones prácticas de esta tecnología, pero ese año un equipo llamado Supervision de la Universidad de Toronto y liderado por el estudiante Alex Krizhevsky, utilizó una variación de red neuronal(2), para resolver los retos del concurso, venciendo en la competición con un resultado un 50% por encima del resto de los participantes.
Por primera vez en la historia de la visión artificial, se disponía de una tecnología que permitía reconocer y clasificar imágenes digitales con un error inferior al 16%. Pero la carrera sólo acababa de comenzar. En el 2014 un equipo de Google ganaba el concurso reduciendo el error por debajo del 7% y un año después, en 2015, fue el equipo de Kaiming He et al., de Microsoft Research Asia (China), quienes se alzaran con el primer premio, consiguiendo una tasa de error por debajo del 4%.
Esto elevaba la tecnología a un rango de precisión similar, o incluso superior, al de los humanos y permitiría un avance muy significativo en el desarrollo de modelos prácticos para la industria y la sociedad.
Los resultados de los equipos de la Universidad de Toronto, Google y Microsoft, han dado lugar a algunos de los modelos de visión artificial más populares basados en redes neuronales: AlexNet, GoogleNet y ResNet. Sin embargo no son los únicos. Variaciones basadas en ellos u otros con enfoques diferentes, están presentes en las aplicaciones prácticas que se emplean hoy en día, no sólo en el campo de la investigación sino también en la producción de soluciones para la industria o la sociedad.
A mi manera de ver, estos los logros han desatado dos consecuencias principales:
- El desarrollo de soluciones de visión artificial para la industria y sociedad
- El estimulo a la comunidad de desarrolladores, para la creación de nuevas y mejores soluciones para el problema de la visión artificial y también otros campos
Los riesgos del lado oscuro
Como todo avance tecnológico, el uso de esta tecnología también conlleva sus riesgos. Los principales en nuestro caso atentan contra la privacidad, libertad individual y seguridad de las personas. Algunos ejemplos de usos maliciosos de esta tecnología serían los que atentan contra la vida o la propiedad, como por ejemplo drones autónomos programados para atentar contra personas individuales o bienes públicos o privados. Desafortunadamente también las noticias se han hecho eco de usos poco "eticos" de la visión artificial en el campo de la videovigilancia, poniendo en producción sistemas capaces de identificar a toda una población en tiempo real y analizar y supervisar sus comportamientos. Cuando estas plataformas se implantan en un país donde las palabras "democracia" y "derechos humanos" están prohibidas, es difícil no poner en duda el fundamento ético de dicho sistema.
La ética entra en juego
Y hablando de ética, tenemos que referirnos a una preocupación creciente en la gran mayoría de países democráticos. Conscientes de los peligros antes mencionados, y otros muchos derivados de ellos, muchos líderes sociales y tecnológicos llevan tiempo alzado sus voces, en medios de comunicación y redes sociales, poniendo de manifiesto la necesidad de una regulación a nivel internacional. Esto ha concienciado a los dirigentes de grandes multinacionales y líderes políticos de estados democráticos, llevados por su responsabilidad por ayudar a la mejora de la sociedad y la protección de los ciudadanos. Al margen de la situación de los estados totalitarios o aquellos no acogidos a la declaración universal de derechos humanos de la ONU, los avances en la regulación han cristalizado en múltiples países y multinacionales. Pongamos como ejemplo dos casos concretos: Por un lado la Unión Europea, designó en 2018 un grupo de expertos en IA del mundo académico, sociedad civil y la industrian (High-Level Expert Group on Artificial Intelligence ó AI HLEG), con el propósito de dar soporte en la implementación de una estrategia europea en la Inteligencia Artificial. Esto incluía la elaboración de recomendaciones en el desarrollo de una política futura así como en temas éticos, legales y sociales relacionados con la IA. A mediados de 2019 se puso en marcha una fase piloto con el fin de garantizar que las directrices éticas para el desarrollo y el uso de la inteligencia artificial puedan aplicarse en la práctica. Esta estrategia para la inteligencia artificial de la Unión Europea pretende aumentar las inversiones públicas y privadas hasta un mínimo de 20.000 millones de euros anuales en los próximos 10 años.
Por otro lado la multinacional Fujitsu (una compañía TIC con más de 80 años de historia), definió, en marzo de 2019, las políticas que debería observar como una empresa comprometida con el negocio, así como en la investigación y el desarrollo en el campo de la IA. Esta declaración forma parte del Compromiso de IA del Grupo Fujitsu. En base a este compromiso, la multinacional ha establecido un comité de expertos externos como una forma de recibir evaluaciones objetivas de terceros sobre la ética de IA de Fujitsu Group, mejorando así su gobierno corporativo en esta área.
Al margen de que una empresa como Google disolviera su comité de ética a los pocos meses de su constitución y los rumores sobre sus prácticas laborales, malestar de sus empleados por sus contratos con Defensa en EEUU y otros escándalos que estoy convencido que finalmente se resolverán en favor de un uso ético de la IA y la tecnología en general, el camino hacia la declaración de principios éticos en el uso de la IA a animado ya a muchas de las grandes multinacionales: IBM, Microsoft, Facebook, Amazon, y es seguro que otras muchas les seguirán en los próximos años.
Conclusiones
Muchas áreas de la tecnología ayudarán a la evolución de la IA en general y de la visión artificial en particular. Vivimos unos años apasionantes en los que nuevos avances en el campo de la IA se han desarrollado gracias, en gran parte al avance de nuevas tecnologías de computación. Nos referimos al auge de los procesadores destinados al procesamiento de gráficos (GPU) que se han convertido en elementos altamente eficaces para el procesamiento paralelo de algoritmos y que se han probado como eficaces, no solo para los trabajos típicos de la supercomputación (High Performance Computing o HPC), sino también capaces de reducir los tiempos de aprendizaje de redes neuronales e incluso conseguir la ejecución de algoritmos entrenados, en tiempo real.
Animados por los excelentes resultados en este área, y abriendo las puertas a un mercado incipiente multi-billonario, muchas compañías de semiconductores y nuevas startups, se han aventurado en la construcción de nuevos procesadores de dominio específico adecuadas para la aceleración de algoritmos de IA (concretamente redes neuronales artificiales), llevando la tecnología a las capacidades de procesamiento en tiempo real. Algo que hace una década parecía ciencia ficción, ya que si bien las redes neuronales artificiales han demostrado ser altamente eficaces para la visión artificial, la gran cantidad de recursos de computación que requieren (fundamentalmente en el proceso de entrenamiento), las aleja mucho de sus homónimas naturales.
Aun estamos lejos de acercarnos a los logros de la evolución en nuestro planeta. Hasta el cerebro de un minúsculo mosquito es capaz de interpretar su entorno de forma mucho más eficiente que nuestra tecnología actual, pero teniendo en cuenta que dichos logros son resultado de más de 400 millones de años de evolución, nuestra situación no es tan decepcionante. Si datamos el origen de la Inteligencia Artificial en la publicación del artículo "Computing Machinery and Intelligence" de Alan Turing, en 1950, comprobamos que en menos de un siglo nos acercarnos a lo que la evolución ha tardado millones de años en conseguir. Nuestra evolución tecnológica en este campo ha sido espectacular y esto debería animarnos a seguir trabajando en ello.
Otra cuestión, cuya preocupación ha sido creciente en la última década (fundamentalmente por cuestiones ecológicas o económicas) es la eficiencia energética. En ello aún estamos muy lejos de nuestra madre naturaleza. El cerebro humano consume en promedio unos 23 vatios (el 20% de los 116 vatios que corresponderían a la dieta diaria media de un adulto: 2400 kilocalorías), y nuestros actuales supercomputadores requieren 10 millones de vatios para operar (hemos tomado de referencia el consumo del número 1 de la lista TOP500 de noviembre del 2019), es decir casi 10 millones de veces más que un cerebro humano. Cierto es que esta máquina puede hacer cálculos muchísimo más rápido que un humano, pero también es cierto que es incapaz de hacer otras que el cerebro de cualquier humano podría. Sobre el tamaño de estos supercomputadores no vamos a hacer comparativas.... o ¿alguien cree que el tamaño importa?
A pesar de todo ello, el sueño de ser capaces de construir maquinas que dispongan de las cualidades que nos distinguen de los animales, está cada vez más cerca de ser una realidad.
NOTAS:
(1) Lo que se conoce como "la carrera de la exaescala" es el reto tecnológico de construir (y poseer), un computador que pueda realizar 1 trillón de operaciones aritméticas, de números decimales, por segundo, es decir 10^18 FLOPS (operaciones en coma flotante por segundo) ó un EXAFLOP. Todo ello manteniendo el consumo energético por debajo de los 20 MW (20 millones de vatios), y podría añadirse también "con tecnología propia". Esto último reduce las posibilidades de participación en esta carrera a las grandes potencias económicas y tecnológicas. A día de hoy el reto aún no se ha conseguido (se espera que ocurra a lo largo del año 2020 o principios del 2021) y en estos momentos la carrera está liderada por EEUU, seguida de China, Japón y la Unión Europea. Teniendo en cuenta la eficiencia energética, el líder actual indiscutible es Japón, gracias, principalmente, a tecnología de FUJITSU y el instituto nacional de ciencias de Japón (RIKEN)
(2) Según se puede consultar en la Wikipedia, una red neuronal, o más precisamente red neuronal artificial, es un "modelo computacional vagamente inspirado en el comportamiento observado en su homólogo biológico. Consiste en un conjunto de unidades, llamadas neuronas artificiales, conectadas entre sí para transmitirse señales. La información de entrada atraviesa la red neuronal (donde se somete a diversas operaciones) produciendo unos valores de salida". El tipo de red empleado por Alex Krizhevsky para ganar el concurso de ImageNet en 2012 se denomina red neuronal convolucional, que uno más de una treintena de las variaciones de redes neuronales desarrolladas hasta el momento. Recibe su nombre por el concepto matemático "convolución", que es una transformación lineal de dos funciones en una tercera que puede representar la magnitud, de valor real, en la que se superponen las anteriores. Su origen se basa en el Neurocognitron presentado en un artículo de 1980 por el especialista japonés en redes neuronales y aprendizaje profundo Kunihiko Fukushima. Estas han demostrado su efectividad en el reconocimiento de patrones, lo que las hace apropiadas para la visión artificial.