
En 1968 el director de cine Stanley Kubrick incorporaba como personaje en la película de ciencia ficción “2001: una odisea del espacio” a HAL (Heuristically programmed ALgorithmic computer), el cerebro de la nave espacial Discovery. Se trataba de un ordenador con superpoderes de inteligencia artificial, capaz de jugar al ajedrez, leer los labios, empatizar o conversar. Hoy voy a escribir de esto último: los avances de la inteligencia artificial en el lenguaje.
ChatGPT, un fenómeno viral
Han sido necesarios 54 años para que, a finales de 2022, el hombre haya desarrollado una herramienta que puede conversar de forma similar a como lo hacía HAL. Me refiero a ChatGPT, un fenómeno tan viral que en tan solo cinco días alcanzó el millón de usuarios.
Su éxito ha sido tal que Microsoft lo ha incorporado en su línea de servicios cognitivos bajo el paraguas de Azure OpenAI Service. Además, ha anunciado su intención de incrementar su inversión en OpenAI, el padre de ChatGPT, en 10.000 millones de dólares (que se suman a los 1.000 millones de dólares ya empleados).
Y Google estaría preparándose para contraatacar con las capacidades de DeepMind, la compañía especializada en inteligencia artificial que adquirió en 2014.
Riesgos y temores
En la película de Stanley Kubrick HAL termina aniquilando prácticamente a toda la tripulación de la nave espacial, tras una serie de ordenes que acabaron en un mal funcionamiento. En 2018 el CEO de DeepMind, Demiss Hassabis, ya advertía acerca de los riesgos que podría acarrear un uso inadecuado de la inteligencia artificial. Se refería a los aspectos éticos relacionados con esta nueva tecnología.
Por eso, algunos andan preguntándose si ChatGPT se rebelará contra el hombre como en “2001: una odisea en el espacio”. ¿Es ChatGTP un nuevo modelo de Terminator enviado desde el metaverso para destruir la tierra? ¿Habrá llegado el día del juicio final? ¿Podrá ChatGPT tomar el control del armamento nuclear mundial como en la película de ficción “Juegos de Guerra”? o ¿será utilizado por Lex Luthor para crear malware y lanzar ciberataques contra los sistemas informáticos de Metrópolis? La otra noche me desperté sobresaltado pensando en todo esto. Pero durante el desayuno le pregunté directamente a ChatGPT y me dejó más tranquilo.

¡Que alivio, la inteligencia artificial ha llegado para ayudarnos!
Como ya hemos contado en este blog en distintas ocasiones, la inteligencia artificial es la rama de la ciencia que persigue desarrollar sistemas computacionales capaces de ejecutar tareas que habitualmente realiza el cerebro humano. Los ámbitos de la inteligencia humana son muy amplios, en este post me centraré en el campo del lenguaje.
La inteligencia artificial en el lenguaje
En la comunicación verbal existen básicamente tres procesos: la escucha, el procesamiento del lenguaje y el habla.
La escucha
La escucha es el proceso mediante el cual el ser humano recibe estímulos sonoros y los clasifica en fonemas, que son las unidades mínimas de sonido atribuibles a un idioma. Luego el cerebro transforma estos fonemas en palabras.
Los ordenadores pueden escuchar gracias al campo de la inteligencia artificial que recibe el nombre de reconocimiento de la palabra (ASR, Automatic Speech Recognition). Para ello utilizan modelos matemáticos que replican a las neuronas del cerebro humano y reciben el nombre de HMM (Hidden Markov Models).
Durante la infancia los niños aprenden que la secuencia de fonemas [p][a][p][a] significa “padre” tras haber escuchado estos mismos sonidos en repetidas ocasiones “etiquetados” con ese concepto por el progenitor. Por analogía a como aprende el cerebro humano, los modelos neuronales de la computadora (HMM) se entrenan con grandes bases de datos de sonidos que se corresponden con un mismo fonema. Una vez entrenado, el algoritmo es capaz de clasificar los sonidos en fonemas y transformarlos luego en palabras.
Su uso en el ámbito B2C y B2B
Actualmente el reconocimiento de voz es un campo de la inteligencia artificial totalmente preciso y maduro, incluso en entornos ruidosos y aplicable en conversaciones telefónicas.
En el ámbito de los productos de consumo, el reconocimiento de voz se incorpora en los asistentes personales (Aura, Siri, Alexa, Google Assistant), en las aplicaciones de navegación (Google Drive, Waze), en las aplicaciones de domótica, etc.
En el ámbito empresarial, el reconocimiento de la palabra se utiliza en los centros de contacto con el cliente (contact centers) para clasificar las llamadas y automatizar aquellas que resulten genéricas y repetitivas y reservar la atención humana solo a asuntos, en los que aporte valor. El reconocimiento de voz también aumenta la productividad de los empleados en las reuniones virtuales (Microsoft Teams, Zoom Meetings, Cisco Webex), pues permite realizar la transcripción automática de la reunión. O, por ejemplo, en la Administración pública, se utiliza para ayudar a jueces y letrados a transcribir sus textos y agilizar su trabajo. .
El habla
El habla es el proceso mediante el cual el cerebro descompone las palabras en fonemas. La concatenación de estos constituye el habla. Los ordenadores pueden hablar gracias a la disciplina de la inteligencia artificial que recibe el nombre de conversión de texto a voz (TTS, Text to Speech). Stephen Hawking fue una de las personas más conocidas en utilizar la conversión de texto a voz para hablar.
Aunque a esta técnica siempre le hemos reprochado que suene como “un loro” o “un robot” hoy en día esto ha cambiado. Actualmente la tonalidad de la voz emitida es tan natural que podría corresponder a la de una “hipotética” persona. En un post anterior nos planteábamos si la voz sintetizada conseguirá recrear a nuestro abuelo y que nos vuelva a leer un cuento como cuando éramos niños. Pues bien, ya es posible. Microsoft ha desarrollado un sistema de síntesis de voz (VALL-E) – entrenado con más de 60.000 horas de grabación provenientes de 7.000 diferentes voces- capaz de imitar cualquier voz tras solo tres segundos de escucha.
Aplicaciones variadas
La síntesis de voz se utiliza, por ejemplo, en los aeropuertos para anunciar los vuelos, en los asistentes personales y en los sistemas de navegación mencionados con anterioridad.
En el ámbito empresarial la conversión de texto a voz también se utiliza en los contact centers para generar repuestas telefónicas automáticas.
El procesamiento del lenguaje
Durante el procesamiento del lenguaje las palabras son contextualizadas y transformadas en otras que forman parte de la conversación. Los ordenadores pueden conversar gracias al ramo de la inteligencia artificial que recibe el nombre de procesamiento del lenguaje natural (NLU, Natural Languaje Understanding). Y este es el ámbito de más difícil aplicación: conseguir que un ordenador sea capaz de pensar y responder como si de un ser humano se tratase.
Se han producido notables avances, sobre todo a raíz del fenómeno viral ChatGPT, con el que comenzaba este post. Se trata de la pieza angular que nos faltaba, aquella que permite articular la escucha y el habla en el contexto de una conversación “humanizada”. Al igual que en el caso del reconocimiento de la palabra y de la conversión de texto a voz, el ordenador utiliza modelos matemáticos entrenados con ingentes cantidades de datos. Para el entrenamiento de los modelos NLU se utiliza una metodología supervisada por agentes humanos (RLHF, Reinforcement Learning from Human Feedback). Igual que el proceso de aprendizaje de los niños cuando van a la escuela está supervisado por el profesor, el entrenamiento de los modelos matemáticos NLU está supervisado por expertos humanos (“el profesor del modelo”).
Bots conversacionales y usos inimaginables
Las aplicaciones del NLU en el ámbito empresarial son ingentes. Existen modelos de NLU específicos capaces de programar código igual o incluso de manera más eficiente que un informático. Los bots conversacionales se incorporan cada vez más a las organizaciones: para la relación con los empleados o en las webs de las empresas para guiar al cliente durante la compra online o atender sus incidencias. El NLU también puede utilizarse para redactar memorias comerciales o técnicas, informes, para generar resúmenes de noticias y documentos o traducir idiomas.
Si unimos al NLU el reconocimiento de la palabra y la síntesis de voz es posible crear robots que escuchen y conversen como los humanos. Podemos encontrarlos ya en los centros de contacto telefónico, aeropuertos, estaciones de tren, centros comerciales o tomando el pedido en restaurantes. Las aplicaciones son hoy en día inimaginables.
Mucho entrenamiento y superordenadores en la nube
En definitiva, debemos quedarnos con que la historia de la inteligencia artificial se está escribiendo en este momento. Aún está en pañales y se convertirá en lo que trabajemos que sea. De lo que ya no hay dudas es que se trata de que es una potente herramienta que permite a las empresas reducir costes, incrementar su productividad y aportar mayor valor a sus clientes.
También es importante aclarar que no hay un modelo genérico de inteligencia artificial que sirva para todo. De igual forma que el ser humano para poder hablar con criterio sobre historia debe formarse en esta materia o un médico debe estudiar medicina para poder realizar un diagnóstico, los modelos de NLU deben ser entrenados para cada tarea. La clave reside en disponer de ingentes cantidades de bases de datos “etiquetados” que se correspondan con el contexto sobre el que se desea conversar y de superordenadores en la nube para entrenar dichos modelos.
Siempre se plantea, además, la cuestión de si la automatización de tareas que la inteligencia artificial permite hará que perdamos nuestro puesto de trabajo. Pero, entre los trabajos del futuro, pensemos también que surgirán nuevos oficios como el experto especializado en el entrenamiento de modelos de inteligencia artificial.
Imagen: Pulpolux!!!
The post 2023: una odisea de la inteligencia artificial appeared first on Think Big.