Cómo se puede utilizar la inteligencia artificial: Todos los modelos

La inteligencia artificial está revolucionando la forma en que interactuamos con el mundo digital. Gracias a su capacidad de aprender y mejorar continuamente, la IA ofrece infinitas posibilidades de aplicación.

En particular, hay seis formas principales en que puede utilizarse:

text-to-text
audio-to-text
text-to-audio
text-to-image
image-to-text
image-to-image

Veamos juntos cómo estas seis formas de uso pueden transformar nuestra experiencia digital y mejorar nuestra vida cotidiana.

Antes de comenzar, es necesario definir dos conceptos base comunes a todos los modelos: el Prompt y los Modelos Neuronales.

¿Qué son los Prompts para los modelos de IA?

Los prompts pueden ser palabras adicionales introducidas por un ser humano. Como las pistas de los crucigramas, los prompts guían al modelo hacia una decisión o predicción deseada.

¿Qué son los Modelos Neuronales en la IA?

Los modelos neuronales en la Inteligencia Artificial son algoritmos de aprendizaje automático que se inspiran en el funcionamiento del cerebro humano. Estas redes neuronales están compuestas por neuronas artificiales interconectadas que procesan la información de manera similar a las neuronas biológicas.

La forma en que se obtienen estos modelos es a través de sistemas de entrenamiento donde, dada una serie de entradas, se visualizan las salidas y se van modificando los coeficientes de la red neuronal con el fin de obtener las salidas deseadas. Para poder realizar el entrenamiento se necesitan muchísimos datos de calidad, de lo contrario los resultados serán imprecisos.

Modelos de texto

La generación de textos es uno de los sectores de la Inteligencia Artificial que ha visto una creciente atención en los últimos años.

Gracias a la capacidad de las máquinas de procesar grandes cantidades de datos y de aprender de los modelos existentes, es posible crear software capaz de producir textos de calidad, que parecen escritos por seres humanos.

Las posibilidades en particular pueden dividirse en varios tipos; por simplicidad haremos referencia a los ejemplos presentados oficialmente por OpenAI (haz clic aquí para conocer mejor OpenAI).

Generador de Respuestas para FAQ o Q&A

Este tipo de sistema utiliza el aprendizaje automático para comprender las preguntas planteadas por los usuarios y proporcionar respuestas pertinentes y precisas. La particularidad de estos modelos reside en que pueden mejorar continuamente su capacidad de responder a las preguntas de los usuarios gracias al análisis del feedback proporcionado por ellos mismos.

Prompt:

Soy un bot altamente inteligente para responder preguntas. Si me haces una pregunta que tiene una raíz en la verdad, te daré la respuesta. Si me haces una pregunta sin sentido, engañosa o que no tiene una respuesta clara, responderé con "Desconocido".

P: ¿Cuál es la esperanza de vida humana en los Estados Unidos?

Respuesta:

R: La esperanza de vida humana en los Estados Unidos es de 78 años.

Sistemas de clasificación textual

Este tipo de operaciones se utilizan cuando, dado un texto de entrada, buscamos categorizarlo o clasificarlo; puede utilizarse para clasificar palabras individuales, frases o bloques enteros de texto.

También en este caso son fácilmente mejorables a través del feedback del usuario, ya que cada vez que se señala un comportamiento erróneo del modelo, este se mejora para no repetir el mismo error o errores similares.

Prompt:

Extrae las palabras clave presentes en el siguiente texto:

La cerámica negro sobre negro es una tradición de cerámica del siglo XX y XXI desarrollada por los artistas ceramistas nativos americanos Puebloan del norte de Nuevo México. La tradicional cerámica cocida con reducción ha sido producida durante siglos por artistas del pueblo. La cerámica negro sobre negro del siglo pasado se produce con una superficie lisa, con los diseños aplicados mediante pulido selectivo o aplicación de esmalte refractario. Otro estilo implica la escultura o incisión de diseños y el pulido selectivo de las áreas elevadas. Durante generaciones, diversas familias de los pueblos Kha'po Owingeh y P'ohwhóge Owingeh han fabricado cerámica negro sobre negro con técnicas transmitidas por las ceramistas matriarcas. Artistas de otros pueblos también han producido cerámica negro sobre negro. Algunos artistas contemporáneos han creado obras que honran la cerámica de sus antepasados.

Respuesta:

cerámica, negro sobre negro, XX, XXI siglo, Puebloan, Nuevo México, reducción, superficie lisa, diseños, pulido selectivo, esmalte refractario, escultura, incisión, pulido selectivo, Kha'po Owingeh, P'ohwhóge Owingeh, ceramistas matriarcas, artistas contemporáneos, antepasados.

Prompt:

Clasifica el sentimiento en los siguientes tweets:

"No soporto los deberes"

"Esto es una porquería. Estoy aburrido 😠"

"¡No puedo esperar a Halloween!!!"

"Mi gato es adorable ❤️❤️"

"Odio el chocolate"

Resultado:

Valoraciones de sentimiento de los tweets:

Negativo

Negativo

Positivo

Positivo

Negativo

Chatbot

Se trata del uso de la inteligencia artificial para proporcionar soporte a través de chatbots. También en este caso el entrenamiento y la optimización son sencillos, ya que basta con utilizar el chatbot y dar feedback negativos cuando presenta errores.

Prompt:

Marv es un chatbot que, a regañadientes, responde a las preguntas con respuestas sarcásticas.

Tú: ¿Cuántas libras hay en un kilogramo?

Resultado:

Marv: ¿Otra vez con esto? Hay 2,2 libras en un kilogramo. Tómalo nota.

Generación Libre

Uno de los campos de uso teórico de la Inteligencia Artificial más interesante. Se refiere a la capacidad de las IA de generar contenidos con indicaciones básicas, como por ejemplo textos, escrituras, poesías, canciones o incluso obras de arte.

La idea en la base de esta aplicación es la de dotar a la IA de una creatividad propia, capaz de producir material original e innovador, sin la intervención humana.

En este caso el entrenamiento resulta muy complejo, ya que para ejecutarse se necesitan grandes volúmenes de datos y un hardware no desdeñable.

Prompt:

Descripción del producto: Un par de zapatos que se adapta a cualquier talla de pie.

Palabras clave: adaptable, adecuado, omni-fit.

Nombre del producto:

Resultado:

Omni-Fit Shoes

Traducciones

Sistema de aplicación bastante similar al de generación libre pero más centrado en las traducciones propiamente dichas, entre distintos idiomas o también entre distintos lenguajes de programación (no es descabellado pensar en el futuro en una Piedra Rosetta completamente autónoma).

También en este caso el entrenamiento resulta muy complejo debido a las grandes cantidades de datos necesarias para llevarlo a cabo.

Prompt:

Traduce al 1. Francés, 2. Español y 3. Japonés:

¿Dónde está el museo más cercano?

Resultado:

Où se trouve le musée le plus proche?

¿Dónde está el museo más cercano?

最も近い博物館はどこですか？

Transformaciones

Se habla de sistemas que permiten transformaciones y reelaboración de contenidos textuales en otros. Los casos de uso pueden ser muy variados como: corrector gramatical, sintetizador, reescritura de contenidos con diferente estilo de escritura.

Estos sistemas son los más complejos de entrenar ya que la red neuronal resulta muy diferente tras el entrenamiento y, por tanto, son muchos los pesos a modificar.

Prompt:

Resume para un alumno de primaria:

Júpiter es el quinto planeta desde el Sol y es el más grande del Sistema Solar. Es un gigante gaseoso con una masa de una millonésima parte de la del Sol, pero dos veces y media la de todos los demás planetas del Sistema Solar juntos. Júpiter es uno de los objetos más brillantes visibles a simple vista de noche, y desde tiempos antiguos es conocido por los pueblos de la civilización. Lleva el nombre del dios romano Júpiter. Cuando se observa desde la Tierra, Júpiter puede ser lo suficientemente brillante para proyectar sombras visibles y es en promedio el tercer objeto natural más brillante en la noche después de la Luna y Venus.

Resultado:

Júpiter es un planeta grande y brillante que orbita alrededor del Sol. Es el quinto planeta más lejano y puede verse a simple vista de noche. Lleva el nombre del dios romano Júpiter y puede ser lo suficientemente brillante para proyectar sombras visibles. Es en promedio el tercer objeto más brillante en la noche después de la Luna y Venus.

Prompt:

Corrige la gramática de la siguiente frase:

Jupiter es el quinto planeta del sol.

Resultado:

Júpiter es el quinto planeta desde el Sol.

Prompt:

Encuéntrame la información de contacto del siguiente correo electrónico:

Querida Kelly,

Fue genial hablar contigo en el seminario. Encuentro que la presentación de Jane fue realmente interesante.

Gracias por el libro. Aquí está mi dirección: 2111 Ash Lane, Crestview CA 92002

Un saludo,

Maya

Resultado:

Información de contacto de Maya:

Nombre: Maya

Dirección: 2111 Ash Lane, Crestview CA 92002

Procesamiento de Audio

Gracias a la potencia de algoritmos avanzados, la IA puede analizar, reconocer y mejorar el audio como nunca antes.

Filtrar el ruido de fondo, distinguir las voces, traducir en tiempo real las conversaciones a diferentes idiomas: todo esto es posible gracias a la innovación de la IA.

La inteligencia artificial también puede crear nuevas formas de arte sonoro y musical, generando sonidos y melodías de manera autónoma e innovadora. El interés por la IA en el campo del procesamiento de audio está creciendo y sus aplicaciones ya son evidentes en los sistemas de teleconferencia, los servicios de asistencia virtual y la producción de contenidos audiovisuales de alta calidad.

De Texto a Audio

El uso de la inteligencia artificial para la conversión de texto en audio se está volviendo cada vez más común. Hay muchas aplicaciones que permiten transformar el texto en un archivo de audio, facilitando la escucha de libros, artículos y documentos. Esta tecnología es particularmente útil para las personas con discapacidades visuales o para quienes prefieren escuchar antes que leer.

Esta tecnología puede utilizarse para crear podcasts o asistentes de voz inteligentes. Gracias a la inteligencia artificial, la voz generada por el ordenador puede hacerse cada vez más natural y similar a la humana, mejorando así la experiencia del usuario.

Estos sistemas también están evolucionando hacia la generación desde cero de contenidos de audio; aquí Google lidera y los resultados son impresionantes:

Prompt:

The main soundtrack of an arcade game. It is fast-paced and upbeat, with a catchy electric guitar riff. The music is repetitive and easy to remember, but with unexpected sounds, like cymbal crashes or drum rolls.

Resultado:

El ejemplo está tomado del paper de investigación oficial de Google: https://google-research.github.io/seanet/musiclm/examples/

De Audio a Texto

Se trata de la posibilidad de convertir el habla en texto escrito.

Esta tecnología ya ha sido utilizada en muchos sectores, como por ejemplo en la transcripción de entrevistas, conferencias y discursos políticos. Pero el uso de esta tecnología no se limita solo a la transcripción de discursos, sino que también puede utilizarse en el ámbito médico, como en el caso de la transcripción de informes médicos o en la transcripción de textos legales.

Además, la tecnología de conversión de audio a texto puede utilizarse para la creación de subtítulos automáticos en vídeos, mejorando la accesibilidad para las personas con problemas auditivos.

En este caso, las inteligencias artificiales que presentan esta funcionalidad son varias; una de ellas es sin duda la proporcionada por OpenAI: Whisper.

Entrada:

Resultado:

Before he had time to answer, a much encumbered veerer burst into the room with the question, I say, Can I leave these here? These were a small black pig and a lusty specimen of black red gamecock.

El ejemplo también en este caso está tomado de recursos oficiales proporcionados por OpenAI.

Procesamiento de Imágenes

La inteligencia artificial ha revolucionado la forma en que las imágenes son procesadas y analizadas. Gracias a técnicas de deep learning, las redes neuronales pueden aprender a reconocer objetos, rostros y patrones dentro de una imagen, clasificándolas o creando nuevas.

Aquí los dos intérpretes más conocidos y avanzados son MidJourney y la alternativa open source Stable Diffusion.

De Texto a Imagen

Se trata de un mecanismo bastante sencillo que consiste en pedir a la inteligencia artificial que genere imágenes a partir de un prompt.

Aquí hay algunos ejemplos tomados de los reddit de las dos plataformas:

La solicitud era crear una foto del expresidente de los Estados Unidos como si fuera un sin techo.

Obama sin techo

Aquí en cambio se trataba de mostrar cómo habría sido un selfie hecho por nativos americanos en 1800.

Nativos americanos Selfie

Los resultados son asombrosos y es muy muy difícil que alguien reconozca estas fotos como generadas. Para más ejemplos haz clic aquí para Stable Diffusion y aquí para MidJourney.

De Imagen a Texto

Esta tecnología también puede utilizarse en ámbitos de reconocimiento de objetos en imágenes y de texto en imágenes.

Para el reconocimiento de texto se habla de tecnologías OCR y en este caso se trata de tecnologías prácticamente infalibles que, por tanto, dan resultados correctos en la gran mayoría de los casos.

En cambio, en lo que respecta al reconocimiento de elementos, se trata de algo más interesante ya que permite elaboraciones más complejas que dan cabida a las elaboraciones de imagen a imagen.

En este caso es de nuevo OpenAI quien proporciona un modelo que se ocupa de esto con CLIP, y aquí tenemos un ejemplo:

Cavalier King

El modelo Clip respondió correctamente más del 99% de las veces reconociendo la presencia de un perro y en particular de un King Charles Spaniel.

De Imagen a Imagen

En particular, un campo de investigación muy activo se refiere a la transformación de imágenes para mejorar su calidad o modificar su contenido. Este proceso, llamado "de imagen a imagen", implica el uso de algoritmos de aprendizaje automático para transformar una imagen de entrada en una imagen de salida que satisfaga determinados criterios.

Las aplicaciones comunes pueden ser:

Reducción de ruido en las imágenes
Mejora de la resolución y la calidad de las imágenes
Eliminación de elementos u objetos en la escena
Adición de elementos u objetos en la escena
Creación de una nueva escena a partir de una imagen antigua

Aquí hay algunos ejemplos tomados siempre del reddit de Stable Diffusion:

Si Van Gogh existiera hoy

Van Gogh Today

Sustitución con un gato del protagonista de El Grito de Munch

Cat in Munch

Conclusión

La inteligencia artificial representa una verdadera revolución en el mundo digital.

Gracias a su capacidad de aprender y mejorar constantemente, la IA ofrece infinitas posibilidades de aplicación, entre ellas las seis formas principales de uso: text-to-text, audio-to-text, text-to-audio, text-to-image, image-to-text e image-to-image.

Estas herramientas pueden transformar profundamente nuestra experiencia digital y mejorar nuestra vida cotidiana de muchas formas diferentes.

Con un conocimiento profundo de estos elementos, seremos capaces de utilizar la IA para mejorar nuestra vida de manera cada vez más eficaz e innovadora.

(Haz clic aquí para leer nuestra guía completa sobre inteligencia artificial para empresas)