L'intelligenza artificiale sta rivoluzionando il modo in cui interagiamo con il mondo digitale. Grazie alla sua capacità di apprendere e migliorare continuamente, l'AI offre infinite possibilità di applicazione.
In particolare, ci sono sei modi principali in cui può essere utilizzata:
- text-to-text
- audio-to-text
- text-to-audio
- text-to-image
- image-to-text
- image-to-image
Vediamo insieme come questi sei modi di utilizzo possono trasformare la nostra esperienza digitale e migliorare la nostra vita quotidiana.
Prima di partire occorre definire due concetti base comune in tutti i modelli il Prompt e i Modelli Neurali.
Cosa sono i Prompt per i modelli AI?
I prompt possono essere parole extra introdotte da un essere umano. Come gli indizi dei cruciverba, i prompt guidano il modello verso una decisione o una previsione desiderata.
Cosa sono i Modelli Neurali nell'AI?
I modelli neurali nell'Intelligenza Artificiale sono algoritmi di apprendimento automatico che si ispirano al funzionamento del cervello umano. Queste reti neurali sono composte da neuroni artificiali interconnessi che elaborano le informazioni in modo simile ai neuroni biologici.
Il modo in cui si ottengono questi modelli è attraverso sistemi di training dove date una serie di input si visualizzano gli output e si vanno a modificare i coefficienti della rete neurale al fine di ottenere gli output sperati. Per poter effettuare training occorrono tantissimi dati di qualità altrimenti i risultati saranno imprecisi.
Modelli di testo
La generazione di testi è uno dei settori dell'Intelligenza Artificiale che ha visto una crescente attenzione negli ultimi anni.
Grazie alla capacità delle macchine di elaborare grandi quantità di dati e di apprendere dai modelli esistenti, è possibile creare software in grado di produrre testi di qualità, che sembrano scritti da esseri umani.
Le possibilità in particolare possono essere divise in più tipi, per semplicità faremo riferimento agli esempi presentati ufficialmente da OpenAI (clicca qui per conoscere meglio OpenAI).
Generatore di Risposte per Faq o Q&A
Questo tipo di sistema utilizza l'apprendimento automatico per comprendere le domande poste dagli utenti e fornire risposte pertinenti e precise. La peculiarità di questi modelli sta nel fatto che possono migliorare continuamente la loro capacità di rispondere alle domande degli utenti grazie all'analisi del feedback fornito dagli stessi.
Prompt:
Sono un bot altamente intelligente per rispondere alle domande. Se mi fai una domanda che ha una radice nella verità, ti darò la risposta. Se mi fai una domanda senza senso, inganno o che non ha una risposta chiara, risponderò con "Sconosciuto".
Q: Qual è l'aspettativa di vita umana negli Stati Uniti?
Risposta:
A: L'aspettativa di vita umana negli Stati Uniti è di 78 anni.
Sistemi di classificazione testuale
Questo tipo di operazioni servono quando dato un input testuale cerchiamo di categorizzarlo o classificarlo, può essere utilizzato per classificare singole parole, frasi o interi blocchi di testo.
Anche in questo caso sono facilmente migliorabili attraverso il feedback dell'utilizzatore, in quanto ogni volta che viene segnalato un comportamento errato del modello quest'ultimo viene migliorato per non rifare lo stesso errore o errori simili
Prompt:
Estrai le keyword presenti nel seguente testo:
La ceramica nero su nero è una tradizione di ceramica del XX e XXI secolo sviluppata dagli artisti ceramici nativi americani Puebloan del nord del Nuovo Messico. La tradizionale ceramica cotta con riduzione è stata prodotta per secoli da artisti del pueblo. La ceramica nero su nero del secolo scorso è prodotta con una superficie liscia, con i disegni applicati tramite lucidatura selettiva o applicazione di smalto refrattario. Un altro stile prevede la scultura o l'incisione di disegni e il lucidaturo selettivo delle aree sollevate. Per generazioni diverse famiglie dai pueblos Kha'po Owingeh e P'ohwhóge Owingeh hanno fabbricato ceramica nero su nero con tecniche tramandate dalle ceramiste matriarche. Artisti di altri pueblos hanno anche prodotto ceramica nero su nero. Alcuni artisti contemporanei hanno creato opere che onorano la ceramica dei loro antenati.
Risposta:
ceramica, nero su nero, XX, XXI secolo, Puebloan, Nuovo Messico, riduzione, superficie liscia, disegni, lucidatura selettiva, smalto refrattario, scultura, incisione, lucidatura selettiva, Kha'po Owingeh, P'ohwhóge Owingeh, ceramiste matriarche, artisti contemporanei, antenati.
Prompt:
Classifica il sentimento nei seguenti tweet:
- "Non sopporto i compiti"
- "Questo fa schifo. Sono annoiato 😠"
- "Non vedo l'ora di Halloween!!!"
- "Il mio gatto è adorabile ❤️❤️"
- "Odio il cioccolato"
Risultato:
Valutazioni sentimentale dei tweet:
- Negativo
- Negativo
- Positivo
- Positivo
- Negativo
Chatbot
Si tratta dell'utilizzo dell'intelligenza artificiale per fornire supporto attraverso chatbot. Anche in questo caso l'allenamento e l'ottimizzazione sono facili in quanto basta utilizzare il chatbot e dare feedback negativi quando presenta errori.
Prompt:
Marv è un chatbot che, a malincuore, risponde alle domande con risposte sarcastiche.
You: Quanti libbre ci sono in un chilogrammo?
Risultato:
Marv: Ancora questa? Ci sono 2,2 libbre in un chilogrammo. Prendine nota.
Generazione Libera
Uno dei campi di utilizzo teorico dell'Intelligenza Artificiale più interessante. Si riferisce alla capacità delle AI di generare contenuti con delle indicazioni base, come ad esempio testi, scritture, poesie, canzoni o persino opere d'arte.
L'idea alla base di questa applicazione è quella di dotare l'AI di una creatività propria, in grado di produrre materiale originale e innovativo, senza l'intervento umano.
In questo caso il training risulta molto complesso in quanto per essere eseguito occorrono grosse mole di dati e un hardware non indifferente.
Prompt:
Descrizione prodotto: Un paio di scarpe che si adatta a qualsiasi misura di piede.
Parole chiave: adattabile, adatto, omni-fit.
Nome prodotto:
Risultato:
Omni-Fit Shoes
Traduzioni
Sistema di applicazione parecchio simile a quello di generazione libera ma maggiormente incentrato alle traduzioni vere e proprie, tra lingue diverse o anche tra linguaggi di programmazione diversi (non è assurdo pensare in futuro ad una stele di Rosetta completamente Autonoma).
Anche in questo caso il training risulta molto complesso a causa delle grossi quantità di dati necessarie per effettuarlo.
Prompt:
Traduci in 1. Francese, 2. Spagnolo e 3. Giapponese:
Dove si trova il museo più vicino?
Risultato:
- Où se trouve le musée le plus proche?
- ¿Dónde está el museo más cercano?
- 最も近い博物館はどこですか?
Trasformazioni
Si parla di sistemi che permettono trasformazioni e rielaborazione di contenuti testuali in altri. I casi d'uso possono essere molto vari come: correttore grammaticale, sintetizzatore, riscrittura di contenuti con diverso stile di scrittura.
Questi sistemi sono i più complessi da trainare in quanto la rete neurale risulta molto diversa dopo l'allenamento e quindi i pesi da modificare sono molti.
Prompt:
Riassumi per un alunno delle elementari:
Giove è il quinto pianeta dal Sole ed è il più grande del Sistema Solare. È un gigante gassoso con una massa un milionesimo di quella del Sole, ma due volte e mezzo quella di tutti gli altri pianeti del Sistema Solare messi insieme. Giove è uno degli oggetti più luminosi visibili a occhio nudo di notte, e da tempi antichi è noto ai popoli della civiltà. Porta il nome del dio romano Giove. Quando osservato dalla Terra, Giove può essere abbastanza luminoso da proiettare ombre visibili ed è in media il terzo oggetto naturale più luminoso nella notte dopo la Luna e Venere.
Risultato:
Giove è un pianeta grande e luminoso che orbita intorno al Sole. È il quinto pianeta da lontano e si può vedere a occhio nudo di notte. Prende il nome dal dio romano Giove e può essere abbastanza luminoso da proiettare ombre visibili. È in media il terzo oggetto più luminoso in notte dopo la Luna e Venere.
Prompt:
Correggi la grammatica della seguente frase:
Giove e il quinto pianeta dal sole.
Risultato:
Giove è il quinto pianeta rispetto al Sole.
Prompt:
Trovami le informazioni di contatto della seguente email:
Carissima Kelly,
È stato bellissimo parlare con te al seminario. Trovo che la presentazione di Jane sia stata davvero interessante.
Grazie per il libro. Ecco il mio indirizzo: 2111 Ash Lane, Crestview CA 92002
Un saluto,
Maya
Risultato:
Informazioni di contatto di Maya:
Nome: Maya
Indirizzo: 2111 Ash Lane, Crestview CA 92002
Processamento Audio
Grazie alla potenza di algoritmi avanzati, l'AI può analizzare, riconoscere e migliorare l'audio come mai prima d'ora.
Filtrare il rumore di fondo, distinguere le voci, tradurre in tempo reale le conversazioni in diverse lingue, tutto questo è possibile grazie all'innovazione dell'AI.
L'intelligenza artificiale può anche creare nuove forme di arte sonora e musicale, generando suoni e melodie in modo autonomo e innovativo. L'interesse per l'AI nel campo del processamento audio sta crescendo e le sue applicazioni sono già evidenti nei sistemi di teleconferenza, nei servizi di assistenza virtuale e nella produzione di contenuti audiovisivi di alta qualità.
Da Testo a Audio
L'utilizzo dell'intelligenza artificiale per la conversione del testo in audio sta diventando sempre più diffuso. Ci sono molte applicazioni che consentono di trasformare il testo in un file audio, rendendo più facile l'ascolto di libri, articoli e documenti. Questa tecnologia è particolarmente utile per le persone con disabilità visive o per coloro che preferiscono ascoltare piuttosto che leggere.
Questa tecnologia può essere utilizzata per creare podcast o assistenti vocali intelligenti. Grazie all'intelligenza artificiale, la voce generata dal computer può essere resa sempre più naturale e simile a quella umana, migliorando così l'esperienza dell'utente.
Questi sistemi si stanno inoltre evolvendo anche in generazione da zero di contenuti audio, qui Google la fa da padrone ed i risultati sono impressionanti:
Prompt:
The main soundtrack of an arcade game. It is fast-paced and upbeat, with a catchy electric guitar riff. The music is repetitive and easy to remember, but with unexpected sounds, like cymbal crashes or drum rolls.
Risultato:
L'esempio è preso dal paper di ricerca ufficiale di Google: https://google-research.github.io/seanet/musiclm/examples/
Da Audio a Testo
Si tratta della possibilità di convertire il parlato in testo scritto.
Questa tecnologia è già stata utilizzata in molti settori, come ad esempio nella trascrizione di interviste, conferenze e discorsi politici. Ma l'utilizzo di questa tecnologia non si limita solo alla trascrizione di discorsi, ma può essere utilizzata anche in ambito medico, come nel caso della trascrizione di referti medici o nella trascrizione di testi legali.
Inoltre, la tecnologia di conversione da audio a testo può essere utilizzata per la creazione di sottotitoli automatici nei video, migliorando l'accessibilità per le persone con problemi uditivi.
In questo caso le intelligenze artificiali che presentano questa funzionalità sono varie una di queste è sicuramente quella fornita da OpenAI Whisper.
Input:
Risultato:
Before he had time to answer, a much encumbered veerer burst into the room with the question, I say, Can I leave these here? These were a small black pig and a lusty specimen of black red gamecock.
L'esempio anche in questo caso è preso da risorse ufficiali fornite da OpenAI.
Processamento Immagini
L'intelligenza artificiale ha rivoluzionato il modo in cui le immagini vengono elaborate e analizzate. Grazie a tecniche di deep learning, le reti neurali possono apprendere a riconoscere oggetti, volti e pattern all'interno di un'immagine andando a classificarle o a crearne di nuove.
Qui i due interpreti più conosciuti e avanzati sono MidJourney e l'alternativa open source Stable Diffusion.
Da Testo a Immagine
Si tratta di un meccanismo parecchio semplice e non è altro che richiedere all'intelligenza artificiale di generare immagini a partire da un prompt
Eccone alcuni esempi presi dai reddit delle due piattaforme:
La richiesta era quella di creare una foto dell'ex presidente degli Stati Uniti come se fosse un senza tetto.
Qui invece era mostrare come sarebbe stato un selfie fatto da indiani d'America nel 1800.
I risultati sono strabilianti ed è molto molto difficile che qualcuno riconosca queste foto come generate. Per maggiori esempi clicca qui per stable diffusion e qui per MidJourney.
Da Immagine a Testo
Questa tecnologia può essere utilizzata anche in ambiti di riconoscimento di oggetti nelle immagini, e di testo nelle immagini.
Per il riconoscimento di testo si parla di tecnologie OCR ed in questo caso si tratta di tecnologie praticamente certe che quindi danno risultati corretti nella super maggioranza dei casi.
Invece per quanto riguarda il riconoscimento di elementi si tratta di un qualcosa di più interessante in quanto permette elaborazioni più complesse che danno spazio alle elaborazioni da immagine a immagine.
In questo caso è ancora OpenAI a fornire un modello che si occupa di questo con CLIP, e qui abbiamo un'esempio:
Il modello Clip ha risposto correttamente più del 99% delle volte riconoscendo la presenza di un cane ed in particolare di un King Charles Spaniel.
Da Immagine a Immagine
In particolare, un campo di ricerca molto attivo riguarda la trasformazione di immagini in modo da migliorarne la qualità o modificarne il contenuto. Questo processo, chiamato " da immagine a immagine ", implica l'utilizzo di algoritmi di apprendimento automatico per trasformare un'immagine di input in un'immagine di output che soddisfi determinati criteri.
Applicazioni comuni possono essere:
- Riduzione rumore nelle immagini
- Miglioramento della risoluzione e della qualità delle immagini
- Eliminazione elementi o oggetti nella scena
- Aggiunta di elementi o oggetti nella scena
- Creazione di una nuova scena a partire da una vecchia immagine
Qui ci sono alcuni esempi presi sempre dal reddit di stable diffusion:
Se Van Gogh esistesse oggi
Sostituzione con un gatto del protagonista dell'Urlo di Munch
Conclusione
L'intelligenza artificiale rappresenta una vera e propria rivoluzione nel mondo digitale.
Grazie alla sua capacità di apprendere e migliorare costantemente, l'AI offre infinite possibilità di applicazione, tra cui i sei modi principali di utilizzo: text-to-text, audio-to-text, text-to-audio, text-to-image, image-to-text e image-to-image.
Questi strumenti possono trasformare profondamente la nostra esperienza digitale e migliorare la nostra vita quotidiana in molti modi diversi.
Con una conoscenza approfondita di questi elementi, saremo in grado di utilizzare l'AI per migliorare la nostra vita in modo sempre più efficace e innovativo.
(Clicca qui per leggere la nostra guida completa sull'intelligenza artificiale per le aziende)