Provo a fare un quadro descrittivo dello stato attuale del progresso tecnologico in campo informatico, per quello che vedo da una posizione privilegiata, poiché lavoro nel settore, anche se sono fuori da quei pochi contesti mondiali di frontiera che stanno trascinando il pianeta intero.
Nel 2017 avviene una svolta nel campo dell’intelligenza artificiale, per come la conosciamo oggi, con una ricerca di Google che mostra come l’addestramento delle reti neurali in ambito linguistico “abbia bisogno solo di un meccanismo di attenzione” (vedi https://arxiv.org/abs/1706.03762) e non anche delle complessità architetturali fino allora impiegate. Nascono i transformer, reti neurali alla base dei moderni sistemi di IA. Si tratta di una rivoluzione, non nella teoria delle reti neurali, che rimane un ambito accessibile a chiunque conosca l’algebra lineare, la statistica e altre nozioni di base di una laurea scientifica, ma nell’ingegneria delle reti neurali addestrate con il linguaggio naturale.
Il passaggio dai transformer ai modelli generativi è breve: nel 2018 esce il primo modello generativo moderno della famiglia GPT, a opera di OpenAI, società fondata a San Francisco nel 2015: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf. Le architetture simili a GPT oggi dominano il panorama degli LLM linguistici: ChatGPT, Claude, Gemini, Llama, DeepSeek, Qwen, per citare i più noti.
Nel 2022 il Washington Post pubblica la notizia secondo cui Google avrebbe licenziato un ingegnere che avrebbe rivelato al mondo che il sistema di IA su cui stava lavorando sarebbe stato senziente. Si trattava di Blake Lemoine e del sistema LaMDA di Google. Ricordo che leggendo la trascrizione che l’ingegnere aveva reso pubblica delle sue interazioni con quel sistema, pensai che potesse essere una mossa pubblicitaria per mettere in luce la capacità tecnologica di Google. Lo pensai perché mi sembrava impossibile che fosse stato realizzato davvero un sistema di quel livello.
Già l’anno prima OpenAI aveva messo a punto dei sistemi eccezionali per la produzione delle immagini (DALL-E) e Google DeepMind per lo studio delle proteine (AlphaFold) in ambito biologico.
Nel novembre del 2022 OpenAI rilascia al pubblico ChatGPT 3.5 e subito diventa chiaro che quei sistemi in grado di parlare e capire il linguaggio umano profondamente, esistono davvero.
Nel febbraio 2023 la società Meta, prima Facebook, rilascia il codice del suo sistema di IA, llama.
Si tratta di un terremoto planetario che mette in mano a tutte le nazioni e a tutte le persone del pianeta la possibilità di creare il proprio sistema di IA. Ne approfittano subito i cinesi di Alibaba creando Qwen e i francesi creando Mistral. Cinque mesi dopo, Meta rilascerà un nuovo modello e questa volta anche quella parte che non aveva reso disponibile al pubblico precedentemente, che è essenziale per utilizzare il codice rilasciato, i cosiddetti pesi del modello, il frutto dell’addestramento massivo delle reti neurali che compongono il sistema.
Non c’è più tempo quindi per conservare il vantaggio tecnologico rispetto al resto del mondo per OpenAI e le due uniche rivali, Anthropic, nata da due italo americani fuoriusciti da OpenAI, e Google.
Inizia una fase di aggiornamenti frenetici e di capacità sempre più impressionanti delle IA.
Nel 2024 OpenAI presenta o1, primo sistema AI in grado di fare ragionamenti complessi.
A questo punto questi sistemi diventano potenzialmente il cuore di sistemi per eseguire qualunque attività complessa che l’uomo svolge, dalla ricerca, all’automazione industriale, alla creazione di software, alla produttività nel settore dei servizi, all’assistenza clienti, ai dispositivi autonomi per la guerra (droni), ai sistemi di sorveglianza di massa e così via.
Sempre nel 2024 quindi, dalla formulazione iniziale dell’interfaccia di utilizzo di questi sistemi di AI, stile chatbot, siamo passati agli Agenti, ossia a sistemi che a fronte di un input e di conoscenze e capacità di ragionamento proprie, eseguono delle azioni. Non solo risposte testuali, ma azioni concrete realizzate utilizzando gli strumenti di cui sono stati dotati (ad esempio creare o modificare file su un computer, leggere informazioni da internet, abilitare sensori o dispositivi di domotica).
Nel 2025 Amazon rilascia Alexa+, inizialmente in via sperimentale solo negli USA, dal 2026 anche in Italia. Si tratta dell’assistente di casa a cui molti sono ormai abituati, in grado però di sfruttare quei sistemi IA di cui sopra (in particolare Claude di Anthropic) per interagire con le persone effettivamente, non solo nella modalità richiesta/comando → risposta/azione.
Oggi la maggior parte delle persone che lavora nell’ambito IT, utilizza gli agenti di Anthropic o di OpenAI o di altri fornitori per creare software, modificarlo, correggerlo, documentarlo …
Attualmente posso far eseguire sul mio computer di casa, tramite un software di gestione dei modelli di IA, modelli che ragionano, e che mostrano prestazioni paragonabili o superiori al ChatGPT 3.5 che nel 2022 lasciò il pianeta stupefatto. Quel sistema aveva bisogno di un’infrastruttura al di fuori delle possibilità di una persona singola e anche di molte aziende medio-grandi.
Il tema delle architetture che riproducono processi cognitivi umani, come quello del ragionamento e della memoria, è divenuto centrale. Un sistema ‘agentico’ che può prendere possesso del proprio pc per farlo funzionare come il computer della nave Enterprise di Star Trek è disponibile gratuitamente per tutti (https://openclaw.ai/) e questo sistema può funzionare utilizzando come cervelli i grandi sistemi che abbiamo citato, oppure anche sistemi che sono in esecuzione sui nostri computer stessi.
Oggi un assistente IA può assistere alle riunioni di lavoro, fare il resoconto e inviarlo ai partecipanti. Può analizzare e capire immagini, video, suoni. Si possono comporre canzoni senza aver mai saputo nulla di musica. Si può studiare con un assistente IA che spiega le parti non ben comprese di un argomento, che predispone domande per verificare la propria preparazione, che fa riassunti di testi molto lunghi, o che risolve esercizi che non si riescono a risolvere.
Google ha fornito un ecosistema completo, Gemini, ricco di strumenti per tutte le attività che dicevo.
Gratuitamente si accede a NotebookLM (https://notebooklm.google.com/ ) che permette di caricare, testi, riferimenti, libri e poi interrogare il modello che viene messo a disposizione per avere qualunque informazione sulle fonti caricate.
Di poco tempo fa la notizia che una congettura matematica, congettura di Erdős, che dal 1946 non era mai stata negata né confermata, è stata negata da un sistema IA con argomentazioni matematiche ritenute valide dal mondo accademico.
Nascono ovviamente problemi etici, problemi di definizione dell’essenza degli uomini, paure per la facile previsione di un mondo in cui la produzione a qualsiasi livello e in qualsiasi settore, potrebbe essere affidata ad automi, lasciando in un limbo o un inferno chi per vivere ha bisogno di un impiego.
Si tratta a mio parere dell’onda di una tempesta che nessuno può fermare, perché è alimentata da una rivalità inevitabile tra chi domina il mondo oggi, gli USA, e chi si candida per farlo domani, la Cina.
Non a caso i progressi nel settore IA dell’una hanno immediatamente una risposta equivalente da parte dell’altra.
In sostanza il mondo che verrà sembra obbligarci a fare lo sforzo di trovare la nostra ragione di vita fuori da impieghi lavorativi tradizionali e a cercare un concetto di comunità più esteso e meno basato sulle classi sociali ottocentesche.