GenAI: le ultime novità e un prompt da provare

GenAI: le ultime novità e un prompt da provare

By Max
9 Min Read

#The Sunday Prompt #41 – 15/09/2024

Ben ritrovati! 

Questo periodo di agosto/settembre è veramente infuocato di novità dal punto di vista dell’AI generativi e ci sono stati annunci e rilasci di novità molto importanti (da ultimo il nuovo modello 01 di OpenAI). 

Ma andiamo con calma e vediamo quelle più interessanti. A partire da questo numero, inoltre, alla fine ci sarà un “template” di prompt da provare, così da poter costruire, piano piano, una vostra libreria di metodi.


OpenAI o1: alle soglie del ragionamento 

Ovviamente non si può che iniziare dal rilascio dei nuovi modelli da parte di OpenAi. Si tratterebbe del progetto “strawberry”, ma al contrario di quanto si leggeva nei vari post e articoli prima della scorsa settimana sembra che non siamo ancora a GPT 5.

OpenAi, leggendo la relazione (https://openai.com/index/learning-to-reason-with-llms/) il modello sarebbe in grado di “ragionare” o “pensare” (e i vari articoli dei giornali hanno ribadito questo storytelling).

Ma è veramente così?
Andando ad analizzare quanto dichiarato da OpenAI in realtà sembra che i modelli o1 siano stati addestrati e ottimizzati con tecniche differenti rispetto ai loro predecessori. Nello specifico, OpenAI avrebbe impiegato il reinforcement learning ottimizzato per contesti di chain-of-thought (CoT), adottando un approccio piuttosto innovativo.

Tale metodologia sarebbe particolarmente scalabile, aprendo potenzialmente la strada a nuove scoperte nell’ambito del ragionamento e della pianificazione.

Verò è che già dal 4o appariva evidente che OpenAI abbia introdotto degli accorgimenti soprattutto per la risoluzione di problemi matematici. Mentre con i modelli precedenti in alcuni casi le risposte a problemi matematici risultavano errate, con il 4o su ChatGPT veniva applicata automaticamente la CoT ed il sistema scomponeva passo per passo il procedimento per fornire le risposte, che erano così più accurate.

Adesso questa tecnica è stata direttamente incorporata nel modello, peccato però che mentre prima tutte le fasi del procedimento venivano rese evidenti all’utente ora queste fasi sono per così dire “incorporate” e diventa quindi più difficile comprendere come il modello giunga a specifiche conclusioni.

Ciò che appare molto interessante è che OpenAi ha per così dire spostato il problema: dalle necessità di calcolo per addestrare un modello a quelle invece necessarie per le attività inferenziali (tramite l’incorporamento della CoT), per risolvere problemi complessi.

Questo vuol dire che il nucleo del ragionamento non dovrà più necessariamente risiedere in un modello di vaste dimensioni, ma potranno emergere nuove tecniche che consentiranno anche ai modelli di piccole dimensioni di diventare affidabili su compiti complessi.

Particolare importanza è stata data da OpenAI alla sicurezza del modello con test condotti da alcune aziende ingaggiate dall’azienda guidata da Sam Altman.

I nuovi modelli sono già disponibili su ChtGPT e sul Playground (o con le API).

E’ opportuno precisare che le maggiori capacità di “ragionamento” si evidenziano in quei compiti per così dire procedurali: problemi matematici e coding soprattutto il modello o1-mini) e di tipo logico.

LLM e coding: la battaglia dei modelli e tools

Sul tema dell’utilizzo degli LLM per l’ausilio al coding sembra si stia giocando una battaglia a colpi di rilanci e tools.

Una delle ultime novità è il rilascio, sempre in open-source, da parte di Mistral del modello Codestral (22B) (https://mistral.ai/news/codestral/) che riesce a raggiungere nei benchmark livelli di efficienza molto alti (addirittura al 91% per Python, Javascript e Java) ed è addestrato su 80 diversi linguaggi di programmazione. 

L’integrazione degli assistenti nei vari IDE di programmazione segue questa evoluzione: Replit, la nota piattaforma online ha recentemente introdotto un assistente (https://replit.com/) per lo sviluppo del codice, mentre sta riscuotendo molto successo Cursor (https://www.cursor.com/) un IDE per il Coding che nasce come fork di VSCode (forse il più diffuso IDE) e che consente di importare tutte le impostazioni di VSCode (facendo risparmiare molta fatica) integrando al proprio interno integra già vari modelli LLM e funzionalità per l’ausilio al coding: provatelo, non vi deluderà!Infine, Anthropic (https://claude.ai/) ha rilasciato nell’interfaccia online dei modelli delle funzionalità a dir poco pazzesche: innanzitutto è possibile abilitare i cd. artifacts in modo che la risposta al prompt viene fornita in una “finestra” laterale che si apre con il risultato finale. Questa finestra, nel caso in cui venga chiesto di sviluppare codice per qualsiasi obiettivo, offre una preview del risultato finale e il codice sorgente stesso (come si vede dalla figura sotto). Ma non è finita qua: la società ha rilasciato la funzionalità “publish”  che consente di pubblicare online il risultato in modo da poter poi accedere ad un link a quanto così creato.

Google: Gemini in workspace e il “content to speak”

Devo dire che è da quando era stato annunciato che volevo provare l’uso di Gemini in workspace. Finalmente con un pò di calma sono riuscito a dedicarmi questa estate facendo qualche test e i risultati sono molto soddisfacenti. L’integrazione consente di utilizzare le funzionalità del LLM all’interno di Gmail (riassumendo, traducendo o componendo testi) nonché nelle altre app della suite di Google. I primi risultati in Google Doc sono molto interessanti, dato che riesce a tradurre lunghi testi, estrarre elenchi e informazioni rilevanti ed anche a fornire un ausilio per la scrittura, il tutto integrato nel documento su cui si sta lavorando.

Una recente novità di Google (ancora in fase sperimentale) è “Illuminate” (https://illuminate.google.com/) che consente di trasformare qualsiasi contenuto in un file audio. La cosa interessante è che questo sistema non è un “lettore di parole”, ma processa il contenuto del file e crea una “discussione” sul tema. Ad oggi sono disponibili alcuni esempi (quasi tutti tratti da paper scientifici presenti su Arxiv.org) ed è necessario iscriversi per essere aggiunti alla waitlist.


Queste le notizie che ho cercato di filtrare tra quelle più interessanti. Ho volutamente tralasciato tanti altri annunci e novità (la Apple Intelligence, Flux, l’aggiornamento di Ideogram, i nuovi chip Cerebras, o i modelli cinesi che stanno facendo passi da gigante). Sicuramente avremo occasione di parlarne nei prossimi numeri.


Il prompt della settimana

Avrete sicuramente sui social alcune infografiche che riassumono delle metodologie di prompting con varie sigle (RTF, TAG, BAB, etc.). In realtà si tratta di acronimi che riassumono delle metodologie più ampie. Cominciamo con questo numero ad esaminarle insieme.

R-T-F (Role – Task – Format)

Questa tecnica riassume una costruzione di un prompt in cui si assegna un ruolo (il “agisci come se fossi” di cui abbiamo già parlato), si assegna un task al modello e si specifica un output mostrando come lo si vorrebbe.

Ecco qui sotto un esempio:

ROLETASKFORMAT
agisci come secrea unmostra come
Sei un avvocato specializzato in diritto civile italianoCrea una clausola di riservatezza tra due aziende che devono condividere delle informazioni relativamente a un progetto comunecrea diversi modelli di clausola graduando le conseguenze della violazione degli obblighi previsti nella clausola (come applicazione di un importo a titolo di penale, inibizione all’uso delle informazioni condivise, forme di pubblicità della violazione, etc.)
il metodo RTF

Un ultima cosa

Da questo numero il contenuto di questa newsletter (che trovate anche sul sito www.thesundayprompt.com) sarà differente da quello che ricevono via email gli iscritti alla newsletter “normale” via email. In quest’ultima troverete l’indicazione di strumenti e tool (massimo 4 a settimana) che possono essere utilizzati e che usano l’AI per ottimizzare il lavoro. 

Se volete ricevere anche quella newsletter iscrivetevi su https://the-sunday-prompt.ck.page/f260e8dd80

Happy Prompting! 👋🏻

TAGGED:
Share This Article