E poi arrivò GPT-4 (e non solo)

OpenAI svela GPT4 il suo modello multimodale

By Max
7 Min Read

The Sunday Prompt #4 – 19/3/2023

Martedì 14 marzo, OpenAI ha svelato il suo attesissimo modello GPT-4, a seguito dell’ondata di interesse pubblico suscitata da ChatGPT. Il nuovo modello multimodale ora ha la capacità di elaborare sia immagini che input di testo e fornire risposte testuali.

Cosa vuol dire “multimodale”?

La nuova caratteristica più eclatante di GPT-4 è l’input multimodale. Si potrebbe paragonare ad un’estensione dei sensi per il sistema, così come noi essere umani percepiamo le cose attraverso la vista, l’udito, il gusto, il tatto e l’olfatto, così GPT-4 supporta input sia di immagini sia di testo (mentre i modelli precedenti potevano prendere solo una tipologia di input).

Questo significa che possono essere inviate al modello fotografie, diagrammi e disegni, nonché porre domande o creare istruzioni su queste immagini del modello e porre domande su tali immagini. Il sistema è in grado di analizzare cosa contengono e creare la sua risposta in base a tale contesto ampliato.

Per vedere le potenzialità del modello vi consiglio questo video in cui da uno sketch di un sito internet GPT-4 crea il relativo codice software per realizzarlo.

GPT-4 ha una finestra di contesto più ampia

GPT-4 può accettare un massimo di 32.000 token (ovvero circa 25.000 parole o circa 52 pagine di testo) e quindi un numero ben più ampio delle precedenti versioni GPT che supportano circa 4.000 token (circa 3000 parole).

L’ampiezza dei token di input consente di creare dei prompt sempre più dettagliati e istruzioni complesse, che possono anche contenere al proprio interno esempi da cui il sistema può valutare meglio l’accuratezza della risposta.

Come accedere a GPT-4

Al momento l’accesso alle API di GPT-4 non è stato ancora aperto a tutti gli utenti, ma è necessario aggiungersi ad una “waitlist”. La priorità, però, viene data 

agli sviluppatori che contribuiscono con valutazioni del modello eccezionali a OpenAI Evals. Le richieste sono valutate sulla base di differenti tariffe, ed una particolare attenzione è anche data ai ricercatori che studiano l’impatto sociale dell’IA o dei problemi di allineamento dell’IA.

E’ bene evidenziare che i costi per l’utilizzo di GPT-4 saranno superiori a quelli degli altri modelli, ed attualmente le performance del modello, in termini di velocità, sono molto più lente rispetto al precedente GPT3.5-turbo.

L’alternativa è quella di sottoscrivere un abbonamento a ChatGPT Plus (al costo di 20 dollari al mese). Anche in tal caso vi sono però delle limitazioni, dato che è stato posto un limite di 100 messaggi ogni 4 ore.

L’evoluzione

La multimodalità si evolverà senza dubbio dato che alcuni ricercatori esplorano l’output multimodale (come Visual ChatGPT, che può modificare le immagini con istruzioni di testo e analizzare video, gesti, sguardi, ecc). 

Meta, inoltre, ha presentato Toolformer che consente ai modelli di intelligenza artificiale di insegnare a se stessi a utilizzare le API. Ciò significa che possono collegarsi efficacemente a diversi siti Web ed interagire in modo autonomo.

I chatbot basati su LLM potrebbero sviluppare capacità di iniziativa. In questo momento, GPT-4 produce ancora risposte solo quando gli umani fanno una domanda (richiesta), ma in futuro i chatbot basati su LLM potrebbero semplicemente iniziare a fare domande o offrire aiuto anche senza un previo input da parte degli esseri umani.

La corsa ai tool di produttività

Nel frattempo durante la settimana si sono rincorse le Big Tech in annunci di tool per migliorare la produttività.

@Google ha rilasciato le API per PaLM ed annunciato che integrerà i sistemi di Google Workspace con i modelli LLM. Questo significa che si potranno utilizzare direttamente dentro tutta la suite (Gmail, Gdocs, etc.). A questa pagina trovate tutte le informazioni .

La disponibilità di queste nuove features sarà ristretta a utenti selezionati, per poi essere ampliata nel corso dell’anno per il rilascio pubblico vero e proprio.

@Microsoft non si è fatta attendere ed ha presentato 365 Copilot per integrare le funzionalità LMM nella suite di Office 365.

@LinkedIn a sua volta ha rilasciato un assistente AI generativo per gli annunci di reclutamento e la scrittura di profili.

Insomma, l’uso dei modelli generativi sembra sempre più destinato a diffondersi, e cercare di comprenderne il funzionamento da “utenti” appare sempre più necessario. Per questo nel prossimo numero vedremo gli IDE per utilizzare i modelli (che dovevamo vedere in questo, ma le novità ci hanno sorpresi).

Infine un prompt da provare questa settimana:

Crea un elenco di 3 idee di avvio nel SaaS B2B aziendale. Le idee di avvio dovrebbero avere una missione forte e avvincente e utilizzare anche Al in qualche modo. Le idee di avvio dovrebbero avere un nome interessante e interessante. Le idee dovrebbero essere abbastanza convincenti in modo che gli investitori siano entusiasti di investire milioni di dollari.

A me ha suggerito queste:

Ecco tre idee di avvio SaaS B2B che soddisfano i criteri richiesti:

Nome dell’idea: “Boostify”

  1. Missione: Aiutare le aziende a migliorare la loro efficienza operativa e a ridurre i costi utilizzando l’AI per identificare aree di miglioramento e suggerire soluzioni ottimali. Boostify utilizza l’apprendimento automatico per analizzare i dati aziendali e fornire raccomandazioni personalizzate ai clienti.

Nome dell’idea: “SustainAI”

  1. Missione: Aiutare le aziende a ridurre la loro impronta di carbonio e adottare pratiche sostenibili utilizzando l’AI per monitorare l’uso di energia e identificare modi per ridurre gli sprechi. SustainAI utilizza la tecnologia di intelligenza artificiale per fornire ai clienti dati accurati e raccomandazioni su come migliorare la loro sostenibilità ambientale.

Nome dell’idea: “TeamGenius”

  1. Missione: Aiutare le aziende a migliorare la produttività e la collaborazione tra i dipendenti utilizzando l’AI per identificare i membri del team con le competenze e le personalità più adatte per un progetto specifico. TeamGenius utilizza l’apprendimento automatico per analizzare le informazioni sui dipendenti e suggerire le migliori combinazioni di squadra per ogni progetto.

👋🏻 Happy Prompting!

TAGGED:
Share This Article