AI sempre più operativa: Perplexity porta gli agenti su Mac e OpenAI spinge la voce nel tempo reale con nuovi modelli audio

Perplexity porta gli agenti AI direttamente su Mac per automatizzare attività sui file e sulle app locali, mentre OpenAI spinge la voce in tempo reale con nuovi modelli che permettono conversazioni, traduzioni e trascrizioni sempre più naturali e operative.

Software e App

di Fabrizio Ferrara

08 Mag 2026 / 11:40

Facebook

L’evoluzione dell’intelligenza artificiale sta entrando in una fase in cui non si limita più a rispondere, ma agisce. Due novità recenti lo dimostrano con chiarezza: da un lato Perplexity AI porta il concetto di “computer personale intelligente” direttamente su macOS, dall’altro OpenAI alza l’asticella delle interazioni vocali con una nuova generazione di modelli audio progettati per il tempo reale. In entrambi i casi, l’obiettivo è lo stesso: trasformare l’AI in uno strumento operativo continuo, integrato nel lavoro quotidiano.

Con il nuovo Perplexity Mac app, la società introduce infatti il concetto di Personal Computer, un’evoluzione del suo sistema di agenti AI che esce dal cloud puro per arrivare direttamente sui dispositivi degli utenti. L’idea è semplice quanto ambiziosa: portare l’intelligenza artificiale dove avviene realmente il lavoro, cioè sul computer personale. Il sistema è in grado di operare contemporaneamente su file locali, applicazioni native di macOS, navigazione web tramite il browser Comet e infrastrutture cloud di Perplexity, che includono centinaia di connessioni a servizi esterni. L’elemento chiave è la continuità: gli agenti non rispondono soltanto a singole richieste, ma possono rimanere attivi e coordinati nel tempo, gestendo attività complesse senza intervento costante dell’utente.

Questo cambia profondamente il paradigma tradizionale dell’assistente AI. Non si parla più di “domande e risposte”, ma di flussi di lavoro automatizzati: documenti da analizzare, report da generare, file da confrontare e progetti da organizzare diventano attività orchestrate da più agenti in parallelo. Il tutto mantenendo un sistema di approvazione umano per le operazioni sensibili, così da non perdere il controllo sulle decisioni. Il risultato è un ambiente in cui il computer non è più solo uno strumento passivo, ma una struttura operativa che lavora in background. Anche la scelta di integrarsi con macOS rafforza questa visione: l’ecosistema Apple diventa la base fisica di un sistema AI che può essere avviato su iPhone, eseguito su Mac e monitorato in modo distribuito.

Sul fronte OpenAI, invece, la direzione è quella della voce come interfaccia primaria. Con i nuovi modelli GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, l’azienda punta a trasformare la comunicazione vocale in un ambiente computazionale completo, dove parlato, comprensione, traduzione e azione avvengono simultaneamente. Il modello GPT-Realtime-2 rappresenta il cuore del sistema: una versione ottimizzata per la conversazione live che integra capacità di ragionamento avanzato e utilizzo di strumenti esterni durante il dialogo.

Questo significa che l’AI non si limita a rispondere, ma può consultare dati, eseguire operazioni e mantenere il contesto attivo mentre la conversazione prosegue senza interruzioni. Accanto a questo, GPT-Realtime-Translate introduce una traduzione vocale immediata in oltre settanta lingue in ingresso, con output in tredici lingue. L’obiettivo è eliminare la barriera linguistica in tempo reale, mantenendo tono e fluidità della conversazione anche in condizioni complesse, come accenti o cambi di contesto improvvisi. Infine GPT-Realtime-Whisper si concentra sulla trascrizione continua, trasformando la voce in testo con latenza minima. Questo abilita scenari come sottotitoli live, riassunti automatici di riunioni e supporto immediato in ambienti professionali. La direzione è evidente: la voce non è più solo un input, ma diventa un canale operativo completo, capace di attivare azioni, tradurre contenuti e generare output in tempo reale. OpenAI sta così spingendo verso un modello in cui parlare con un sistema digitale equivale a lavorare con esso.

Continua a leggere su Fidelity News