Devin, Codex e OpenHands: l’AI può sostituire i programmatori?

L’intelligenza artificiale (AI) sta cambiando il modo in cui il software viene sviluppato, e l’introduzione di Codex da parte di OpenAI segna un passo significativo verso un futuro di codifica autonoma.

Annunciato lo scorso venerdì, Codex è un sistema progettato per eseguire compiti di programmazione complessi a partire da comandi in linguaggio naturale, portando OpenAI in una nuova categoria di strumenti definiti agentic coding tools.

Questi strumenti, tra cui Devin, SWE-Agent e OpenHands, mirano a operare come veri e propri manager di team di sviluppo, assegnando compiti e risolvendo problemi senza richiedere l’intervento diretto degli sviluppatori. Ma quali sono le promesse e le sfide di questa rivoluzione tecnologica?

Da Copilot a Codex: l’evoluzione degli assistenti di codice

Negli ultimi anni, strumenti come GitHub Copilot hanno trasformato il lavoro degli sviluppatori, offrendo un’autocompletamento intelligente che suggerisce frammenti di codice in tempo reale all’interno degli ambienti di sviluppo integrati (IDE). Tuttavia, questi strumenti richiedono ancora un’interazione diretta con il codice generato. “In principio, le persone scrivevano codice premendo ogni singolo tasto”, spiega Kilian Lieret, ricercatore a Princeton e membro del team di SWE-Agent. “GitHub Copilot è stato il primo prodotto a offrire un vero autocompletamento, una sorta di seconda fase. Sei ancora completamente coinvolto, ma a volte puoi prendere una scorciatoia”.

Con l’avvento degli agentic coding tools, l’obiettivo è più ambizioso: spostare la programmazione dal livello operativo a quello gestionale. Questi sistemi, come Codex, sono progettati per ricevere un compito – ad esempio, correggere un bug o sviluppare una funzionalità – e risolverlo autonomamente, senza che l’utente debba mai vedere il codice. “Noi riportiamo tutto al livello della gestione, dove assegno un bug report e il bot cerca di risolverlo in modo completamente autonomo”, aggiunge Lieret.

Come funzionano gli strumenti di codifica autonoma

Gli agentic coding tools rappresentano un’evoluzione rispetto agli assistenti tradizionali come Copilot, Cursor o Windsurf. Invece di suggerire codice riga per riga, questi strumenti operano come un manager virtuale, integrandosi con sistemi di gestione aziendale come Asana o Slack. Un sviluppatore può assegnare un compito, come la risoluzione di un problema segnalato in un repository GitHub, e il sistema lavora in autonomia per produrre una soluzione completa, restituendo il risultato una volta completato.

Tra i principali attori di questa nuova categoria troviamo:  

  • Codex di OpenAI, capace di tradurre comandi in linguaggio naturale in codice eseguibile.  
  • Devin, sviluppato da Cognition AI, che ha attirato l’attenzione con una raccolta fondi da centinaia di milioni di dollari a una valutazione di 4 miliardi di dollari a marzo 2025.  
  • OpenHands, gestito da All Hands AI, che attualmente domina la classifica verificata di SWE-Bench con un tasso di risoluzione del 65,8%.  
  • SWE-Agent, un progetto accademico che punta a migliorare l’autonomia degli agenti di codifica.

Questi strumenti promettono di ridurre drasticamente il carico di lavoro manuale, ma il loro successo dipende dalla capacità di operare in modo affidabile senza supervisione umana.

Le sfide dell’autonomia: errori e allucinazioni

Nonostante le promesse, gli agentic coding tools affrontano ostacoli significativi. Il lancio di Devin alla fine del 2024 è stato accolto con critiche, sia da commentatori su YouTube che da clienti come Answer.AI, che hanno evidenziato un problema comune: gli errori generati da questi sistemi richiedono spesso un intervento. “Con così tanti errori, supervisionare i modelli richiede tanto lavoro quanto fare il compito manualmente”, è stato il commento ricorrente tra gli esperti di codifica assistita dall’AI, nota anche come vibe-coding.

Un altro problema critico è rappresentato dalle allucinazioni, ovvero risposte errate o inventate generate dai modelli AI. Robert Brennan, CEO di All Hands AI, racconta un episodio in cui OpenHands ha fabbricato dettagli su un’API inesistente, rilasciata dopo il cutoff dei dati di addestramento del modello. “Ho visto diverse persone mettersi nei guai approvando automaticamente ogni frammento di codice generato dall’agente. La situazione sfugge di mano rapidamente”, avverte Brennan. All Hands AI sta sviluppando sistemi per intercettare queste allucinazioni, ma una soluzione definitiva rimane complessa.

SWE-Bench: misurare il progresso

Un punto di riferimento per valutare le prestazioni degli agentic coding tools è la classifica SWE-Bench, che testa i modelli su una serie di problemi reali estratti da repository GitHub aperti. OpenHands guida la classifica verificata con un tasso di risoluzione del 65,8%, mentre OpenAI sostiene che il modello codex-1, alla base di Codex, raggiunge un impressionante 72,1%, anche se questo risultato non è stato ancora verificato indipendentemente e presenta alcune limitazioni.

Il ruolo della supervisione umana

Gli esperti concordano sul fatto che, per il prossimo futuro, gli agentic coding tools non potranno operare senza il controllo umano. “Al momento, e direi per il futuro prevedibile, un essere umano deve intervenire al momento della revisione del codice per esaminare ciò che è stato scritto”, sottolinea Brennan. La supervisione è essenziale per garantire che il codice generato sia corretto, sicuro e in linea con le esigenze del progetto.

Nonostante queste limitazioni, i sostenitori della tecnologia vedono un enorme potenziale. “C’è una sorta di effetto barriera del suono”, spiega Brennan. “La questione è: quanta fiducia puoi trasferire agli agenti, in modo che riducano davvero il tuo carico di lavoro alla fine della giornata?”. Miglioramenti costanti nei modelli di base, come quelli che alimentano Codex e Devin, potrebbero avvicinare questi strumenti a un’autonomia più completa.

Verso un futuro di codifica autonoma

L’obiettivo a lungo termine degli agentic coding tools è trasformare il processo di sviluppo software, rendendolo più veloce ed efficiente. Per le aziende, ciò potrebbe significare una riduzione dei costi e dei tempi di sviluppo, mentre per i programmatori potrebbe tradursi in un focus su compiti più creativi e strategici. Tuttavia, il successo di questa rivoluzione dipenderà dalla capacità di affrontare le attuali limitazioni, come le allucinazioni e gli errori nei sistemi complessi.

Con il continuo miglioramento dei modelli AI e l’integrazione di sistemi di controllo qualità più avanzati, strumenti come Codex, Devin e OpenHands potrebbero presto diventare partner indispensabili per gli sviluppatori. Per ora, però, la loro promessa di autonomia totale rimane un traguardo ambizioso ma non ancora raggiunto.