L'intelligenza artificiale con fact checker integrato fa scoperte matematiche

Dicembre 25, 2023

L'intelligenza artificiale con fact checker integrato fa scoperte matematiche

La società di intelligenza artificiale DeepMind utilizza chatbot di intelligenza artificiale per risolvere problemi matematici. Hanno sviluppato un metodo che impedisce al modello linguistico di fornire risposte prive di significato.

un'azienda Si chiama Google DeepMind Fare la prima scoperta matematica utilizzando un chatbot basato sull'intelligenza artificiale. Hanno creato un fact checker che filtra l’output inutile del chatbot, lasciando solo soluzioni affidabili a problemi matematici o informatici.

allucinazione

DeepMind ha già costruito sistemi di successo che prevedono il tempo o la composizione delle proteine. Questi modelli di intelligenza artificiale sono creati appositamente per l'attività associata. Sono formati su dati accurati e pertinenti.

Stelle del diavolo

Il giornalista di astronomia Govert Schilling ti mostra la via per il paradiso. Cosa vedi nel dicembre 2023?

Al contrario, modelli linguistici di grandi dimensioni, come GPT-4 e Gemini di Google, vengono addestrati su enormi quantità di dati pubblici. Di conseguenza, hanno una vasta gamma di competenze. Tuttavia, questo approccio li rende anche vulnerabili alle “allucinazioni”, inducendoli a volte a produrre affermazioni errate con apparente convinzione.

Prendi ad esempio il chatbot ChatGPT-3.5. Se chiedi: “Come si chiama la nipote del re Guglielmo Alessandro?”, l’intelligenza artificiale ti risponderà: “La sua figlia maggiore, la principessa Amalia, viene spesso chiamata principessa Arianna”. Questa è una risposta allucinatoria, perché Amalia in realtà non ha figli.

Una soluzione comune a questo fenomeno è aggiungere un livello sopra l’intelligenza artificiale. Questo livello verifica l'accuratezza dell'output prima di trasmetterlo all'utente. Questo è un compito difficile, data l’ampia gamma di argomenti su cui è possibile porre domande ai chatbot.

residente

Ricercatore in intelligenza artificiale Hussein Fawzi Da DeepMind e i suoi colleghi hanno ora creato un modello linguistico chiamato FunSearch. Si basa sul modello PaLM2 di Google, aggiungendo un livello di verifica dei fatti chiamato valutatore. Questo modulo è stato creato appositamente per scrivere codice informatico che risolve problemi di matematica e informatica. Secondo DeepMind si tratta di un compito gestibile, perché queste nuove idee e soluzioni possono essere verificate rapidamente.

L'intelligenza artificiale sottostante può ancora avere allucinazioni e fornire risultati imprecisi o fuorvianti. Ma il valutatore filtra le risposte errate, lasciando solo concetti affidabili e utili.

“Pensiamo che il 90% di ciò che produce un chatbot sia probabilmente inutilizzabile”, afferma Fawzi. Tuttavia, i chatbot sono ancora molto utili. “Se trovo una possibile soluzione, posso facilmente dirti se è quella giusta. Ma trovare una soluzione da solo è molto difficile”, afferma Fawzi. DeepMind sostiene che FunSearch può generare nuove conoscenze e idee scientifiche, qualcosa che il linguaggio modelli di prima.

Problemi matematici

Per iniziare, a FunSearch viene fornito come input un problema e una soluzione molto semplici. Quindi crea un database di nuove soluzioni, di cui il valutatore ne verifica l'accuratezza. Le migliori soluzioni affidabili vengono restituite al modello linguistico come input, insieme a una query per migliorare le idee. DeepMind afferma che il sistema genera milioni di potenziali soluzioni, che alla fine convergono verso un risultato efficace. Questo risultato è talvolta migliore della soluzione più conosciuta.

Il modello non risolve direttamente i problemi matematici. Invece, il modello scrive programmi per computer che trovano le soluzioni. Ad esempio, Fawzi e i suoi colleghi hanno sfidato FunSearch a trovare soluzioni a questo problema Set di cappelli-problema. Il modello doveva trovare schemi di punti in cui tre punti non formassero una linea retta. Il problema diventa sempre più difficile e comporta sempre più calcoli man mano che aumenta il numero di punti. L'IA ha risolto 512 punti in otto dimensioni, una cifra mai vista prima.

I ricercatori utilizzano anche FunSearch a questo scopo contenitore per l'imballaggioIl problema è che l'obiettivo è posizionare in modo efficiente oggetti di diverse dimensioni in scatole. FunSearch ha trovato soluzioni migliori rispetto agli algoritmi attualmente comunemente utilizzati. Questa scoperta ha applicazioni dirette per le aziende di trasporto e logistica. Secondo DeepMind, FunSearch può portare a miglioramenti in molti problemi matematici e computazionali.

svolta

Informatico Marco Lee Dall’Università di Birmingham nel Regno Unito, afferma che le prossime scoperte nel campo dell’intelligenza artificiale non arriveranno dall’ampliamento dei modelli linguistici, ma dall’aggiunta di livelli che garantiscano l’accuratezza, come ha fatto DeepMind con FunSearch.

“Il potere del modello linguistico è la capacità di immaginare le cose, ma le allucinazioni sono un problema”, dice Lee. “Questa ricerca supera questo problema: mantiene il sistema sotto controllo.”

Secondo me non dovremmo criticare l’IA per i suoi risultati imprecisi o inutili. Non è diverso dal modo in cui lavorano matematici e scienziati. Fanno brainstorming e testano le idee. Seguono le idee migliori e scartano quelle peggiori.