Dall'Abstract del recente paper pubblicato su Arxiv col titolo significativo SciCode: A Research Coding Benchmark Curated by Scientists, si legge testualmente che:

Poiché i Large Language Model (LLM) ora superano (sic!) gli esseri umani medi in molti compiti impegnativi, è diventato sempre più difficile sviluppare valutazioni impegnative, di alta qualità e realistiche.

Affrontiamo questo problema esaminando le capacità degli LLM di generare codice per risolvere problemi di ricerca scientifica reali (sic!)

Incorporando il contributo di scienziati e ricercatori di artificial intelligence in 16 diversi sottocampi di scienze naturali, tra cui matematica, fisica, chimica, biologia e scienza dei materiali, abbiamo creato un benchmark di codifica curato da scienziati, SciCode.

I problemi in SciCode si scompongono naturalmente in più sottoproblemi, ognuno dei quali coinvolge il richiamo della conoscenza, il ragionamento e la sintesi del codice. (sic!)

In totale, SciCode contiene 338 sottoproblemi scomposti da 80 problemi principali impegnativi.

Esso offre descrizioni opzionali che specificano utili informazioni di base scientifiche e soluzioni “gold standard” annotate da scienziati e casi di test per la valutazione.

Claude3.5-Sonnet, il modello più performante tra quelli testati, può risolvere solo il 4,6% dei problemi nell’impostazione più realistica.

Riteniamo che SciCode dimostri i progressi compiuti dagli LLM contemporanei nel diventare utili assistenti scientifici e faccia luce sullo sviluppo e la valutazione dell’intelligenza artificiale scientifica in futuro.

Dalla fantascienza alla Realtà

Alla resa dei conti, SciCode non si basa sul metodo scientifico, e ciò che intende testare in realtà non è se gli LLM "risolvono" concretamente i problemi ad essi sottoposti, ma semplicemente se l'output testuale ottenuto dall'esecuzione di un determinato prompt coincide con la risposta prevista, che si assume essere "corretta".

L'interpretazione stessa di ogni "score" dà inoltre per scontato e assodato (cosa che al contrario andrebbe dimostrato) che gli LLM siano capaci di risolvere i problemi allo stesso modo degli umani, quando è invece noto che l'unica cosa che gli LLM sono in grado di fare per design è quello di generare un output unicamente sulla base del rilevamento di pattern all'interno di dati di addestramento.

Poichè esisteno molteplici ragioni alternative che conducono alla produzione del risultato "previsto" (e considerato come "corretto"), ricondurre tale esito alla supposta capacità degli LLM di individuare la soluzione dei problemi non è altro che l'ennesimo esempio di pareidolia che è agli antipodi dell'autentico metodo scientifico.