Complessità e intelligenza artificiale

23 Dic 2018

Fino a poco tempo fa, le macchine il grado di sconfiggere i campioni erano almeno abbastanza rispettose da iniziare imparando dall’esperienza umana.
Nel 1997, per battere Garry Kasparov a scacchi, gli ingegneri dell’IBM hanno usato secoli di saggezza degli scacchi nel loro computer Deep Blue. Nel 2016, AlphaGo di Google DeepMind ha battuto il campione Lee Sedol nell’antico gioco da tavolo Go dopo aver esaminato milioni di posizioni di decine di migliaia di partite umane.
Ma ora i ricercatori di intelligenza artificiale stanno ripensando il modo in cui i loro bot integrano la totalità della conoscenza umana. La tendenza attuale è: non disturbarti.

Nell’ottobre 2017, il gruppo di DeepMind ha pubblicato i dettagli di un nuovo sistema per giocare a Go, AlphaGo Zero, che non ha studiato affatto partite umane. Invece, ha iniziato con le regole del gioco e ha giocato contro se stesso. Le prime mosse sono state completamente casuali. Dopo ogni partita, ha acquisito nuove conoscenze su che cosa lo aveva portato a una vittoria e che cosa no. Alla fine di questi allenamenti, AlphaGo Zero si è scontrato con la versione superumana di AlphaGo che aveva sconfitto Lee Sedol. E ha vinto 100 partite a zero.

Il gruppo ora ha creato un altro giocatore esperto della famiglia di AlphaGo, chiamato semplicemente AlphaZero. In un articolo pubblicato su” Science”, i ricercatori di DeepMind hanno rivelato che, dopo aver ricominciato da zero, AlphaZero addestrato ha superato in prestazioni AlphaGo Zero, in altre parole, ha battuto il bot che ha battuto il bot che ha battuto i migliori giocatori di Go nel mondo. E quando gli sono state fornite le regole per gli scacchi o lo shogi, variante giapponese degli scacchi, AlphaZero ha imparato rapidamente a sconfiggere anche gli algoritmi di alto livello nati su misura per quei giochi.

L’anno scorso hanno visto la luce anche bot di autoapprendimento ultraterreno in ambientazioni molto diverse come il poker no-limit e Dota 2, un popolare videogioco on line multiplayer in cui eroi a tema fantasy lottano per il controllo di un mondo alieno.
Ovviamente, le aziende che investono denaro in questi e altri sistemi simili hanno ambizioni più grandi che dominare i tornei di videogiochi. I gruppi di ricerca come DeepMind sperano di applicare metodi simili a problemi del mondo reale, come la costruzione di superconduttori a temperatura ambiente, o la comprensione degli origami necessari per ripiegare le proteine in potenti molecole farmacologiche. E, naturalmente, molti addetti ai lavori sperano di realizzare un’intelligenza artificiale generale, un obiettivo mal definito ma accattivante in cui una macchina potrebbe pensare come una persona, con la versatilità sufficiente per affrontare molti diversi tipi di problemi.

Tuttavia, nonostante gli investimenti su questi sistemi, non è ancora chiaro fino a che punto le tecniche attuali possano andare oltre il tavolo da gioco. “Non sono sicuro che le idee di AlphaZero si possano generalizzare facilmente”, ha detto Pedro Domingos, informatico dell’Università di Washington. “I giochi sono una cosa assai insolita.”

Una caratteristica condivisa da molti giochi, scacchi e Go inclusi, è che i giocatori possono vedere tutti i pezzi su entrambi i versanti in ogni momento. Ogni giocatore ha sempre quella che viene definita “informazione perfetta” sullo stato del gioco. Per quanto diabolicamente complesso diventi il gioco, tutto ciò che occorre fare è pensare in avanti rispetto alla situazione corrente.

Tante situazioni reali non sono così. Immaginiamo di chiedere a un computer di diagnosticare una malattia o condurre una trattativa d’affari. “La maggior parte delle interazioni strategiche del mondo reale coinvolgono informazioni nascoste”, ha detto Noam Brown, studente di dottorato in informatica alla Carnegie Mellon University. “Ho la sensazione che ciò è stato trascurato dalla maggior parte della comunità dell’intelligenza artificiale”.

Il poker, in cui Brown è specializzato, pone una sfida diversa. Non si possono vedere le carte dell’avversario. Ma anche qui le macchine che imparano giocando contro se stesse stanno ora raggiungendo livelli sovrumani. Nel gennaio 2017, un programma chiamato Libratus creato da Brown e dal suo consulente, Tuomas Sandholm, ha battuto quattro giocatori professionisti di poker al Texas Hold ‘em testa a testa, no-limit, finendo 1,7 milioni di dollari davanti ai suoi avversari alla fine di una gara di 20 giorni.

Un gioco ancora più scoraggiante che coinvolge informazioni imperfette è StarCraft II, un altro videogioco on line multiplayer con un vasto seguito. I giocatori scelgono una squadra, costruiscono un esercito e combattono una guerra in un paesaggio di fantascienza. Ma quel paesaggio è avvolto da una nebbia di guerra che consente solo ai giocatori di vedere le aree in cui hanno soldati o edifici. Anche la decisione di andare in ricognizione tra le linee nemiche è piena di incertezze.

Questo è un gioco che l’intelligenza artificiale non può ancora affrontare. Gli ostacoli al successo includono il numero di mosse in una partita, che spesso arrivano a migliaia, e la velocità con cui devono essere fatte. Ogni giocatore – essere umano o macchina – deve preoccuparsi di una vasta serie di possibili futuri con ogni click.
Per ora, un testa a testa con i migliori esseri umani in questa arena è fuori dalla portata dell’intelligenza artificiale. Ma è un obiettivo. Nell’agosto 2017, DeepMind ha stretto una accordo con Blizzard Entertainment, l’azienda che ha realizzato StarCraft II, per fornire gli strumenti che, secondo loro, aiuteranno ad aprire il gioco ai ricercatori di intelligenza artificiale.


Nonostante le sfide, StarCraft II si riduce a un obiettivo che può essere enunciato in modo semplice: elimina il tuo nemico. È qualcosa che condivide con scacchi, Go, poker, Dota 2 e praticamente ogni altro gioco. Nelle partite, si può vincere. Dal punto di vista dell’algoritmo, i problemi devono avere una “funzione obiettivo”, cioè un obiettivo da perseguire. Quando AlphaZero ha giocato a scacchi, non è stato così difficile. Una sconfitta contava come meno uno, un pareggio zero e una vittoria più uno. La funzione obiettivo di AlphaZero era di massimizzare il suo punteggio. La funzione obiettivo di un bot per il poker è altrettanto semplice: vincere un sacco di soldi.

Le situazioni della vita reale non sono così semplici. Per esempio, un’automobile che guida da sola ha bisogno di una funzione obiettivo più sfumata, qualcosa di simile al tipo di frase che useremmo per esprimere un desiderio al genio della lampada. Per esempio: portare tempestivamente il passeggero alla giusta destinazione, rispettare tutte le leggi e valutare adeguatamente il valore della vita umana in situazioni pericolose e incerte. Il modo in cui i ricercatori realizzano la funzione obiettivo, ha affermato Domingos, “è una delle cose che distingue un grande ricercatore di apprendimento automatico dalla media”.

Consideriamo Tay, un chatbot di Twitter rilasciato da Microsoft il 23 marzo 2016. L’obiettivo di Tay era coinvolgere le persone, e così è stato. “Quello che sfortunatamente Tay ha scoperto – ha detto Domingos, – era che il modo migliore per massimizzare il coinvolgimento era pubblicare insulti razzisti.” È stato messo off-line dopo nemmeno un giorno.

Alcune cose non cambiano. I metodi usati dai bot di gioco dominanti oggi usano strategie inventate decenni fa. “È quasi un tuffo nel passato, solo con più calcoli”, ha detto David Duvenaud, informatico dell’Università di Toronto. Le strategie spesso si basano sull’apprendimento per rinforzo, una tecnica basata sul non intervento. Invece di eseguire un algoritmo con istruzioni dettagliate, gli ingegneri lasciano che la macchina esplori un ambiente, in modo che impari a raggiungere gli obiettivi per prove ed errori. Prima del rilascio di AlphaGo e dei suoi eredi, il gruppo di DeepMind ha ottenuto il suo primo grande risultato da prima pagina nel 2013, quando ha usato l’apprendimento per rinforzo per creare un bot che ha imparato a giocare sette giochi Atari 2600, tre dei quali a livello esperto.

Questi progressi sono continuati. Il 5 febbraio scorso, DeepMind ha presentato IMPALA, un sistema di intelligenza artificiale in grado di apprendere 57 giochi Atari 2600, più altri 30 livelli costruiti da DeepMind in tre dimensioni. In questi, il giocatore girovaga attraverso diversi ambienti, raggiungendo obiettivi come sbloccare porte o raccogliere funghi. IMPALA sembra trasferire conoscenza tra i compiti, il che significa che il tempo trascorso a giocare a un gioco aiuta anche a migliorare le prestazioni negli altri.
Ma nella più ampia categoria di apprendimento per rinforzo, giochi da tavolo e giochi multiplayer permettono un approccio ancora più specifico. Qui, l’esplorazione può assumere la forma di gioco solitario, o self-play, in cui un algoritmo acquisisce la supremazia strategica combattendo ripetutamente con la copia di se stesso.

Questa idea risale a decenni fa. Negli anni 50, l’ingegnere dell’IBM Arthur Samuel creò un programma per giocare a dama che imparava in parte facendo scontrare un lato alfa contro un lato beta. E negli anni 90, Gerald Tesauro, anch’egli di IBM, costruì un programma di backgammon che metteva l’algoritmo contro se stesso. Il programma raggiunse livelli di esperti umani, escogitando via via strategie non ortodosse ma efficaci.

Partita dopo partita, l’algoritmo di un sistema self-play affronta un avversario dello stesso livello. Ciò significa che i cambiamenti nella strategia portano a risultati diversi, fornendo un feedback immediato all’algoritmo. “Ogni volta che impari qualcosa, ogni volta che scopri una piccola cosa, il tuo avversario la usa immediatamente contro di te”, ha detto Ilya Sutskever, direttore della ricerca di OpenAI, organizzazione no profit, che ha co-fondato con Elon Musk, dedicata allo sviluppo e alla condivisione della tecnologia dell’intelligenza artificiale con l’obiettivo di arrivare ad applicazioni sicure.

La vecchia idea del self-play è solo un ingrediente dei bot dominanti di oggi, che hanno anche bisogno di un modo per tradurre le loro esperienze di gioco in una comprensione più profonda. Chess, Go e videogiochi come Dota 2 hanno molte più permutazioni di quanti siano gli atomi nell’universo. Anche nel corso di molte vite trascorse a combattere la propria ombra in arene virtuali, una macchina non può affrontare tutti gli scenari, prendere nota in una tabella e consultare quella tabella quando si trova di nuovo la stessa situazione.

Per rimanere a galla in questo mare di possibilità, “è necessario generalizzare, catturare l’essenza”, ha detto Pieter Abbeel, informatico dell’Università della California a Berkeley. Deep Blue di IBM ha fatto questo con la sua formula di scacchi intrinseca. Dotato della capacità di valutare l’efficacia di posizioni sulla scacchiera che non aveva mai visto prima, poteva adottare mosse e strategie per incrementare le sue possibilità di vittoria. Negli ultimi anni, tuttavia, una nuova tecnica ha permesso di oltrepassare del tutto la formula. “Ora, all’improvviso, la ‘rete profonda’ cattura tutto questo”, ha detto Abbeel.

Le reti neurali profonde, o deep neural networks, che hanno accresciuto la loro popolarità negli ultimi anni, sono costruite con strati di “neuroni” artificiali che si sovrappongono come in un pancake. Quando i neuroni in un livello si attivano, inviano segnali allo strato successivo, che li invia allo strato successivo e così via.
Modificando il modo in cui gli strati si connettono, queste reti diventano molto abili nel trasformare gli input in output correlati, anche se la connessione sembra astratta. Date loro una frase in inglese, e potrebbero addestrarsi a tradurla in turco. Date loro foto di un rifugio per animali e potrebbero identificare quali
contengono gatti. Oppure mostrate loro una scacchiera e potrebbero intuire le loro probabilità di vittoria.

In genere, però, è necessario prima dare a queste reti una serie di esempi contrassegnati su cui esercitarsi.
Ecco perché self-play e reti neurali profonde si integrano così bene. Il self-play sforna continuamente raccolte di partite, dando alle reti neurali profonde la serie teoricamente illimitata dei dati di cui hanno bisogno per insegnare a se stesse. A loro volta, le reti neurali profonde offrono un modo per interiorizzare esperienze e schemi incontrati nel self-play.

Ma c’è un problema. Per produrre dati utili, i sistemi self-play hanno bisogno di un luogo realistico in cui giocare.
“Tutti questi giochi, tutti questi risultati, sono emersi in ambienti in cui è possibile simulare perfettamente il mondo”, ha dichiarato Chelsea Finn, studentessa di dottorato di Berkeley che usa l’intelligenza artificiale per controllare bracci robotizzati e interpretare i dati dai sensori. Altri domini non sono così facili da simulare.

Le automobili a guida autonoma, per esempio, hanno difficoltà a gestire il maltempo o i ciclisti. Oppure potrebbero non elaborare le bizzarre possibilità che si presentano nei dati reali, come un uccello che per caso vola direttamente verso la videocamera dell’auto. Per i bracci robotici, ha detto Finn, le simulazioni iniziali forniscono la fisica di base, permettendo al braccio almeno di imparare in che modo apprendere. Ma non riescono a catturare i dettagli che riguardano il contatto con le superfici, il che significa che compiti come avvitare un tappo di bottiglia o condurre una complessa procedura chirurgica richiedono anche un’esperienza del mondo reale.

“C’è un’enorme differenza tra un vero modello perfetto dell’ambiente e uno valutato e appreso, soprattutto quando questa realtà è complessa”, ha scritto Yoshua Bengio, pioniere del deep learning all’Università di Montreal. Ma ciò lascia ancora ai ricercatori della intelligenza artificiale alcune strade per andare avanti.

È difficile individuare l’alba della supremazia dell’intelligenza artificiale nei giochi. Si potrebbe scegliere la sconfitta di Kasparov negli scacchi, o la disfatta di Lee Sedol per mano virtuale di AlphaGo. Un’altra opzione popolare sarebbe il momento in cui il leggendario campione di Jeopardy! (quiz televisivo statunitense, in cui i concorrenti si sfidano sulla cultura generale sulla base di indizi) Ken Jennings è stato sconfitto da Watson dell’IBM nel 2011. Watson poteva analizzare gli indizi del gioco e gestire i giochi di parole. L’incontro, durato due giorni, non era equilibrato. “Io per primo do il benvenuto ai nostri nuovi padroni computerizzati”, ha scritto Jennings sotto la sua risposta finale.

Watson sembrava dotato del tipo di abilità che gli esseri umani usano in una serie di problemi del mondo reale. Poteva prendere un suggerimento in inglese, frugare tra i documenti pertinenti alla velocità della luce, trovare i frammenti di informazioni attinenti e fornire una singola migliore risposta. Ma sette anni dopo, il mondo reale continua a presentare sfide ostinatamente ardue per l’intelligenza artificiale. Un rapporto pubblicato a settembre dalla rivista sanitaria “Stat” ha rilevato che la ricerca e la progettazione di trattamenti personalizzati per il cancro, cercati da Watson for Oncology, erede di Watson, si stanno dimostrando difficili.

“Le domande in Jeopardy! sono più facili, nel senso che non hanno bisogno di molto senso comune”, ha scritto Bengio, che ha collaborato con il gruppo di Watson, quando gli è stato chiesto di confrontare i due casi dal punto di vista dell’intelligenza artificiale. “Capire un articolo di medicina è molto più difficile. Sono necessarie ancora molte ricerche di base”.

I ricercatori di DeepMind ha suggerito che le tecniche di AlphaZero potrebbero presto aiutare i ricercatori in campo biomedico che vorrebbero comprendere il ripiegamento delle proteine. Per fare questo, hanno bisogno di capire come i vari amminoacidi che formano una proteina si ripiegano in una piccola macchina tridimensionale con una funzione che dipende dalla sua forma. Ciò è complicato quanto lo sono gli scacchi: i chimici conoscono abbastanza bene le regole per calcolare scenari specifici, ma ci sono ancora così tante configurazioni possibili, che cercare tra di esse è un compito senza speranza. Ma che cosa succederebbe se il ripiegamento delle proteine potesse essere configurato come un gioco?

In realtà, è già stato fatto. Dal 2008, centinaia di migliaia di giocatori umani si sono cimentati con Foldit, un gioco on line in cui gli utenti ricevono un punteggio in base alla stabilità e alla fattibilità delle strutture proteiche che ripiegano. Una macchina potrebbe allenarsi in modo simile, forse cercando di battere il suo precedente punteggio migliore con l’apprendimento generale per rinforzo.

Anche apprendimento per rinforzo e self-play potrebbero aiutare ad addestrare sistemi di dialogo, suggerisce Sutskever. Ciò darebbe ai bot che hanno intenzione di parlare agli esseri umani la possibilità di addestrarsi parlando a se stessi. E considerando che l’hardware specializzato per l’intelligenza artificiale sta diventando più veloce e più disponibile, gli ingegneri avranno un incentivo a mettere sempre più problemi in forma di giochi. “Penso che in futuro il self-play e altri modi di consumare una grande quantità di potenza di calcolo diventeranno sempre più importanti”, ha affermato Sutskever.

Ma se l’obiettivo finale è che le macchine possano fare ciò che fanno gli esseri umani, anche per un campione di gioco da tavolo generalista autodidatta come AlphaZero si apre una strada. “Secondo me, è necessario vedere che cosa è realmente un grande divario tra le attività reali del pensiero, l’esplorazione creativa delle idee e quello che attualmente vediamo nell’IA”, ha detto Josh Tenenbaum, scienziato cognitivo del Massachusetts Institute of Technology. “Quel tipo di intelligenza è lì, ma rimane per lo più nella mente dei grandi ricercatori di intelligenza artificiale”.

“Molti altri ricercatori, consapevoli del clamore che circonda il loro campo, mettono a disposizione le proprie competenze. “Farei attenzione a non sopravvalutare il significato di giocare a questi giochi, per l’intelligenza artificiale o per i lavori in generale. Gli esseri umani non sono molto bravi nei giochi”, ha detto François Chollet, che si occupa di ricerca nel campo del deep-learning per Google. “Ma occorre tenere presente che strumenti molto semplici e specializzati possono effettivamente ottenere molto”, ha affermato.

Liberamente tratto da LeScienze.it, del 15 dicembre 2018
 

Immagini