Durante il recente Google I/O è stata presentata una funzionalità del prossimo assistente vocale di Google che ha lasciato tutti a bocca aperta: potrà fare delle telefonate per noi, proprio come se fosse un assistente in carne e ossa. È l’inizio di una nuova era degli assistenti vocali?

Siri, Cortana e l’assistente vocale di Google hanno fatto la loro comparsa da diverso tempo, ma quanti di noi li usano regolarmente come metodo di interazione primario con lo smartphone?

Assistenti reali o giocattoli?

La mia indagine interna ha dato risultati piuttosto deludenti: sembra che gli assistenti vocali entrino in gioco solo come alternativa all’interazione classica, quando proprio non possiamo fare diversamente, per esempio perché abbiamo le mani occupate o perché siamo alla guida.

Questa difficoltà degli assistenti vocali nasce a mio avviso da due ragioni.

La prima è la difficoltà umana nel parlare con il telefono: mi capita di usare l’assistente vocale per effettuare una chiamata o per impostare un promemoria, ma lo faccio con un certo imbarazzo se c’è qualcuno che mi può sentire, non mi sento a mio agio e mi sento vagamente strano.

Parlare con un dispositivo non è una attività naturale perché rispetto a una chiacchierata con una persona reale non c’è nessun tipo di empatia e mentre parliamo sappiamo perfettamente che dall’altra parte non c’è qualcuno che deve cogliere un messaggio, ma uno strumento a cui impartire un comando.

La seconda difficoltà è inversamente proporzionale alla qualità dell’assistente. Se non funziona perfettamente e si fa prima procedendo all’antica l’assistente viene percepito come un giocattolino e non viene preso sul serio.

Google Duplex

Qualche giorno fa però durante una pausa caffè in ufficio mi hanno fatto sentire una telefonata in cui un’assistente prendeva un appuntamento per un taglio di capelli: ebbene, non era onestamente possibile capire che questo assistente non era reale, ma era una intelligenza artificiale.

Riporto qui la trascrizione/traduzione di quella a mio avviso più significativa, avvenuta tra l’assistente e un ristorante (indicati con AI e R)

(squillo del telefono)

R: Ciao, come posso aiutarti?
AI: Ciao, vorrei prenotare un tavolo per mercoledì 7.
R: Per… 7 persone?
AI: Hmm… è per 4 persone.
R: 4 persone, quando… oggi?
AI: Il prossimo mercoledì alle 18.
R: Ok, accettiamo prenotazioni a partire da 5 persone, per 4 persone potete venire.
AI: Qual è l’attesa di solito per potersi sedere?
R: Quando, domani? nel weekend? o…
AI: Mercoledì prossimo, hmm, il 7.
R: Oh no, non è molto affollato, potete venire direttamente per 4 persone, ok?
AI: Oh, ho capito, grazie!

Ci sono diversi aspetti tecnici davvero notevoli in questa conversazione.

Il più evidente è la naturalezza della voce, con pause e intonazione assolutamente realistiche e con dei brevi intermezzi che in effetti comunicano moltissimo all’interlocutore andando ben oltre la fredda comunicazione di un concetto.

Poi c’è la capacità di capire cosa viene detto dall’altra parte del telefono da una persona che non sembra essere madrelingua e con un sottofondo rumoroso. Anche in questo caso le difficoltà tecniche sono importanti e la differenza con i sistemi attuali è evidente: mi capita spesso di non essere capito da Siri anche parlando piuttosto chiaramente e nel silenzio più totale.

Altro aspetto notevole è la capacità di gestire una conversazione che non va sempre per il verso giusto. La ragazza del ristorante all’inizio prende fischi per fiaschi diverse volte, ma l’assistente riesce a gestire con disinvoltura la situazione rispondendo anche con un tono di voce adeguato.

Ma la cosa che ritengo fenomenale è il risultato finale della telefonata. Alla fine il tavolo non è stato prenotato perché non era possibile, ma il risultato è evidentemente positivo e l’assistente vocale lo ha compreso e ha considerato completata la missione.

È un importante passo avanti nella comprensione dell’obiettivo, che non era prenotare un tavolo, ma andare a cenare nel ristorante.

I pro e i contro degli assistenti vocali intelligenti

Dopo il primo entusiasmo però nascono naturalmente le domande, soprattutto etiche: è giusto che una intelligenza artificiale ci parli senza dirci che è una intelligenza artificiale?

Secondo me no, mai e in nessun caso.

Google ha già risposto a questa domanda dicendo che l’assistente vocale si presenterà per quello che è, ma in futuro ci saranno altri player che potrebbero anche essere un po’ meno attenti all’etica.

La prenotazione di un tavolo al ristorante non presenta grossi problemi, credo che nessun ristoratore avrà problemi a ricevere telefonate da intelligenze artificiali (anzi, probabilmente saranno più educate di tanti esseri umani).

Ci sono sicuramente situazioni più delicate, in cui sapere se dall’altra parte del telefono c’è una persona reale o meno potrebbe essere più importante, casi in cui sulla persona che ci sta parlando facciamo affidamento e in cui cerchiamo proprio l’umanità.

Esistono già bot che si occupano per esempio di salute mentale, ed è una gran bella cosa. Se in futuro questi bot si trasformeranno in servizi vocali sarà secondo me importante che l’utente sappia sempre chi c’è (o non c’è) dall’altra parte del telefono.

Credo che un’intelligenza artificiale sarebbe estremamente brava a vendere telefonicamente, perfezionando parole e tono di voce in modo da essere sempre più convincente.

Allo stesso modo potrebbe essere bravissima anche a truffare, a perseguitare, a plagiare, a influenzare il voto…

Per fortuna ci saranno anche applicazioni della tecnologia estremamente positive. L’accessibilità dei dispositivi potrebbe per esempio fare un salto in avanti di decenni: pensate cosa potrebbe significare per un ipovedente potersi affidare completamente all’assistente vocale per l’uso del suo dispositivo.

Da un grande potere deriva una grande responsabilità. Saremo in grado di assumerci questa responsabilità e di usare sempre la tecnologia nel modo corretto?

Se vi interessano alcuni aspetti più tecnici sul sistema vi rimando all’articolo di Google sull’argomento.