Presente i chatbot? Quegli assistenti virtuali sempre più partecipi (ed importanti) nella nostra quotidianità. Qui ti suggeriamo 14 dataset per chatbot, che puoi esplorare e sperimentare, per far crescere il tuo business.
Sei al tuo computer, online, dentro il sito di un prodotto che ti interessa, e una finestra si apre chiedendoti se hai bisogno di aiuto. Ecco l’esempio più lampante, semplice, quotidiano, di cos’è un chatbot – un assistente online virtuale, praticamente.
Un chatbot è un software in grado di simulare le interazioni tra esseri umani, scritte o parlate. È come se un utente stesse comunicando con una persona in carne ed ossa, ma in realtà, l’interlocutore che risponde è un dispositivo digitale, basato sull’intelligenza artificiale.
I chatbot possono essere di vario tipo:
- semplici, in grado di rispondere a una semplice domanda, o query, con una singola riga;
- capaci di apprendere ed evolversi grazie alle informazioni raccolte, fornendo quindi all’utente un livello maggiore di personalizzazione.
Maggiore è il livello di precisione che vogliamo ottenere, maggiore sarà la necessità di fare un “training” al nostro chatbot per insegnargli le cose da dire. Come a scuola, semplice.
Cosa serve per avere un chatbot efficiente
Di chatbot ce ne sono di vario tipo. Ma di chatbot efficienti, ne abbiamo?
Di grande importanza, è che gli assistenti virtuali sappiano costruire, nelle loro interazioni con gli utenti online, degli scambi comunicativi che suonino del tutto naturali. Come se a parlare tra loro fossero due persone reali.
Per avere a disposizione chatbot sempre più performanti, è necessario, per prima cosa, redigere dati conversazionali realistici e focalizzati sugli obiettivi che ci poniamo (come azienda, per esempio), in modo da “addestrare” il chatbot con successo. In mancanza di tali dati, il chatbot non sarà in grado di risolvere con prontezza le richieste degli utenti, o rispondere alle loro domande senza bisogno di intervento umano.
I migliori dataset per creare chatbot efficienti
Vi suggeriamo una lista dei dataset usati con più frequenza e con i migliori risultati, perfetti per chiunque voglia “addestrare” un chatbot pre-esistente. Questi dataset, ve li proponiamo per categorie: dataset domanda-risposta; dataset per il supporto al cliente; dataset conversazionali; dataset per addestrare chatbot multilingue.
Dataset Domanda-Risposta
WikiQA Corpus: disponibile al pubblico dal 2015, è stato aggiornato più volte. Contiene diversi set di domande e coppie di frasi, raccolte e annotate per la ricerca a partire da risposte a domande aperte.
Question-Answer Database: sviluppato, in origine, per fini di ricerca accademica, contiene post da Wikipedia e domande-tipo, generate manualmente, prese da questi post. Comprende anche le risposte, sempre create manualmente, alle domande ricavate dai post sopracitati.
Yahoo Language Data: contiene dataset domanda-risposta, generati manualmente, a partire dalle risposte di Yahoo Answers.
TREC QA Collection: disponibile dal 1999, è costruito sulle tracce di risposta. All’interno di ogni traccia, i sistemi definiscono il task per recuperare frammenti di testo che contengono risposte a domande aperte o chiuse.
Dataset per il supporto al cliente
Relational Strategies in Customer Service Dataset: contiene dati di interazioni tra umani e computer, ricavati da 3 operatori di Customer Service, impiegati nel settore viaggi e telecomunicazioni. Contiene anche dati da forum di compagnie aeree, apparsi su TripAdvisor.com.
Ubuntu Dialogue Corpus: contiene quasi un milione di conversazioni (e 100.000.000 parole!) tra due persone, ricavate dai registri delle chat di Ubuntu. Customer Support on Twitter: 3 milioni di tweet che appartengono ai maggiori brand presenti su Twitter.
Dataset Conversazionali
Santa Barbara Corpus of Spoken American English: formato da più o meno 249.000 parole, contiene le trascrizioni, gli audio, e perfino i marcatori temporali che di fatto correlano le trascrizioni con gli audio ad ogni livello di singola unità intonativa.
Semantic Web Interest Group IRC Chat Logs: è un registro di chat IRC (Internet Relay Chat) generato in modo automatico, che contiene archivi di chat quotidiane con i corrispondenti marcatori temporali.
Multi-Domain Wizard-of-Oz dataset (MultiWOZ): un corpus di conversazioni su larga scala, con 8.438 dialoghi su più turni di parola (ogni dialogo contiene di media 14 turni). È unico rispetto ad altri dataset per chatbot, poiché contiene meno di 10 slot e solo un centinaio di valori. Copre una moltitudine di settori, tra cui ristorazione, accoglienza e attrazioni, trasporti pubblici.
NPS Chat Corpus: contiene 10.567 post, ricavati da 500.000 post di vari servizi di chat online. Creato innanzitutto per usi non commerciali ma educativi, non-profit e di ricerca. Ogni parte di testo è soggetta a copyright nei confronti degli autori originari.
ConvAI2 Dataset: contiene oltre 2.000 dialoghi di persone valutatrici assunte da piattaforme crowdsourcing per chattare con i bot.
Cornell Movie-Dialogs Corpus: contiene un’ampia raccolta di conversazioni fittizie estratte da bozze di sceneggiature cinematografiche, oltre 220.000 conversazioni tra oltre 10.000 coppie di personaggi di film. Coinvolge oltre 9.000 personaggi su 617 film, per un totale di 304.713 battute.
Dataset per addestrare chatbot multilingue
della mancata soddisfazione verso una certa azienda o un certo prodotto. Sono disponibili sia in italiano che in inglese.
NUS Corpus: un corpus di SMS, creato per scopi di ricerca dal Department of Computer Science alla National University of Singapore. Contiene 67.093 SMS di volontari che hanno accettato di rendere pubblici i loro messaggi.
Con questi dati a disposizione, adesso hai tutto il necessario per iniziare ad allenare i tuoi chatbot e testare i risultati straordinari che si possono avere, raffinando l’addestramento con i dati, e testando i risultati nel tempo.
Come alternativa, il nostro sistema AiKnowYou è in grado di allenarsi direttamente con i tuoi dati aziendali ed essere operativo in meno di 48 ore. Il che vuol dire: efficienza e rapidità. Due parole che non sono poi così male, vero?
Per renderti conto ancora meglio di come raggiungere efficienza e rapidità con il nostro sistema, puoi fissare una demo dimostrativa, tramite il nostro sito. Ci si vede lì!