Tra business e ricerca: i nostri ragazzi si lasciano guidare dalla curiosità, dalla necessità di scoprire e sperimentare nuovi approccio o soluzioni. É la dimostrazione della nostra continua crescita professionale. Vogliamo garantire un prodotto eccellente capace di soddisfare le esigenze delle aziende.

Il riconoscimento della ricerca

Sulla rivista scientifica Information indicizzata scopus è stato pubblicato l’articolo Two New Datasets for Italian-Language Abstractive Text Summarization. Viene proposto un approccio per portare la possibilità di fare riassunti di un testo tramite intelligenza artificiale in italiano. 

Cos’è la Text Summarization?

La Text Summarization è un task di Machine Learning che consiste nel creare un riassunto dato un testo di input. In passato questo task veniva approcciato in maniera estrattiva (Extractive text summarization). Cioè vengono selezionate alcune frasi o parole da un testo e scartate delle altre ottenendo così un testo più corto del precedente, senza perdere significato.

Guardando verso lo stato dell’arte invece ad oggi è possibile affrontare il task in modo astrattivo (Abstractive Text Summarization) in cui si lascia al modello di AI la possibilità di generalizzare e riassumere in maniera libera, utilizzando eventualmente sinonimi o riassumendo in frasi liberamente strutturate il contenuto che ha ricevuto in input.

La pubblicazione

La pubblicazione scientifica in collaborazione con il gruppo ARTeLab (Applied Recognition Technology Laboratory) dell’Università dell’Insubria è arrivata il 29 Aprile 2022 sulla rivista Open Access indicizzata Scopus Information. É stato esplorato il task dell’abstractive text summarization creando e rendendo disponibili dei dataset (MLSum-it, IlPost, Fanpage) e dei modelli in italiano (mBart e it5 addestrati sui 3 dataset). In particolare il primo dataset (MLSum-it) è stato creato tramite traduzione, mentre il secondo e il terzo sono stati creati prendendo i dati dai famosi siti di news italiani Il Post e Fanpage.

Grazie a questi nuovi dataset è stato possibile addestrare i modelli prima specificati ottenendo l’attuale stato dell’arte sull’abstractive text summarization in italiano.

Hanno preso parte alla ricerca Digitiamo e AiKnowYou in collaborazione con l’Università dell’Insubria. A dimostrazione di quanto la startup sia innovativa e concentri i propri sforzi per avere algoritmi che raggiungono e superano lo stato dell’arte.