Analisi semantica e Big Data: come trasformare i dati in conoscenza?

analisi semantica e big data

Definizioni di Big Data e Semantica

Secondo SAS i Big Data possono essere definiti come una grande quantità di dati strutturati e non strutturati che inondano le aziende ogni giorno. Un famoso articolo dell’Economist definisce il fenomeno dell’esplosione informativa come “data deluge”, letteralmente “inondazione di dati”.

Tuttavia non è il volume di dati il nodo centrale della questione. Quello che è davvero importante è capire in che modo le aziende decidono di utilizzare questi dati.  Questi possono, ad esempio, essere analizzati in modo da avere una conoscenza più approfondita della propria organizzazione, e realizzare così strategie più efficaci.

La semantica può essere definita come una branca della linguistica e della logica che studia il significato. Questa comprende due sottocategorie: la semantica logica e la semantica lessicale. La prima riguarda i procedimenti logici come i riferimenti, le implicazioni, le presupposizioni e il senso. La seconda riguarda l’analisi del significato delle parole e le relazioni tra queste.

Le sfide dei Big Data e della semantica

Negli ultimi anni le grandi aziende hanno dimostrato un interesse sempre maggiore nel voler  utilizzare Big Data e tecnologia semantica per creare valore aggiunto. Questo connubio, sebbene porti indubbiamente diversi vantaggi, presenta anche alcune sfide. Vediamo quali sono.

La prima sfida cui ci troviamo di fronte quando si parla di Big Data è che questi inizialmente sono quasi sempre non strutturati, ovvero scritti in linguaggio naturale. Ciò pone dei limiti alla comprensione dei dati da parte delle macchine. Esempi di dati non strutturati sono messaggi, e-mail, articoli di blog, feed social, ecc.

La seconda sfida riguarda la gestione del tempo. La grande velocità con cui i dati vengono eliminati ci obbliga a ridurre al massimo il tempo dedicato alla loro  gestione. Per far fronte a questa sfida è necessario utilizzare software in grado di analizzare i dati nel minor tempo possibile e di trasformare, altrettanto velocemente, informazioni non strutturate in informazioni strutturate. Per dirlo in altre parole, devono essere capaci di estrarre valore dal caos.

La terza questione riguarda la vasta quantità di informazioni “nascoste” ancora lontane dall’essere analizzate e interpretate, i cosiddetti “Dark Data”. Hal Varian, Chief economist di Google, dichiara che “i dati sono ampiamente disponibili, quello che è scarso è la capacità di estrarre conoscenza da questi”.

Come trasformare le informazioni in conoscenza?

Le sfide sopra descritte ci permettono di capire che indubbiamente i dati devono non solo essere processati in tempo reale, ma anche essere analizzati accuratamente dal punto di vista del loro contenuto semantico. Il solo modo per non essere sopraffatti dall’ inondazione di dati è dare senso a queste informazioni digitali. Ma come possiamo trasformare le informazioni in conoscenza?

Le informazioni semantiche racchiuse nei dati, pongono non poche sfide al Trattamento Automatico della Lingua (TAL o Natural Language Processing in inglese), una branca a cavallo tra l’informatica, l’intelligenza artificiale e la linguistica che studia le interazioni tra computer e linguaggio umano. Uno dei compiti di un sistema di TAL relativo alla comprensione del linguaggio naturale è, ad esempio, la topic recognition, ovvero data una porzione di testo, questa viene suddivisa in segmenti, a ognuno dei quali viene attribuito un topic, che viene così identificato e analizzato.

Un’altra funzione essenziale del TAL è la sentiment analysis. Questa analisi estrae le  opinioni soggettive degli utenti su un brand o un prodotto attraverso l’analisi della polarità del “sentiment” (positivo vs. negativo) utilizzato per descrivere l’esperienza con quest’ultimo (come avviene, ad esempio, nelle recensioni online).

Queste funzioni possono essere molto utili soprattutto per scopi di marketing o per la gestione della customer experience; queste analisi permettono infatti di comprendere di cosa parlano gli utenti sui vari social media, consentendoci così di identificare nuovi trend e chiavi di lettura dell’opinione pubblica. Estrarre valore da questi dati, non significa però analizzare quanto sia “grande” quel dato, piuttosto quanto sapientemente questi strumenti di trattamento automatico della lingua riescono ad analizzare il contenuto, individuare pattern ed estrarre informazioni che possono rivelarsi utili.

In che modo i Big Data e la semantica possono integrarsi all’interno dei processi aziendali?
L’utilizzo dei Big Data e della semantica ha aperto la strada alla creazione di una nuova relazione tra il marketing management e la linguistica e ha introdotto la presenza di un nuovo ruolo aziendale, ovvero quello del linguista computazionale. Questa figura ha il compito di creare senso a partire dalla scatola nera apparentemente senza senso dei Big Data, estrapolando, attraverso l’analisi semantica,  pattern di  significato che possono rivelarsi importanti per orientare gli obiettivi di marketing.

Sebbene i Big Data e la semantica debbano far fronte a queste sfide, è innegabile il fatto che il loro connubio porterà senz’altro benefici alle aziende grazie anche alla nascita di tecnologie sempre più avanzate.

Questo articolo è disponibile anche in: Inglese

Daniela Guglielmo is the Linguistic Project Manager at Buzzoole Holdings. She attained a Ph.D. in Linguistics in 2013 and is also a postdoctoral researcher at the University of Salerno. She is the author of several peer-review publications regarding General Linguistics and NLP.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *