La qualità dei dati (Data Quality) è una delle attività più significative all’interno dell’ampio ambito della Data management. Le aziende generano oggi giorno un’enorme quantità di dati (Big Data) che, se correttamente gestiti e analizzati, rappresentano la bussola per decisioni informate sia di breve sia di lungo periodo.
Cos’è la qualità dei dati e perché è così importante
Secondo la definizione di Gartner, la Data Quality si riferisce all’usabilità dei dati rilevanti per le attività strategiche di un’organizzazione, incluse le iniziative di Intelligenza Artificiale e di apprendimento automatico (Machine Learning).
La Data Quality permette di ottenere informazioni accurate, affidabili e tempestive, supportando decisioni informate e migliorando l’efficienza operativa: in altre parole, è ciò che consente alle organizzazioni di diventare data-driven.
I dati e gli analytics sono oggetto di attenzione da parte delle organizzazioni da anni, ma oggi, con la crescita esplosiva delle tecnologie AI, sono diventati un prerequisito fondamentale: ecco perché è necessario costruire un efficace modello di governance dei dati.
La qualità dei dati, spesso trascurata dalle aziende, è imprescindibile per poter introdurre in azienda le applicazioni dell’Intelligenza Artificiale. È infatti considerata come il principale fattore limitante per l’adozione della GenAI.
Un sondaggio di Forrester del 2023 (Data And Analytics Survey), conferma che la qualità dei dati è una preoccupazione diffusa fra tutti i C-Level, e che le aziende stanno prendendo provvedimenti per affrontare questa sfida: la figura di un responsabile, il Chief Data Officer, è sempre più presente nelle organizzazioni.
I pilastri della qualità dei dati: accuratezza, completezza, coerenza, tempestività e accessibilità
Compito dei responsabili dei dati è stabilire un programma di qualità che abbia un perimetro definito, processi chiari per la misurazione e che sfrutti strumenti tecnologici allo stato dell’arte.
Esistono diverse dimensioni che le organizzazioni utilizzano per misurare la qualità dei dati, scegliendo tra queste quelle più rilevanti per loro.
Le nove dimensioni più comuni, secondo Gartner sono:
- Accessibilità: I dati sono disponibili, facilmente recuperabili e integrati nei processi aziendali.
- Accuratezza: Il valore dei dati riflette accuratamente gli oggetti o gli eventi del mondo reale che i dati intendono modellare.
- Completezza: I record dispongono di tutti i campi e i data set di tutte le istanze.
- Coerenza: I dati presenti in diversi contesti sono rappresentati e strutturati in modo simile.
- Precisione: I dati sono registrati con la precisione richiesta dai processi aziendali.
- Rilevanza: I dati sono applicabili a uno o più processi aziendali o decisionali.
- Tempestività: I dati vengono aggiornati con frequenza adeguata a soddisfare i requisiti aziendali.
- Unicità: Ogni record di dati è unico in base a come viene identificato.
- Validità: I dati sono conformi alle regole/requisiti aziendali definiti e provengono da una fonte verificabile.
Le conseguenze di dati di bassa qualità sulle decisioni aziendali
Il vecchio adagio “garbage in, garbage out” è oggi ancora più vero. È un’espressione usata per dire che se a un algoritmo si dà in pasto un set di dati “sporco” (letteralmente, spazzatura), il risultato sarà ugualmente di basso livello. E su dati non affidabili non si possono prendere decisioni ottimali. Facciamo l’esempio del Marketing. Senza una visione accurata del cliente, le aziende non sono in grado di personalizzare le offerte, di risolvere rapidamente ed efficacemente i problemi di supporto ai clienti o di ottimizzare le esperienze durante l’intero ciclo di vita. Poiché i clienti sono sempre più indipendenti e informati sulle loro scelte di prodotti e servizi, le organizzazioni che non riescono a riconoscere i loro clienti e a comprendere le loro esigenze e intenzioni diventeranno nel lungo periodo irrilevanti per il mercato.
A ostacolare le organizzazioni nella ricerca della qualità dei dati contribuiscono vari fattori. Fra questi:
- I requisiti normativi, come il GDPR, che limitano il modo in cui le organizzazioni gestiscono i dati personali e le rendono responsabili di qualsiasi dato sensibile che detengono.
- Incoerenza nei dati tra le fonti. Citato come il problema di qualità dei dati più impegnativo, secondo Gartner, è il risultato dell’avere dati archiviati e mantenuti in silos con sovrapposizioni, lacune o incoerenze significative.
- Mancanza di competenze, esperienza e risorse.
- Mancanza di responsabilità chiare. Sebbene i leader aziendali concordino sul fatto che la qualità dei dati sia importante, non la considerano una loro responsabilità. Nella realtà, tutti sono coinvolti: il modo in cui gli utenti aziendali inseriscono, utilizzano e gestiscono i dati rappresenta le basi della qualità.
Il costo economico della scarsa qualità dei dati
La scarsa qualità dei dati costa alle organizzazioni almeno 12,9 milioni di dollari all’anno in media, secondo una ricerca di Gartner del 2020. Tuttavia, l’analista evidenzia che il 59% delle organizzazioni non misura la qualità dei dati. Ciò rende difficile sapere quanto costa la mancanza di qualità.
Come valutare la qualità dei dati per l’azienda
Come si misura e si migliora la qualità dei dati? Una volta comprese le metriche rilevanti per la qualità dei dati, illustrate in precedenza, occorre scegliere quelle importanti per la propria organizzazione, profilare i dati, verificando l’accuratezza e la loro modalità di raccolta, e analizzare i risultati.
Definire il perimetro del programma di qualità dei dati è essenziale per stabilire aspettative e priorità. I responsabili non possono e non dovrebbero mirare alla qualità dei dati ovunque, poiché non tutti i dati sono ugualmente importanti. Definire un perimetro troppo ampio assorbe risorse senza produrre benefici aziendali proporzionali.
Come stabilire qual è l’impegno ottimale? Gli esperti suggeriscono di valutare i casi d’uso dei dati nell’organizzazione secondo due prospettive.
- Valore e rischio. Occorre mappare i casi d’uso aziendali e le fonti di dati dell’organizzazione secondo le dimensioni di valore generato e rischio derivante da una bassa qualità dei dati. I casi che comportano alto valore e rischi gravi meritano una priorità nel programma.
- Estensione del perimetro. Va compreso, per ogni caso d’uso, se si sfruttano i dati a livello centralizzato, regionale o locale. I dati centralizzati comprendono i dataset più critici e comunemente condivisi. L’ambito per questo tipo di dati è solitamente ampio perché l’impatto sulle comunità di utenti e sui processi aziendali è vasto. I dati locali, quelli che servono a un unico scopo e non sono condivisi, necessitano un perimetro più limitato nel programma.
Il punto di partenza di un programma di qualità dei dati va stabilito in base alle priorità dei casi d’uso. Iniziare con i dati centralizzati è un’opzione, ma se l’organizzazione manca di esperienza può essere utile approcciare per primi i dataset locali.
Indicatori chiave di performance (KPI) per la qualità dei dati
Una volta selezionate le dimensioni della qualità dei dati che sono utili per i casi d’uso aziendali, occorre per ciascuna stabilire un valore di riferimento (KPI) da monitorare nel tempo. Non è necessario applicarli tutti contemporaneamente, né allo stesso modo a tutti i dati, perché non tutti sono ugualmente importanti o utilizzati allo stesso modo.
Serve dunque definire le priorità ed è un lavoro che va fatto in collaborazione con gli stakeholder, per stabilire le aspettative per il livello di qualità di cui hanno bisogno. Gli esperti consigliano di iniziare selezionando due o tre metriche che sono più importanti per il caso d’uso da misurare e migliorare.
Strumenti e tecniche per l’analisi della Data Quality
Il mercato della tecnologia per la qualità dei dati si è evoluto negli ultimi anni, includendo una gamma di soluzioni che consentono alle organizzazioni di accelerare il time-to-value dei loro asset dati, ridurre i rischi e aumentare il vantaggio competitivo.
I responsabili dei dati dovrebbero considerare che gli strumenti per la qualità dei dati non sono isole indipendenti. Al contrario, le organizzazioni li implementano per supportare un insieme più ampio di processi di gestione dei dati o casi d’uso, come l’integrazione dei dati o la gestione dei dati master. Occorre dunque ponderare l’importanza relativa di ciascuna capacità rispetto ai casi d’uso che si intendono supportare.
In generale, Gartner sottolinea le seguenti 10 capacità critiche che le organizzazioni dovrebbero considerare nella valutazione delle soluzioni per la qualità dei dati.
- Profilazione;
- Parsing (estrazione dati), standardizzazione e pulizia;
- Analisi e visualizzazione interattiva;
- Matching, collegamento e fusione;
- Supporto multidominio;
- Workflow guidato dal business e risoluzione dei problemi;
- Gestione delle regole e validazione dei dati;
- Metadati e tracciabilità;
- Monitoraggio e rilevamento;
- Automazione e potenziamento.
Cloud data warehousing e data lake
Prerequisito indispensabile per rendere un’azienda data driven è la creazione di un repostory dei dati, un luogo unico dove possano convergere tutti i dati considerati rilevanti per l’organizzazione. Gli strumenti utilizzati sono i data warehouse (magazzini di dati) e Data Lake (lago dei dati). I primi offrono un’infrastruttura strutturata e ottimizzata per l’archiviazione e il recupero di dati strutturati, mentre i data lake forniscono un ambiente flessibile per l’archiviazione di grandi volumi di dati non strutturati e semi-strutturati, permettendo alle organizzazioni di esplorare e innovare attraverso l’uso di tecnologie avanzate come l’Intelligenza Artificiale e il machine learning. Insieme, queste soluzioni consentono alle aziende di massimizzare il valore dei loro asset informativi.
Casi studio: aziende che hanno migliorato la qualità dei loro dati
Ogni azienda che crede nell’innovazione digitale e avvia progetti di trasformazione considera prioritaria e strategica la gestione e analisi dei dati e si organizza, con competenze, processi e tecnologie, per una gestione ottimale. Nel panorama italiano, segnaliamo, tra le tante, alcune esperienze significative (cliccando sul link si può approfondire il progetto): Angelini, Kasanova, Dorelan, La Piadineria, Max Mara.
Strategie per migliorare la qualità dei dati
L’obiettivo della data governance è che i dati siano adeguatamente valorizzati, creati, utilizzati e controllati, definendo dunque un approccio sistematico alla gestione della qualità. Tuttavia, molte organizzazioni affrontano la governance dal punto di vista dell’igiene e del controllo dei dati, e non come una capacità aziendale critica su cui si basano i principali risultati di business.
Non basta dunque focalizzarsi sulla catalogazione dei dati aziendali e sulla analisi dei punti critici, sperando di migliorare la situazione acquisendo nuove soluzioni di gestione dei dati o nuove offerte basate su metadati, se queste attività non sono inserite nel contesto più ampio degli obiettivi aziendali e non coinvolgono i diversi manager che da questa attività possono trarre vantaggio.
Processi di pulizia e integrazione dei dati
La pulizia dei dati è l’attività di identificazione e correzione di errori, duplicati e incoerenze nei dataset, che assicura che solo dati di alta qualità alimentino i sistemi decisionali. L’integrazione dei dati si concentra sulla combinazione di informazioni provenienti da diverse fonti e formati, creando una visione unificata e coerente che supporta analisi più approfondite e decisioni strategiche. Questi processi, se implementati efficacemente, permettono alle organizzazioni di sfruttare appieno il valore dei loro asset informativi.
La cultura dei dati: coinvolgere tutti i dipendenti nel miglioramento della qualità
Non va trascurato, in questo contesto, il coinvolgimento di tutti i dipendenti: serve diffondere il corretto mindset, promuovendo in azienda una cultura dei dati. Significa incoraggiare ogni membro dell’organizzazione a riconoscere il valore strategico delle informazioni e a contribuire attivamente alla loro accuratezza e integrità. Questo approccio collaborativo non solo migliora la qualità dei dati, ma facilita anche decisioni più informate e tempestive. Formazione continua, strumenti accessibili e una comunicazione chiara sono essenziali per coltivare questa mentalità, trasformando i dati in un asset condiviso piuttosto che in un compito relegato ai soli specialisti IT.
Intelligenza artificiale e machine learning per migliorare la qualità dei dati
Le tecnologie di Intelligenza Artificiale (AI) e Machine Learning (ML) offrono potenti capacità per automatizzare, analizzare e ottimizzare i processi di data governance, migliorando la qualità, la sicurezza, la conformità e l’efficienza dei dati. Tra le applicazioni principali troviamo:
- Qualità e pulizia dei dati;
- Classificazione e tagging dei dati;
- Sicurezza e privacy dei dati;
- Automazione dei workflow;
- Analytics;
- Monitoraggio e reportistica della conformità.
Nello specifico, quando l’AI viene applicata alla qualità dei dati si parla di Augmented Data Quality. Le soluzioni di qualità dei dati aumentata vanno oltre i benefici tradizionali di dati accurati, coerenti, affidabili e completi. Facilitano l’accesso tempestivo ai dati per decisioni rapide e informate, garantiscono la conformità normativa per mitigare i rischi e arricchiscono i dati per analisi avanzate e reportistica.