Big Data Management: il problema non è lo storage ma la qualità della programmazione

Gestire la quantità di dati strutturati e destrutturati aiuta a trasformare le informazioni in azioni strategiche per il business. Il problema non è l’archiviazione ma i limiti degli strumenti attualmente in uso. Malgrado gli obiettivi siano ormai chiari c’è ancora molta sperimentazione. Pochi i programmatori coraggiosi

Gestire la quantità di dati strutturati e destrutturati che circolano dentro e fuori alle aziende aiuta a trasformare le informazioni in azioni strategiche per il business. Le ultime ricerche dicono che le imprese capaci di sfruttare l’analisi del cliente riescono ad aumentare di un terzo il fatturato, registrando un incremento delle prestazioni 13 volte superiori alla media. A differenza di quanto si crede, il problema con i big data non è la capienza dello storage ma i limiti degli strumenti di gestione attualmente in uso.

Big Data Management, infatti, significa poter lanciare un’interrogazione per ottenere la risposta giusta al momento giusto. Sfruttare i dati a disposizione per avere informazioni mirate e puntuali è il sogno del marketing, ma anche dei Chief Financial Officer, delle HR come della produzione, della logistica, delle vendite e di tutte le altre LOB che utilizzano le tecnologie digitali per svolgere ogni giorno il loro lavoro.

Indice degli argomenti

Dati strutturati e destrutturati che crescono

Malgrado gli obiettivi del Big Data Management siano ormai chiari, oggi c’è ancora molta sperimentazione e sono pochi gli sviluppatori capaci. Da un lato bisogna programmare i criteri di estrazione, di relazione e di integrazione dei dati identificando i sistemi di standardizzazione più efficaci e più veloci. Dall’altro bisogna trovare il modo migliore per rappresentare i dati rendendoli davvero comprensibili.

Gli strumenti di analisi e di data discovery, infatti, sono molto potenti e i software specializzati nell’analisi dei dati oggi sono in grado di filtrare e associare enormi quantità di dati, reagendo agli impulsi umani al punto da riuscire a prevedere schemi comportamentali e a presentare relazioni precise tra le variabili selezionate dagli operatori intelligenti. Il problema è che nei database le informazioni crescono al punto da rendere troppo complicata l’elaborazione attraverso gli strumenti di gestione standard. Raccogliere, memorizzare, ricercare e analizzare i dati richiede uno sforzo ulteriore.

Soprattutto considerando che secondo l’ultimo rapporto rilasciato dagli Osservatori Digital Innovation del Politecnico di Milano, la mole di dati nel mondo raddoppia ogni due anni e oltre il 90% sono di tipo destrutturato. Invece a oggi nelle aziende italiane c’è ancora una netta prevalenza di dati strutturati: l’84% per l’esatezza (+ 13% rispetto al 2014), mentre i dati destrutturati gestiti sono solo il 16% (comunque un + 32% rispetto al 2014).

Da qui ai prossimi tre anni, secondo le indicazioni del campione coinvolto dagli analisti del Politecnico, il mix si sposterà progressivamente sui dati di tipo destrutturato, che peseranno per il 20% del totale di dati gestiti. Gli esperti consigliano dunque di accelerare l’introduzione di soluzioni analitiche avanzate, favorendo lo sviluppo di modelli in grado di identificare i pattern nascosti nei dati, di rappresentare e modellizzare in ottica predittiva la realtà in contesti sempre più eterogenei e dinamici che richiedono un processo di maturazione complessivo dell’azienda.

Big Data Management: prima di tutto il problema è culturale

Il più grosso scoglio da superare in una gestione ottimale dei dati, infatti, è di tipo culturale. A spiegarlo è Alessandro Furlanetto, consulente con un passato da sistemista e da sviluppatore, oggi tra i pochi esperti italiani di Hadoop, il framework capace di elaborare e gestire tutti quei dati non strutturati che vengono dal mondo digitale, collaborativo e sociale, ma anche dal quel mondo intelligente, comunicante e sensorizzato chiamato Internet of Things.

Lavorando con diverse aziende italiane per la parte di consulenza su Big Data Management, Furlanetto si occupa dell’analisi progettuale: controllo delle specifiche, controllo dello stato di avanzamento del progetto, testing e troubleshooting. Un’esperienza ravvicinata che gli permette di conoscere molto bene le dinamiche e gli ostacoli associati allo sviluppo di questo tipo di soluzioni.

“Il problema è che, ancora oggi, si tende a ragionare come nel passato – racconta Furlanetto -, vedendo nel database relazionale l’unico depositario dei dati che compongono il patrimonio aziendale. È vero che i database sono strutture fortemente relazionali e normalizzate in cui importare ogni nuovo dato acquisito ma oggi ci sono nuove sfide che impongono di ridurre i tempi di acquisizione e, ovviamente, di conversione dei dati. Il problema, rispetto al passato, è rovesciato: bisogna cercare lo strumento che permette di elaborare tutti i miei dati senza per forza doverli convertire secondo un formato e una struttura comune. Immaginate, dunque, di poter creare un’elaborazione dati che prenda come insiemi di elementi diversi come il database dell’ERP aziendale, i file Excel, quelli in Word e i PDF presenti sullo storage aziendale o in cloud. Fino a oggi siamo stati abituati a pensare che non ci fosse una soluzione per gestire questo processo senza convertire in qualche modo le informazioni in uno dei tre formati standard. Oggi, invece, esistono strumenti che utilizzano una regola di correlazione che permette di ottenere l’informazione che cercate, attraverso un’elaborazione che può diventare di per sé un processo standard per l’infrastruttura aziendale”.

Chiedi e ti sarà… dato. Perché non basta dire data mining

La gestione delle informazioni è sempre stata l’obbiettivo della tecnologia ICT. Il tema di fondo, con le informazioni che crescono, è che oggi la loro estrema eterogeneità è legata alla molteplicità di sorgenti da cui scaturiscono sempre nuovi dati. Le interazioni tra il mondo analogico e il mondo digitale sono diventate tante e tali che se prima il problema era raccogliere le informazioni oggi è diventato codificarle e qualificarle, peraltro utilizzando anche livelli di riservatezza adeguati.

ll data mining, ad esempio, viene utilizzato per cercare correlazioni tra più variabili relativamente ai singoli individui come nel caso di un’azienda di distribuzione che, attraverso la carta fedeltà, intenda analizzare il comportamento di un cliente per riuscire a prevedere quanto spenderà nell’immediato futuro. Tutto questo attualmente viene fatto utilizzando processi semi-automatici, potendo attingere le informazioni da varie fonti solo dopo un processo che viene chiamato acquisizione ma che tale non è. Non si tratta solo di acquisire i dati ma anche di trasformarli in modo da poterli elaborare con un software che in genere parla una sola lingua. Big Data Management, infatti, vuol dire anche parlare le lingue dei dati nel loro formato originale o, quanto meno, quello che più si avvicina a esso, riducendo i passaggi di trasformazione. Il Data Mining con il Big Data acquisisce una nuova velocità che può, in taluni casi, diventare davvero real-time“.

Codificare e qualificare i dati: i vantaggi di Hadoop

“Recuperare e utilizzare i dati attraverso approci e tecnologie come, ad esempio, il data mining – prosegue Furlanetto – comporta notevoli costi elaborativi che influiscono negativamente soprattutto sull’aspetto temporale. Questo perchè le tradizionali tecnologie di gestione dei dati non sono state pensate per ottimizzare le prestazioni e questo è dovuto in genere a un approccio sequenziale al problema dell’interrogazione dei dati. Hadoop, invece, capovolge il problema, attraverso un approccio che risulta efficace su qualsiasi tipo di dato, andando a discapito dell’ottimizzazione pur di abbattere il tempo (che è una variabile fondamentale). Dal punto di vista operativo, dunque, il vantaggio nell’ambito del Big Data Management è quello di accorciare notevolmente i tempi di sviluppo e di elaborazione: ad esempio, per un progetto che ho realizzato in partnership con due aziende venete, Eurecna e Consultarea, i tempi di sviluppo ed elaborazione si sono accorciati da un anno a soli tre mesi.”

In sintesi, grazie all’uso del framework inventato da Doug Cutting, è possibile analizzare le risorse disponibili e ottimizzarle per l’elaborazione dei processi evitando i noti colli di bottiglia che si generano nei database relazionali. Indipendentemente dal numero di nodi, Hadoop sfrutta la tutta la memoria e la potenza di calcolo disponibile in tutto il cluster, potendo contare su tutta la potenza elaborativa.

“Molto spesso conclude Furlanetto – si tende a commettere l’errore di utilizzare una sola tecnologia per ogni tipo di elaborazione. Sempre e in ogni caso anche l’utilizzo di Hadoop deve essere accuratamente pianificato e per farlo bisogna comprendere i vantaggi e gli svantaggi di questa tecnologia. Uno dei più frequenti errori che riconosco nelle discussioni in merito ad Hadoop e Big Data è sentire che si intende utilizzare questa tecnologia per risolvere un determinato problema di prestazioni in un determinato punto del processo di elaborazione. E sovente la cosa è ponderata in modo da trasferire i dati dal dominio dell’applicazione al cluster per poi, alla fine dell’elaborazione, prelevarli e riportarli nuovamente entro il dominio da cui provenivano. Non valutare attentamente questo processo, soprattutto considerando la possibilità di usare servizi cloud per l’elaborazione del processo, può rivelarsi un errore fatale. Quando si parla di Big Data Management il tempo è la prima variabile da tenere in considerazione e anche il trasferimento dei dati ha un peso. Tuttavia molti lo sottovalutano trovandosi così, alla fine di un percorso di sviluppo, con una soluzione che è peggiore della precedente”.

Big Data oltre Hadoop

Come sottolinea l’esperto, Big Data non vuol dire solo Hadoop. Ci sono molte altre tecnologie emerse recentemente per l’elaborazione dei dati. La cosa sorprendente è l’approccio diametralmente opposto a quello di Hadoop: a guardare il trend di crescita sembra che non ci sia ancora un trend destinato a emergere sugli altri. Bisogna continuare a studiare e a rimanere aggiornati perché, ora più che mai, è necessario conoscere queste tecnologie, in modo da non perdere l’opportunità di integrarle nei propri processi di business intelligence.