Questo sito web utilizza cookie tecnici e, previo Suo consenso, cookie di profilazione, nostri e di terze parti. Chiudendo questo banner, scorrendo questa pagina o cliccando qualunque suo elemento acconsente all'uso dei cookie. Leggi la nostra Cookie Policy per esteso.OK

Big Data

EMC, una soluzione per il 'data lake' in 7 giorni

Per rispondere al business, i CIO hanno bisogno di soluzioni rapide per l’analisi dei dati. La nuova piattaforma Federation Business Data Lake punta a semplificare l’implementazione negli ambienti aziendali di Hadoop, oltre che delle specifiche funzionalità analitiche per i Big Data

09 Apr 2015

Giorgio Fusari

Quando si tratta di mettere a frutto le potenzialità di business ottenibili dall’analisi dei Big Data, ’rompendo’ i classici silos di dati per fornire all’organizzazione una visione più olistica e integrata dei clienti e scoprire nuove opportunità di mercato, spesso gli IT manager sperimentano con frustrazione l’impossibilità di fornire l’applicazione nei tempi richiesti, e si sentono ’superati a destra’ dai responsabili delle LOB (line-of-business), che cercano altrove le funzionalità desiderate, implementando servizi cloud senza passare per la direzione IT.

Spiegando queste tipiche e sempre più frequenti situazioni, che tolgono dalle mani dei CIO il controllo delle infrastrutture informatiche, Dario Regazzoni, Presales Manager di EMC Italia, motiva la messa a disposizione sul mercato, da marzo, di una nuova soluzione ingegnerizzata da EMC Information Infrastructure, Pivotal e VMware.

Si chiama Federation Business Data Lake ed è un sistema preconfigurato, composto da risorse di storage e tecnologie analitiche per i Big Data. «L’idea è di non far superare a destra i CIO» dice. Infatti, se, solitamente, la complessità e la difficoltà di implementazione di quelli che oggi vengono definiti ’data lake’ – ossia repository, serbatoi virtuali che raccolgono informazioni strutturate e destrutturate in un solo ’lago di dati’ su cui è possibile unificare l’analisi – obbligano i CIO a definire lunghi tempi di realizzazione, questa soluzione promette di essere messa in piedi in soli in sette giorni.

Nuovi approcci per l’analisi real time dei dati

Come? Regazzoni spiega, dapprima richiamando le attuali difficoltà tecniche dei responsabili IT. I classici data warehouse che memorizzano i dati provenienti da varie fonti in formato strutturato oggi rivelano varie limitazioni: da soli, essi non sono più adeguati a elaborare con efficienza le gigantesche moli di variegate informazioni generate dalla miriade di sensori che popolano la Internet of Things (IoT).

Un esempio: il data warehouse non è adatto nell’analisi predittiva in real-time dei flussi d’informazioni che i motori aeronautici producono durante il volo. Questi data stream possono occupare svariati terabyte, ma analizzarli consente di determinare lo stato di salute delle turbine e prevedere eventuali avarie. Altro esempio: i sistemi di ’smart farming’ o ’precision farming’ permettono di monitorare in tempo reale, attraverso i sensori, lo stato di colture e allevamenti, e poi di elaborare modelli previsionali per ottimizzare le tecniche agricole. Ma anche qui i volumi di dati e la velocità a cui è necessario analizzarli fanno sì che il data warehouse non rappresenti più la soluzione ideale.

Per realizzare i business data lake la fondazione necessaria è invece sempre più costituita da un motore di elaborazione come Apache Hadoop, basato su un file system distribuito, e con meccanismi per estendere, a seconda della mole dei data set, la potenza computazionale, scalando la capacità dai singoli server fino ai grandi cluster di computer. In aggiunta, Hadoop è open source. Tuttavia, chiarisce Regazzoni, configurare un cluster Hadoop da zero non si rivela un’operazione né immediata, né semplice, specie se gli sviluppatori del team hanno competenze maggiormente orientate sui classici database SQL (structured query language).

In ogni caso specifico di utilizzo vanno configurate la piattaforma di analisi più indicata e la giusta soluzione di storage, sottolinea EMC, mentre i dati devono essere caricati con corretti diritti di accesso e governance per i data set. Ecco il perché, dunque, del lancio di Federation Business Data Lake. La soluzione proposta da EMC risponde al concetto di fornire agli utenti aziendali qualcosa di più semplice, come un cluster Hadoop preconfigurato, di tipo ’industrial grade’, dotato di connettori SQL, e tale da evitare di dover sviluppare il sistema in maniera artigianale e con grande dispendio di tempo.

Le caratteristiche di Federation Business Data Lake

L’obiettivo di Federation Business Data Lake è infatti permettere al reparto IT di eseguire la configurazione e il deployment degli ambienti di analisi in modo rapido e automatico, anche grazie all’inclusione nella soluzione di use case analitici predefiniti. Il layer analitico, completamente virtualizzato attraverso VMware (vCloud Suite) sui sistemi di infrastruttura convergente Vblock, include la Pivotal Big Data Suite, che comprende Pivotal HD, una distribuzione Hadoop supportata a livello commerciale. Grazie al motore SQL-on-Hadoop HAWQ, viene fornita la portabilità applicativa con un’ampia gamma di tool di analisi e visualizzazione dei dati, tra cui quelli di SAS e Tableau Software.

Le applicazioni analitiche scritte con HAWQ diventano portabili su altri motori dati SQL-compliant, e viceversa. Ma le distribuzioni Hadoop utilizzabili possono essere anche altre, fra cui Cloudera, Hortonworks, o altre tecnologie per i Big Data che verranno sviluppate e certificate dalla neonata associazione Open Data Platform (ODP), un consorzio di aziende costituito per promuovere l’adozione di soluzioni basate su Hadoop e su un nucleo standard di codice open source.

Sul versante della memorizzazione delle informazioni, i sistemi Isilon forniscono poi la fondazione di storage in grado di adeguare e bilanciare la capacità e le prestazioni in funzione delle specifiche applicazioni.

Per favorire l’adozione di Federation Business Data Lake, EMC rende disponibile anche una serie di servizi di formazione a vari livelli: EMC Technology Onboarding Service, ad esempio, fornisce, a chi è pronto per il deployment di un data lake, vari servizi di consulenza per l’installazione, l’implementazione del sistema, l’ottimizzazione e la personalizzazione dei tool analitici.

EMC Proof of Value Service dimostra il ROI (return on investment) di un caso d’uso specifico, utilizzando i dati reali dell’organizzazione utente, mentre EMC Big Data Vision Workshop è indirizzato ai clienti che ancora non hanno deciso di introdurre tecnologie Big Data e necessitano di un’analisi degli obiettivi di business, per individuare lo use case più adatto a intraprendere tale percorso. Infine, gli EMC Education Services consistono in iniziative di training e certificazione per sviluppare competenze nelle aree Big Data e data science.

EMC, una soluzione per il ‘data lake’ in 7 giorni

    LinkedIn

    Twitter

    Whatsapp

    Facebook

    Google+

    Link