Home > Articoli > Big Data: mi serve davvero?

Big Data: mi serve davvero?

Leggendo questo articolo pubblicato oggi “SQL Server Analysis Service 2016 CTP 2.3 DirectQuery in action” si può vedere come su un comune portatile sia possible avere 220 milioni di righe e creare una database SQL Server in cui, sfruttando il columnstore, si può creare una dashboard di una certa complessita che è in grado di essere aggiornata in soli 10 secondi. Questo su un laptop. Su un server è evidente che ci si possiamo aspettare perforamance ancora migliori.

Questo porta ad una interessante considerazione: strumenti come Hadoop, Spark, M/R, ecc. ecc. servono davvero, oppure sono solo un bella moda che, alla fin fine, non è giustificata dal punto di vista tecnico (ed economico) ? E se servono,quando servono?

Domanda provocatoria, ma lecita, e la risposta potrebbe essere non del tutto scontata. Servono. Ma solo in una nicchia di casi, ed oggi vengono usati anche laddove non servono, solo perchè vanno di moda. Il problema delle mode è che, se la storia ci insegna qualcosa, nell’informatica fanno più danno che altro.

Hadoop & Co. sfruttano la semplice forza bruta per risolvere i problemi di performance (ma anche qui le cose stanno cambiando, perchè la forza bruta arriva fino ad un certo punto, poi anch’essa non serve più). L’utilizzo di soluzioni intelligenti è la strada da seguire. Più dispendiosa all’inizio ma più senza alcun dubbio migliore sulla media e lunga distanza. L’approccio Column-Store è qui a dimostrarlo, cosi come le ottimizzazione inserite in DirectQuery nel SSAS Tabular Engine che generano query SQL migliori.

Un bellissimo articolo che descrive in modo ancora più impressionate quanto sia migliore un approccio intelligence piuttosto che un approccio a forza bruta è questo:

Scalability! But at what COST?

Se la motivazione principale per cui state scegliendo una soluzione Big Data ricade nell’ambito delle performance o nella “paura” di non scalare a sufficenza,  allora alla domanda “Ci serve una soluzione Big Data”, bisogna quindi rispondere: “si, ma solo dopo aver verificato che sul mio laptop una soluzione alternativa non sia più veloce”.

Se invece avete fatto una scelta legata all’ecosistema che si è venuto a creare attorno ad Hadoop oppure al fatto che preferite una soluzione schema-on-read al posto che schema-on-write, allora ci siamo. Zeppelin e Jupiter vi stanno aspettando.

Chi è Davide Mauri

Microsoft Data Platform MVP dal 2007, Davide Mauri si occupa di Data Architecture e Big Data nel mondo dell'IoT. Attualmente ricopre il ruolo di "Director Software Development & Cloud Infrastructure" in Sensoria, societa specializzata nella creazione di Wearables e sensori per l'IoT applicati a tessuti ed oggetti sportivi.

Leggi Anche

PASS Marathon BI (Dicembre 2019): Sessioni registrate!

Le sessioni presentate durante l’evento PASS Marathon “Edizione BI”, tenuto lo scorso 11 Dicembre 2019, …