Tecnologie di analisi dei big data. Big Data: analisi e soluzioni. Vantaggi della ricerca esente

Il termine "Big Data" può essere riconoscibile oggi, ma c'è ancora un po' di confusione riguardo a cosa significhi realmente. In verità, il concetto è in continua evoluzione e revisione poiché rimane la forza trainante dietro molte ondate di trasformazione digitale in corso, tra cui intelligenza artificiale, scienza dei dati e Internet delle cose. Ma cos’è la tecnologia Big Data e come sta cambiando il nostro mondo? Proviamo a comprendere l'essenza della tecnologia Big Data e cosa significa in parole semplici.

La straordinaria crescita dei Big Data

Tutto è iniziato con un’esplosione della quantità di dati che abbiamo creato dagli albori dell’era digitale. Ciò è in gran parte dovuto allo sviluppo dei computer, di Internet e delle tecnologie in grado di “carpire” dati dal mondo che ci circonda. I dati in sé non sono una nuova invenzione. Anche prima dell’era dei computer e dei database, utilizzavamo registrazioni cartacee delle transazioni, registrazioni dei clienti e file di archivio che costituiscono dati. I computer, in particolare fogli di calcolo e database, ci hanno reso facile archiviare e organizzare dati su larga scala. All'improvviso le informazioni erano disponibili con un solo clic.

Tuttavia, abbiamo fatto molta strada dalle tabelle e dai database originali. Oggi, ogni due giorni creiamo tanti dati quanti ne abbiamo ricevuti dall'inizio fino al 2000. Esatto, ogni due giorni. E la quantità di dati che creiamo continua a crescere in modo esponenziale; entro il 2020 la quantità di informazioni digitali disponibili aumenterà da circa 5 zettabyte a 20 zettabyte.

Al giorno d’oggi, quasi ogni azione che intraprendiamo lascia il segno. Generiamo dati ogni volta che andiamo online, quando portiamo con noi i nostri smartphone dotati di motore di ricerca, quando parliamo con i nostri amici attraverso i social network o le chat, ecc. Inoltre, anche la quantità di dati generati dalle macchine sta crescendo rapidamente. I dati vengono generati e condivisi quando i nostri dispositivi domestici intelligenti comunicano tra loro o con i loro server domestici. Le apparecchiature industriali negli stabilimenti e nelle fabbriche sono sempre più dotate di sensori che accumulano e trasmettono dati.

Il termine "Big Data" si riferisce alla raccolta di tutti questi dati e alla nostra capacità di utilizzarli a nostro vantaggio in una vasta gamma di settori, compreso quello aziendale.

Come funziona la tecnologia Big Data?

I Big Data funzionano secondo il principio: più si conosce un particolare argomento o fenomeno, più in modo affidabile si possono ottenere nuove comprensioni e prevedere cosa accadrà in futuro. Quando confrontiamo più punti dati, emergono relazioni che precedentemente erano nascoste e queste relazioni ci consentono di apprendere e prendere decisioni migliori. Molto spesso, ciò avviene attraverso un processo che prevede la costruzione di modelli basati sui dati che possiamo raccogliere e quindi l'esecuzione di simulazioni che modificano ogni volta i valori dei punti dati e tengono traccia di come influenzano i nostri risultati. Questo processo è automatizzato - tecnologie moderne gli analisti eseguiranno milioni di queste simulazioni, modificando ogni possibile variabile finché non troveranno un modello, o un'idea, che risolva il problema su cui stanno lavorando.

Bill Gates osserva il contenuto cartaceo di un CD

Fino a poco tempo fa, i dati erano limitati a fogli di calcolo o database e tutto era molto organizzato e ordinato. Tutto ciò che non poteva essere facilmente organizzato in righe e colonne veniva considerato troppo complesso per essere utilizzato e veniva ignorato. Tuttavia, i progressi nell’archiviazione e nell’analisi ci consentono di acquisire, archiviare ed elaborare un gran numero di dati di vario tipo. Di conseguenza, oggi “dati” può significare qualsiasi cosa, dai database alle fotografie, ai video, alle registrazioni sonore, ai testi scritti e ai dati dei sensori.

Per dare un senso a tutti questi dati disordinati, i progetti basati sui Big Data spesso utilizzano analisi all’avanguardia che utilizzano l’intelligenza artificiale e l’apprendimento informatico. Insegnando ai computer a determinare quali siano i dati specifici, ad esempio attraverso il riconoscimento di modelli o l’elaborazione del linguaggio naturale, possiamo insegnare loro a identificare modelli molto più velocemente e in modo più affidabile di quanto possiamo fare noi stessi.

Come vengono utilizzati i Big Data?

Questo flusso sempre crescente di dati di sensori, testo, voce, foto e video significa che ora possiamo utilizzare i dati in modi che sarebbero stati inimmaginabili solo pochi anni fa. Ciò sta apportando cambiamenti rivoluzionari al mondo degli affari in quasi tutti i settori. Oggi le aziende possono prevedere con incredibile precisione quali specifiche categorie di clienti vorranno effettuare un acquisto e quando. I Big Data aiutano inoltre le aziende a svolgere le proprie attività in modo molto più efficiente.

Anche al di fuori del business, i progetti legati ai Big Data stanno già contribuendo a cambiare il nostro mondo in vari modi:

Migliorare l’assistenza sanitaria – La medicina basata sui dati ha la capacità di analizzare grandi quantità di informazioni e immagini mediche in modelli che possono aiutare a rilevare la malattia in una fase iniziale e sviluppare nuovi farmaci.
Prevedere e rispondere ai disastri naturali e provocati dall’uomo. I dati dei sensori possono essere analizzati per prevedere dove è probabile che si verifichino i terremoti e i modelli di comportamento umano forniscono indizi che aiutano le organizzazioni a fornire assistenza ai sopravvissuti. La tecnologia dei Big Data viene utilizzata anche per tracciare e proteggere il flusso di rifugiati provenienti da zone di guerra in tutto il mondo.
Prevenire la criminalità. Le forze di polizia utilizzano sempre più strategie basate sui dati che incorporano le proprie informazioni di intelligence e informazioni provenienti da accesso libero fare un uso più efficiente delle risorse e adottare misure deterrenti ove necessario.

I migliori libri sulla tecnologia Big-Data

Tutti mentono. I motori di ricerca, i Big Data e Internet sanno tutto di te.
GRANDI DATI. Tutta la tecnologia in un unico libro.
L'industria della felicità. Come i Big Data e le nuove tecnologie aiutano ad aggiungere emozione a prodotti e servizi.
Rivoluzione nell'analisi. Come migliorare il tuo business nell'era dei Big Data utilizzando l'analisi operativa.

Problemi con i Big Data

I Big Data ci offrono idee e opportunità senza precedenti, ma sollevano anche problemi e domande che devono essere affrontate:

Privacy dei dati – I Big Data che generiamo oggi contengono molte informazioni sulla nostra vita personale, la cui riservatezza abbiamo ogni diritto. Ci viene chiesto sempre di più di bilanciare la quantità di dati personali che divulghiamo con la comodità offerta dalle app e dai servizi basati sui Big Data.
Sicurezza dei dati - Anche se decidiamo che siamo contenti che qualcuno abbia i nostri dati per uno scopo specifico, possiamo fidarci di loro per mantenere i nostri dati sicuri e protetti?
Discriminazione dei dati: una volta conosciute tutte le informazioni, sarà accettabile discriminare le persone sulla base dei dati della loro vita personale? Utilizziamo già i punteggi di credito per decidere chi può prendere in prestito denaro e anche l’assicurazione è fortemente basata sui dati. Dovremmo aspettarci di essere analizzati e valutati in modo più dettagliato, ma dovremmo fare attenzione che ciò non renda la vita più difficile a coloro che hanno meno risorse e accesso limitato alle informazioni.

L'esecuzione di queste attività è una componente importante dei Big Data e deve essere affrontata dalle organizzazioni che desiderano utilizzare tali dati. In caso contrario, l’azienda può rimanere vulnerabile, non solo in termini di reputazione, ma anche dal punto di vista legale e finanziario.

Guardando al futuro

I dati stanno cambiando il nostro mondo e le nostre vite a un ritmo senza precedenti. Se i Big Data sono capaci di tutto questo oggi, immaginate cosa saranno capaci di fare domani. La quantità di dati a nostra disposizione non potrà che aumentare e la tecnologia di analisi diventerà ancora più avanzata.

Per le imprese, la capacità di applicare i Big Data diventerà sempre più critica nei prossimi anni. Solo le aziende che considerano i dati come una risorsa strategica sopravvivranno e prospereranno. Coloro che ignorano questa rivoluzione rischiano di rimanere indietro.

Ti piace l'articolo? Contenuti ancora più adatti sul mio meraviglioso Canale Youtube

Solo stai attento! Sul mio YouTube puoi diventare troppo furbo... 👇

Grandi dati– non si tratta solo dei dati stessi, ma anche delle tecnologie per elaborarli e utilizzarli, metodi per cercare le informazioni necessarie in grandi matrici. Il problema dei big data resta ancora aperto e vitale per tutti i sistemi che da decenni accumulano una grande varietà di informazioni.

Questo termine è associato all'espressione "Volume, velocità, varietà"– i principi su cui si basa il lavoro con i big data. Questo è direttamente quantità di informazioni, velocità di elaborazione E varietà di informazioni, memorizzato in un array. IN Ultimamente ai tre principi fondamentali iniziarono ad aggiungerne un altro: Valore, che significa valore delle informazioni. Deve cioè essere utile e necessario in termini teorici o pratici, il che giustificherebbe i costi della sua conservazione e lavorazione.

Un esempio di una tipica fonte di big data sono i social network: ogni profilo o pagina pubblica rappresenta una piccola goccia in un oceano di informazioni non strutturate. Inoltre, indipendentemente dalla quantità di informazioni memorizzate in un particolare profilo, l'interazione con ciascun utente dovrebbe essere il più rapida possibile.

I big data si accumulano continuamente in quasi ogni ambito della vita umana. Ciò include qualsiasi settore che coinvolga l'interazione umana o l'informatica. Questi includono i social media, la medicina, le banche e i sistemi di dispositivi che ricevono numerosi risultati dai calcoli quotidiani. Ad esempio, osservazioni astronomiche, informazioni meteorologiche e informazioni provenienti da dispositivi di rilevamento della Terra.

Le informazioni provenienti da tutti i tipi di sistemi di tracciamento in tempo reale vanno anche ai server di una determinata azienda. Trasmissioni televisive e radiofoniche, banche dati delle chiamate degli operatori comunicazioni cellulari– l’interazione di ogni singola persona con loro è minima, ma nel complesso tutte queste informazioni diventano big data.

Le tecnologie dei Big Data sono diventate parte integrante della ricerca e del commercio. Inoltre, stanno cominciando a impadronirsi della sfera della pubblica amministrazione - e ovunque è richiesta l'introduzione di sistemi sempre più efficaci per archiviare e manipolare le informazioni.

Il termine “big data” è apparso per la prima volta sulla stampa nel 2008, quando il direttore della rivista Nature Clifford Lynch ha pubblicato un articolo sul tema dello sviluppo del futuro della scienza utilizzando la tecnologia. grande quantità dati. Fino al 2009, questo termine era considerato solo dal punto di vista dell'analisi scientifica, ma dopo la pubblicazione di numerosi altri articoli, la stampa ha iniziato a utilizzare ampiamente il concetto di Big Data - e continua ad usarlo anche oggi.

Nel 2010 hanno cominciato ad apparire i primi tentativi di risolvere il crescente problema dei big data. Sono stati rilasciati prodotti software, la cui azione era mirata a ridurre al minimo i rischi derivanti dall'utilizzo di enormi quantità di informazioni.

Nel 2011, grandi aziende come Microsoft, Oracle, EMC e IBM si sono interessate ai Big Data: sono state le prime a utilizzare gli sviluppi dei Big Data nelle loro strategie di sviluppo, e con discreto successo.

Le università hanno iniziato a studiare i Big Data come materia separata già nel 2013: ora non solo la scienza dei dati, ma anche l'ingegneria, insieme alle materie informatiche, si occupa di problemi in questo settore.

Le principali modalità di analisi ed elaborazione dei dati sono le seguenti:

Metodi di classe o analisi approfondita (Data Mining).

Questi metodi sono piuttosto numerosi, ma hanno una cosa in comune: gli strumenti matematici utilizzati insieme ai risultati ottenuti sul campo Tecnologie informatiche.

Crowdsourcing.

Questa tecnica consente di ottenere dati contemporaneamente da più fonti e il numero di queste ultime è praticamente illimitato.

Test A/B.

Dall'intero volume di dati viene selezionato un set di elementi di controllo, che viene confrontato alternativamente con altri set simili in cui uno degli elementi è stato modificato. L'esecuzione di tali test aiuta a determinare su quali fluttuazioni dei parametri hanno un impatto maggiore influenza alla popolazione di controllo. Grazie al volume dei Big Data, è possibile effettuare un numero enorme di iterazioni, ognuna delle quali si avvicina al risultato più affidabile.

Analisi predittiva.

Gli specialisti in questo campo cercano di prevedere e pianificare in anticipo come si comporterà l'oggetto controllato per prendere la decisione più redditizia in questa situazione.

Apprendimento automatico (intelligenza artificiale).

Si basa sull'analisi empirica delle informazioni e sulla successiva costruzione di algoritmi di autoapprendimento per i sistemi.

Analisi di rete.

Il metodo più comune per studiare i social network è che, dopo aver ottenuto i dati statistici, si analizzano i nodi creati nella griglia, cioè le interazioni tra i singoli utenti e le loro comunità.

Nel 2017, quando i big data hanno smesso di essere qualcosa di nuovo e sconosciuto, la loro importanza non solo non è diminuita, ma è aumentata ancora di più. Gli esperti ora scommettono che l’analisi dei big data diventerà disponibile non solo per le grandi organizzazioni, ma anche per le piccole e medie imprese. Si prevede che questo approccio venga implementato utilizzando i seguenti componenti:

Archiviazione nel cloud.

L'archiviazione e l'elaborazione dei dati stanno diventando sempre più veloci ed economiche: rispetto ai costi di manutenzione del proprio data center e all'eventuale ampliamento del personale, il noleggio di un cloud sembra essere un'alternativa molto più economica.

Utilizzo dei dati oscuri.

I cosiddetti "dati oscuri" sono tutte le informazioni non digitalizzate sull'azienda, che non svolgono un ruolo chiave nel suo utilizzo diretto, ma possono servire come motivo per passare a un nuovo formato per l'archiviazione delle informazioni.

Intelligenza artificiale e apprendimento profondo.

La tecnologia di apprendimento dell’intelligenza artificiale, che imita la struttura e il funzionamento del cervello umano, è ideale per elaborare grandi quantità di informazioni in costante cambiamento. In questo caso, la macchina farà tutto ciò che farebbe una persona, ma la probabilità di errore è notevolmente ridotta.

Si prevedeva che il volume globale totale di dati creati e replicati nel 2011 sarebbe stato di circa 1,8 zettabyte (1,8 trilioni di gigabyte), circa 9 volte superiore a quello creato nel 2006.

Definizione più complessa

Comunque` grandi dati` implica qualcosa di più della semplice analisi di enormi quantità di informazioni. Il problema non è che le organizzazioni creino enormi quantità di dati, ma che la maggior parte di essi viene presentata in un formato che non si adatta bene al tradizionale formato di database strutturato: registri web, video, documenti di testo, codice macchina o, ad esempio, dati geospaziali. Tutto questo è archiviato in molti repository diversi, a volte anche all'esterno dell'organizzazione. Di conseguenza, le aziende potrebbero avere accesso a un’enorme quantità di dati e non avere gli strumenti necessari per stabilire relazioni tra questi dati e trarne conclusioni significative. A ciò si aggiunge il fatto che i dati vengono aggiornati sempre più frequentemente e si ottiene una situazione in cui i metodi tradizionali di analisi delle informazioni non riescono a tenere il passo con gli enormi volumi di dati costantemente aggiornati, il che alla fine apre la strada alla tecnologia. grandi dati.

La migliore definizione

In sostanza il concetto grandi dati implica lavorare con informazioni di un volume enorme e di composizione diversificata, molto spesso aggiornate e situate in fonti diverse al fine di aumentare l'efficienza operativa, creare nuovi prodotti e aumentare la competitività. La società di consulenza Forrester fornisce una breve formulazione: « Grandi dati riunisce tecniche e tecnologie che estraggono significato dai dati ai limiti estremi della praticità.

Quanto è grande la differenza tra analisi aziendale e big data?

Craig Bathy, direttore esecutivo del marketing e chief technology officer di Fujitsu Australia, ha sottolineato che l'analisi aziendale è un processo descrittivo che analizza i risultati raggiunti da un'azienda in un determinato periodo di tempo, mentre la velocità di elaborazione grandi dati consente di effettuare analisi predittive, capaci di offrire consigli aziendali per il futuro. Le tecnologie dei big data consentono inoltre di analizzare più tipi di dati rispetto agli strumenti di business intelligence, il che consente di concentrarsi su qualcosa di più dei semplici repository strutturati.

Matt Slocum di O'Reilly Radar ci crede però grandi dati e l'analisi aziendale hanno lo stesso obiettivo (trovare risposte a una domanda), differiscono l'una dall'altra in tre aspetti.

I big data sono progettati per gestire volumi di informazioni più grandi rispetto all’analisi aziendale, e questo si adatta sicuramente alla definizione tradizionale di big data.
I big data sono progettati per gestire informazioni più rapide e in rapido cambiamento, il che significa esplorazione profonda e interattività. In alcuni casi, i risultati vengono generati più velocemente del caricamento della pagina web.
I big data sono progettati per elaborare dati non strutturati che stiamo iniziando a esplorare come utilizzare solo una volta che siamo stati in grado di raccoglierli e archiviarli, e abbiamo bisogno di algoritmi e capacità di conversazione per facilitare la ricerca delle tendenze contenute in questi set di dati.

Secondo il white paper "Oracle Information Architecture: An Architect's Guide to Big Data" pubblicato da Oracle, quando lavoriamo con i big data, affrontiamo le informazioni in modo diverso rispetto a quando conduciamo analisi aziendali.

Lavorare con i big data non è come il solito processo di business intelligence, in cui la semplice somma di valori noti produce un risultato: ad esempio, la somma delle fatture pagate diventa le vendite dell'anno. Quando si lavora con i big data, il risultato si ottiene nel processo di pulizia attraverso la modellazione sequenziale: in primo luogo, viene avanzata un'ipotesi, viene costruito un modello statistico, visivo o semantico, sulla base di esso viene verificata l'accuratezza dell'ipotesi avanzata , e poi viene proposto il successivo. Questo processo richiede che il ricercatore interpreti i significati visivi o costruisca query interattive basate sulla conoscenza, oppure sviluppi algoritmi adattivi di "apprendimento automatico" in grado di produrre il risultato desiderato. Inoltre, la durata di un tale algoritmo può essere piuttosto breve.

Tecniche di analisi dei big data

Esistono molti metodi diversi per analizzare i set di dati, che si basano su strumenti presi in prestito dalla statistica e dall'informatica (ad esempio, l'apprendimento automatico). L'elenco non pretende di essere completo, ma riflette gli approcci più popolari in vari settori. Dovrebbe essere chiaro che i ricercatori continuano a lavorare sulla creazione di nuove tecniche e sul miglioramento di quelle esistenti. Inoltre, alcune delle tecniche elencate non si applicano necessariamente esclusivamente ai big data e possono essere utilizzate con successo per array più piccoli (ad esempio test A/B, analisi di regressione). Naturalmente, quanto più voluminoso e diversificato viene analizzato il campione, tanto più accurati e rilevanti saranno i risultati ottenuti.

Test A/B. Una tecnica in cui un campione di controllo viene confrontato alternativamente con altri. In questo modo è possibile identificare la combinazione ottimale di indicatori per ottenere, ad esempio, la migliore risposta del consumatore ad un'offerta di marketing. Grandi dati consentono di effettuare un numero enorme di iterazioni e ottenere così un risultato statisticamente affidabile.

Apprendimento delle regole associative. Un insieme di tecniche per identificare le relazioni, ad es. regole di associazione tra variabili in grandi insiemi di dati. Usato in estrazione dei dati.

Classificazione. Un insieme di tecniche che consente di prevedere il comportamento dei consumatori in un determinato segmento di mercato (decisioni di acquisto, abbandono, volume di consumo, ecc.). Usato in estrazione dei dati.

Analisi di gruppo. Un metodo statistico per classificare gli oggetti in gruppi identificando caratteristiche comuni precedentemente sconosciute. Usato in estrazione dei dati.

Crowdsourcing. Metodologia per la raccolta di dati da un gran numero di fonti.

Fusione e integrazione dei dati. Un insieme di tecniche che permette di analizzare i commenti degli utenti dei social network e confrontarli con i risultati di vendita in tempo reale.

Estrazione dei dati. Un insieme di tecniche che consente di determinare le categorie di consumatori più sensibili al prodotto o servizio promosso, identificare le caratteristiche dei dipendenti di maggior successo e prevedere il modello comportamentale dei consumatori.

Apprendimento d'insieme. Questo metodo utilizza numerosi modelli predittivi, migliorando così la qualità delle previsioni effettuate.

Algoritmi genetici. In questa tecnica possibili soluzioni rappresentati come "cromosomi" che possono combinarsi e mutare. Come nel processo di evoluzione naturale, l’individuo più adatto sopravvive.

Apprendimento automatico. Un indirizzo dell'informatica (storicamente le è stato dato il nome di “intelligenza artificiale”), che persegue l'obiettivo di creare algoritmi di autoapprendimento basati sull'analisi di dati empirici.

Elaborazione del linguaggio naturale (PNL). Un insieme di tecniche per il riconoscimento del linguaggio naturale umano mutuate dall'informatica e dalla linguistica.

Analisi di rete. Un insieme di tecniche per analizzare le connessioni tra i nodi nelle reti. In relazione ai social network, permette di analizzare le relazioni tra singoli utenti, aziende, comunità, ecc.

Ottimizzazione. Un insieme di metodi numerici per riprogettare sistemi e processi complessi per migliorare una o più metriche. Aiuta a prendere decisioni strategiche, ad esempio, la composizione della linea di prodotti da lanciare sul mercato, condurre analisi di investimento, ecc.

Riconoscimento di modelli. Un insieme di tecniche con elementi di autoapprendimento per prevedere il modello comportamentale dei consumatori.

Modellazione predittiva. Un insieme di tecniche che consentono di creare un modello matematico di uno scenario probabile predeterminato per lo sviluppo di eventi. Ad esempio, l'analisi del database del sistema CRM per possibili condizioni che spingeranno gli abbonati a cambiare fornitore.

Regressione. Un insieme di metodi statistici per identificare uno schema tra i cambiamenti in una variabile dipendente e una o più variabili indipendenti. Spesso utilizzato per previsioni e previsioni. Utilizzato nel data mining.

Analisi del sentimento. Le tecniche per valutare il sentiment dei consumatori si basano su tecnologie di riconoscimento del linguaggio naturale. Permettono di isolare i messaggi relativi all'oggetto di interesse (ad esempio, un prodotto di consumo) dal flusso informativo generale. Successivamente, valuta la polarità del giudizio (positivo o negativo), il grado di emotività, ecc.

Elaborazione del segnale. Insieme di tecniche prese in prestito dalla radioingegneria che mirano a riconoscere un segnale in un contesto di rumore e alla sua ulteriore analisi.

Analisi spaziale. Un insieme di metodi per l'analisi dei dati spaziali, in parte presi in prestito dalla statistica: topologia del terreno, coordinate geografiche, geometria degli oggetti. Fonte grandi dati in questo caso compaiono spesso sistemi informativi geografici(GIS).

Statistiche. La scienza della raccolta, organizzazione e interpretazione dei dati, compreso lo sviluppo di questionari e la conduzione di esperimenti. I metodi statistici vengono spesso utilizzati per esprimere giudizi di valore sulle relazioni tra determinati eventi.

Apprendimento supervisionato. Un insieme di tecniche basate su tecnologie di machine learning che consentono di identificare relazioni funzionali nei set di dati analizzati.

Simulazione. La modellazione del comportamento di sistemi complessi viene spesso utilizzata per prevedere, prevedere e elaborare vari scenari nella pianificazione.

Analisi delle serie temporali. Un insieme preso in prestito dalla statistica e elaborazione digitale metodi di segnale per analizzare sequenze di dati ripetute nel tempo. Alcune applicazioni ovvie sono il monitoraggio del mercato azionario o delle malattie dei pazienti.

Apprendimento non supervisionato. Un insieme di tecniche basate su tecnologie di machine learning che consentono di identificare relazioni funzionali nascoste nei set di dati analizzati. Ha caratteristiche comuni con Analisi di gruppo.

Visualizzazione. Metodi per presentare graficamente i risultati dell'analisi dei big data sotto forma di grafici o immagini animate per semplificare l'interpretazione e rendere i risultati più comprensibili.

La rappresentazione visiva dei risultati dell’analisi dei big data è di fondamentale importanza per la loro interpretazione. Non è un segreto che la percezione umana sia limitata e gli scienziati continuano a condurre ricerche nel campo del miglioramento metodi moderni Presentazione dei dati sotto forma di immagini, grafici o animazioni.

Strumenti analitici

Dal 2011 alcuni degli approcci elencati nel paragrafo precedente o una determinata combinazione di essi consentono di implementare motori analitici per lavorare concretamente con i Big Data. Tra i sistemi aperti di analisi Big Data gratuiti o relativamente economici possiamo consigliare:

Revolution Analytics (basato sul linguaggio R per la statistica matematica).

Di particolare interesse in questo elenco è Apache Hadoop, un software open source che è stato dimostrato come analizzatore di dati dalla maggior parte dei tracker azionari negli ultimi cinque anni. Non appena Yahoo ha aperto il codice Hadoop alla comunità open source, nel settore IT è apparso immediatamente un intero movimento per la creazione di prodotti basati su Hadoop. Quasi tutti gli strumenti di analisi moderni grandi dati fornire strumenti di integrazione Hadoop. I loro sviluppatori sono sia startup che rinomate aziende globali.

Mercati per soluzioni di gestione dei Big Data

Piattaforme Big Data (BDP, Big Data Platform) come strumento di contrasto al digital hording

Capacità di analizzare grandi dati, colloquialmente chiamato Big Data, è percepito come un vantaggio e inequivocabilmente. Ma è davvero così? A cosa potrebbe portare l’accumulo sfrenato di dati? Molto probabilmente a ciò che gli psicologi domestici, in relazione agli esseri umani, chiamano accumulo patologico, sillogomania o, in senso figurato, "sindrome di Plyushkin". In inglese, la feroce passione di collezionare tutto si chiama hording (dall'inglese hoard - "stock"). Secondo la classificazione delle malattie mentali, l'ordamento è classificato come un disturbo mentale. Nell’era digitale, al tradizionale accaparramento materiale si aggiunge l’accumulo digitale, che può colpire sia individui che intere imprese e organizzazioni ();

Mercato mondiale e russo

Panorama dei Big Data - Principali fornitori

Interesse per gli strumenti di raccolta, elaborazione, gestione e analisi grandi dati Quasi tutte le principali aziende IT lo hanno dimostrato, il che è del tutto naturale. In primo luogo, incontrano direttamente questo fenomeno nella propria attività e, in secondo luogo, grandi dati aprire eccellenti opportunità per lo sviluppo di nuove nicchie di mercato e l’attrazione di nuovi clienti.

Sul mercato sono apparse molte startup che fanno affari elaborando enormi quantità di dati. Alcuni di loro utilizzano infrastrutture cloud già pronte fornite da grandi player come Amazon.

Teoria e pratica dei Big Data nelle industrie

Storia dello sviluppo

2017

Previsioni TmaxSoft: la prossima “ondata” di Big Data richiederà la modernizzazione del DBMS

Le aziende sanno che le grandi quantità di dati che accumulano contengono Informazioni importanti sulla loro attività e sui loro clienti. Se un’azienda riesce ad applicare con successo queste informazioni, avrà un vantaggio significativo rispetto ai suoi concorrenti e sarà in grado di offrire prodotti e servizi migliori dei loro. Tuttavia, molte organizzazioni ancora non riescono a utilizzarle in modo efficace grandi dati a causa del fatto che la loro infrastruttura IT legacy non è in grado di fornire la capacità di archiviazione, i processi di scambio di dati, le utilità e le applicazioni necessarie per elaborare e analizzare grandi quantità di dati non strutturati per estrarne informazioni preziose, ha indicato TmaxSoft.

Inoltre, la maggiore potenza di elaborazione necessaria per analizzare volumi sempre crescenti di dati può richiedere investimenti significativi nell'infrastruttura IT legacy di un'organizzazione, nonché risorse di manutenzione aggiuntive che potrebbero essere utilizzate per sviluppare nuove applicazioni e servizi.

5 febbraio 2015 La casa Bianca ha pubblicato un rapporto in cui si discute di come le aziende utilizzano " grandi dati» applicare prezzi diversi a clienti diversi, una pratica nota come "discriminazione dei prezzi" o "prezzi personalizzati". Il rapporto descrive i vantaggi dei big data sia per i venditori che per gli acquirenti e i suoi autori concludono che molte delle questioni sollevate dai big data e dalla differenziazione dei prezzi possono essere affrontate attraverso le leggi e i regolamenti antidiscriminazione esistenti che proteggono i diritti dei consumatori.

Il rapporto rileva che al momento esistono solo prove aneddotiche di come le aziende utilizzano i big data nel contesto del marketing personalizzato e dei prezzi differenziati. Queste informazioni mostrano che i venditori utilizzano metodi di determinazione dei prezzi che possono essere suddivisi in tre categorie:

studio della curva di domanda;
Guida e prezzi differenziati in base ai dati demografici; E
marketing comportamentale mirato (targeting comportamentale) e prezzi personalizzati.

Studiare la curva di domanda: Per determinare la domanda e studiare il comportamento dei consumatori, gli esperti di marketing spesso conducono esperimenti in quest'area, durante i quali i clienti vengono assegnati casualmente a uno dei due possibili categorie di prezzo. “Tecnicamente, questi esperimenti sono una forma di prezzi differenziali perché determinano prezzi diversi per i clienti, anche se sono “non discriminatori”, nel senso che tutti i clienti hanno la stessa probabilità di essere “inviati” a un prezzo più alto”.

Timone: È la pratica di presentare prodotti ai consumatori in base alla loro appartenenza a uno specifico gruppo demografico. Sì, sito web compagnia di computer può offrire lo stesso laptop a diverse tipologie di acquirenti a prezzi diversi in base alle informazioni che forniscono su se stessi (ad esempio, a seconda che l'utente sia un rappresentante di agenzie governative, istituzioni scientifiche o commerciali, o un individuo) o alla sua posizione geografica (ad esempio, determinato dall'indirizzo IP del computer).

Marketing comportamentale mirato e prezzi personalizzati: In questi casi, le informazioni personali dei clienti vengono utilizzate per indirizzare la pubblicità e personalizzare i prezzi per determinati prodotti. Ad esempio, gli inserzionisti online utilizzano i dati raccolti dalle reti pubblicitarie e tramite cookie di terze parti sull'attività degli utenti online per indirizzare i propri annunci pubblicitari. Questo approccio, da un lato, consente ai consumatori di ricevere pubblicità di beni e servizi di loro interesse. Tuttavia, può destare preoccupazione per quei consumatori che non desiderano determinati tipi di dati personali (come le informazioni sulle visite ai siti web). legati a questioni mediche e finanziarie) sono stati raccolti senza il loro consenso.

Sebbene il marketing comportamentale mirato sia diffuso, ci sono relativamente poche prove di prezzi personalizzati nell’ambiente online. Il rapporto ipotizza che ciò potrebbe essere dovuto al fatto che i metodi sono ancora in fase di sviluppo, o perché le aziende sono riluttanti a utilizzare prezzi personalizzati (o preferiscono tacere al riguardo), forse temendo una reazione negativa da parte dei consumatori.

Gli autori del rapporto suggeriscono che "per il singolo consumatore, l'uso dei big data comporta chiaramente sia potenziali vantaggi che rischi". Pur riconoscendo che i big data sollevano problemi di trasparenza e discriminazione, il rapporto sostiene che le leggi esistenti contro la discriminazione e la tutela dei consumatori sono sufficienti per affrontarli. Tuttavia, il rapporto evidenzia anche la necessità di un “controllo continuo” quando le aziende utilizzano informazioni sensibili in modi non trasparenti o in modi che non sono coperti dai quadri normativi esistenti.

Il rapporto prosegue gli sforzi della Casa Bianca volti ad esaminare l'uso dei big data e dei prezzi discriminatori su Internet e le conseguenze che ne derivano per i consumatori americani. Lo si era già detto in precedenza gruppo di lavoro Il Big Data Office della Casa Bianca ha pubblicato il suo rapporto su questo tema nel maggio 2014. Anche la Federal Trade Commission (FTC) ha affrontato questi problemi durante il workshop del settembre 2014 sulla discriminazione dei big data.

2014

Gartner sfata i miti sui Big Data

Una nota di ricerca di Gartner dell’autunno 2014 elenca una serie di miti comuni sui Big Data tra i leader IT e fornisce loro confutazioni.

Tutti stanno implementando sistemi di elaborazione Big Data più velocemente di noi

L’interesse per le tecnologie Big Data è ai massimi storici: il 73% delle organizzazioni intervistate quest’anno dagli analisti Gartner stanno già investendo o pianificando di farlo. Ma la maggior parte di queste iniziative sono ancora nelle fasi iniziali e solo il 13% degli intervistati ha già implementato tali soluzioni. La cosa più difficile è determinare come trarre profitto dai Big Data e decidere da dove cominciare. Molte organizzazioni rimangono bloccate nella fase pilota perché non possono impegnarsi nuova tecnologia a specifici processi aziendali.

Abbiamo così tanti dati che non è necessario preoccuparsi di piccoli errori

Alcuni responsabili IT ritengono che piccoli difetti nei dati non influenzino i risultati complessivi dell'analisi di volumi enormi. Quando i dati sono molti, ogni singolo errore in realtà ha un impatto minore sul risultato, notano gli analisti, ma gli errori stessi diventano più numerosi. Inoltre, la maggior parte dei dati analizzati sono esterni, di struttura o origine sconosciuta, quindi aumenta la probabilità di errori. Quindi, nel mondo dei Big Data, la qualità è in realtà molto più importante.

Le tecnologie Big Data elimineranno la necessità di integrazione dei dati

I Big Data promettono la capacità di elaborare i dati nel loro formato originale, con la generazione automatica dello schema man mano che vengono letti. Si ritiene che ciò consentirà di analizzare le informazioni provenienti dalle stesse fonti utilizzando più modelli di dati. Molti credono che ciò consentirà anche agli utenti finali di interpretare qualsiasi set di dati come ritengono opportuno. In realtà, la maggior parte degli utenti spesso desidera il metodo tradizionale con uno schema già pronto, in cui i dati sono formattati in modo appropriato e ci sono accordi sul livello di integrità delle informazioni e su come dovrebbero relazionarsi al caso d'uso.

Non ha senso utilizzare i data warehouse per analisi complesse

Molti amministratori di sistemi di gestione delle informazioni ritengono che non abbia senso dedicare tempo alla creazione di un data warehouse, data la sua complessità sistemi analitici utilizzare nuovi tipi di dati. In effetti, molti sistemi di analisi complessi utilizzano le informazioni di un data warehouse. In altri casi, è necessario preparare ulteriormente nuovi tipi di dati per l’analisi nei sistemi di elaborazione dei Big Data; occorre prendere decisioni sull'idoneità dei dati, sui principi di aggregazione e sul livello di qualità richiesto; tale preparazione può avvenire al di fuori del magazzino.

I data warehouse saranno sostituiti dai data lake

In realtà, i fornitori ingannano i clienti posizionando i data Lake come sostituti dello storage o come elementi critici dell’infrastruttura analitica. Le tecnologie data Lake sottostanti non hanno la maturità e l’ampiezza delle funzionalità presenti nei warehouse. Pertanto, secondo Gartner, i gestori responsabili della gestione dei dati dovrebbero attendere che i laghi raggiungano lo stesso livello di sviluppo.

Accenture: il 92% di chi ha implementato sistemi big data è soddisfatto dei risultati

Tra i principali vantaggi dei big data, gli intervistati hanno indicato:

“alla ricerca di nuove fonti di reddito” (56%),
“migliorare l’esperienza del cliente” (51%),
“nuovi prodotti e servizi” (50%) e
“l'afflusso di nuovi clienti e il mantenimento della fedeltà di quelli vecchi” (47%).

Quando hanno introdotto nuove tecnologie, molte aziende hanno dovuto affrontare problemi tradizionali. Per il 51% l'ostacolo è stata la sicurezza, per il 47% il budget, per il 41% la mancanza del personale necessario e per il 35% la difficoltà di integrazione con il sistema esistente. Quasi tutte le aziende intervistate (circa il 91%) prevedono di risolvere presto il problema della carenza di personale e di assumere specialisti di big data.

Le aziende sono ottimiste riguardo al futuro delle tecnologie Big Data. L'89% ritiene che cambierà il business tanto quanto Internet. Il 79% degli intervistati ha notato che le aziende che non si impegnano nei big data perderanno il loro vantaggio competitivo.

Tuttavia, gli intervistati non sono d’accordo su cosa esattamente debba essere considerato Big Data. Il 65% degli intervistati ritiene che si tratti di “file di dati di grandi dimensioni”, il 60% ritiene che si tratti di “analisi e analisi avanzate” e il 50% ritiene che si tratti di “strumenti di visualizzazione dei dati”.

Madrid spende 14,7 milioni di euro per la gestione dei big data

Nel luglio 2014 si è saputo che Madrid avrebbe utilizzato le tecnologie dei big data per gestire le infrastrutture della città. Il costo del progetto è di 14,7 milioni di euro, la base delle soluzioni implementate saranno le tecnologie per l'analisi e la gestione dei big data. Con il loro aiuto, l'amministrazione comunale gestirà il lavoro con ciascun fornitore di servizi e pagherà di conseguenza in base al livello dei servizi.

Parliamo di appaltatori dell'amministrazione che monitorano lo stato delle strade, dell'illuminazione, dell'irrigazione, degli spazi verdi, effettuano la pulizia e la rimozione del territorio, nonché la raccolta differenziata dei rifiuti. Nel corso del progetto sono stati sviluppati 300 indicatori chiave di prestazione dei servizi cittadini per ispettori appositamente designati, sulla base dei quali verranno effettuati ogni giorno 1,5mila controlli e misurazioni diverse. Inoltre, la città inizierà a utilizzare una piattaforma tecnologica innovativa denominata Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Esperti: i Big Data sono di moda

Senza eccezioni, tutti i fornitori nel mercato della gestione dei dati stanno attualmente sviluppando tecnologie per la gestione dei Big Data. Questa nuova tendenza tecnologica viene discussa attivamente anche dalla comunità professionale, sia sviluppatori che analisti del settore e potenziali consumatori di tali soluzioni.

Come ha scoperto Datashift, a gennaio 2013 si è verificata un'ondata di discussioni su " grandi dati"superò ogni dimensione immaginabile. Dopo aver analizzato il numero di menzioni dei Big Data sui social network, Datashift ha calcolato che nel 2012 il termine è stato utilizzato circa 2 miliardi di volte nei post creati da circa 1 milione di autori diversi in tutto il mondo. Ciò equivale a 260 post all’ora, con un picco di 3.070 menzioni all’ora.

Gartner: Un CIO su due è pronto a spendere soldi per i Big Data

Dopo diversi anni di sperimentazione con le tecnologie Big Data e le prime implementazioni nel 2013, l’adattamento di tali soluzioni aumenterà in modo significativo, prevede Gartner. I ricercatori hanno intervistato i leader IT di tutto il mondo e hanno scoperto che il 42% degli intervistati ha già investito in tecnologie Big Data o prevede di effettuare tali investimenti entro il prossimo anno (dati a marzo 2013).

Le aziende sono costrette a spendere soldi nelle tecnologie di elaborazione grandi dati Poiché il panorama dell’informazione sta cambiando rapidamente, abbiamo bisogno di nuovi approcci all’elaborazione delle informazioni. Molte aziende hanno già capito che grandi quantità di dati sono fondamentali e lavorare con loro consente loro di ottenere vantaggi che non sono disponibili utilizzando le tradizionali fonti di informazioni e i metodi di elaborazione. Inoltre, la discussione costante sul tema dei “big data” nei media alimenta l’interesse per le tecnologie rilevanti.

Frank Buytendijk, vicepresidente di Gartner, ha persino invitato le aziende a mitigare i propri sforzi poiché alcuni temono di restare indietro rispetto ai concorrenti nell’adozione dei Big Data.

“Non c’è motivo di preoccuparsi; le possibilità di implementare idee basate sulle tecnologie dei big data sono praticamente illimitate”, ha affermato.

Gartner prevede che entro il 2015, il 20% delle aziende Global 1000 avrà un focus strategico sull’“infrastruttura informatica”.

In previsione delle nuove opportunità che le tecnologie di elaborazione dei big data porteranno, molte organizzazioni stanno già organizzando il processo di raccolta e archiviazione di vari tipi di informazioni.

Per le organizzazioni educative e governative, così come per le aziende industriali, il maggior potenziale di trasformazione aziendale risiede nella combinazione dei dati accumulati con i cosiddetti dark data (letteralmente “dati oscuri”), questi ultimi includono messaggi E-mail, contenuti multimediali e altri contenuti simili. Secondo Gartner, i vincitori nella corsa ai dati saranno coloro che impareranno a gestire una varietà di fonti di informazione.

Sondaggio Cisco: i Big Data contribuiranno ad aumentare i budget IT

Il Cisco Connected World Technology Report della primavera 2013, condotto in 18 paesi dalla società di ricerca indipendente InsightExpress, ha intervistato 1.800 studenti universitari e un numero uguale di giovani professionisti di età compresa tra 18 e 30 anni. L'indagine è stata condotta per scoprire il livello di preparazione dei dipartimenti IT all'implementazione dei progetti Grandi dati e ottenere informazioni dettagliate sulle sfide, sulle carenze tecnologiche e sul valore strategico di tali progetti.

La maggior parte delle aziende raccoglie, registra e analizza i dati. Tuttavia, afferma il rapporto, molte aziende si trovano ad affrontare una serie di sfide complesse legate al business e alla tecnologia informatica legate ai Big Data. Ad esempio, il 60% degli intervistati ammette che le soluzioni Big Data possono migliorare i processi decisionali e aumentare la competitività, ma solo il 28% ha affermato di ricevere già reali vantaggi strategici dalle informazioni accumulate.

Più della metà dei dirigenti IT intervistati ritiene che i progetti Big Data contribuiranno ad aumentare i budget IT nelle loro organizzazioni, poiché ci sarà una maggiore domanda di tecnologia, personale e competenze professionali. Allo stesso tempo, più della metà degli intervistati prevede che tali progetti aumenteranno i budget IT delle loro aziende già nel 2012. Il 57% è fiducioso che i Big Data aumenteranno il proprio budget nei prossimi tre anni.

L’81% degli intervistati ha affermato che tutti (o almeno alcuni) i progetti Big Data richiederanno l’uso del cloud computing. Pertanto, la diffusione delle tecnologie cloud potrebbe influire sulla velocità di adozione delle soluzioni Big Data e sul valore aziendale di tali soluzioni.

Le aziende raccolgono e utilizzano i dati dalla maggior parte tipi diversi, sia strutturati che non strutturati. Ecco le fonti da cui i partecipanti al sondaggio ricevono i loro dati (Cisco Connected World Technology Report):

Quasi la metà (48%) dei leader IT prevede che il carico sulle proprie reti raddoppierà nei prossimi due anni. (Ciò è particolarmente vero in Cina, dove il 68% degli intervistati condivide questa opinione, e in Germania – 60%). Il 23% degli intervistati prevede che il carico di rete triplicherà nei prossimi due anni. Allo stesso tempo, solo il 40% degli intervistati ha dichiarato di essere pronto a una crescita esplosiva dei volumi del traffico di rete.

Il 27% degli intervistati ha ammesso di aver bisogno di migliori politiche IT e misure di sicurezza delle informazioni.

Il 21% necessita di più larghezza di banda.

I Big Data aprono nuove opportunità ai dipartimenti IT per aggiungere valore e costruire solide relazioni con le unità aziendali, consentendo loro di aumentare i ricavi e rafforzare la posizione finanziaria dell'azienda. I progetti Big Data rendono i dipartimenti IT un partner strategico per i dipartimenti aziendali.

Secondo il 73% degli intervistati il reparto IT diventerà il principale motore dell’attuazione della strategia Big Data. Allo stesso tempo, gli intervistati ritengono che anche altri dipartimenti saranno coinvolti nell’attuazione di questa strategia. Si tratta innanzitutto dei dipartimenti finanza (citati dal 24%), ricerca e sviluppo (20%), operazioni (20%), ingegneria (19%), marketing (15%) e vendite ( 14 per cento).

Gartner: milioni di nuovi posti di lavoro necessari per gestire i big data

La spesa IT globale raggiungerà i 3,7 miliardi di dollari entro il 2013, ovvero il 3,8% in più rispetto alla spesa per la tecnologia dell'informazione nel 2012 (la previsione di fine anno è di 3,6 miliardi di dollari). Segmento grandi dati(big data) si svilupperanno a un ritmo molto più rapido, afferma un rapporto Gartner.

Entro il 2015, saranno creati 4,4 milioni di posti di lavoro nel settore informatico per servire i big data, di cui 1,9 milioni nel settore . Inoltre, ciascuno posto di lavoro comporterà la creazione di tre posti di lavoro aggiuntivi al di fuori del settore informatico, tanto che nei soli Stati Uniti nei prossimi quattro anni 6 milioni di persone lavoreranno per sostenere l’economia dell’informazione.

Secondo gli esperti di Gartner, il problema principale è che nel settore non ci sono abbastanza talenti per questo: sia il sistema educativo privato che quello pubblico, ad esempio negli Stati Uniti, non sono in grado di fornire al settore un numero sufficiente di personale qualificato . Pertanto, dei nuovi posti di lavoro IT menzionati, solo uno su tre avrà personale.

Gli analisti ritengono che il ruolo di formare personale IT qualificato dovrebbe essere assunto direttamente dalle aziende che ne hanno urgentemente bisogno, poiché tali dipendenti saranno il loro biglietto per un nuovo economia dell'informazione futuro.

2012

Il primo scetticismo sui “Big Data”

Gli analisti di Ovum e Gartner lo suggeriscono come argomento di moda nel 2012 grandi dati Potrebbe arrivare il momento di liberarti dalle illusioni.

Il termine “Big Data” in questo momento si riferisce solitamente al volume in costante crescita di informazioni che entrano nel modalità operativa dai social media, dalle reti di sensori e da altre fonti, nonché da una gamma crescente di strumenti utilizzati per elaborare i dati e identificare da essi importanti tendenze aziendali.

"A causa (o malgrado) del clamore attorno all'idea dei big data, nel 2012 i produttori hanno guardato a questa tendenza con grande speranza", ha affermato Tony Bayer, analista di Ovum.

Bayer ha riferito che DataSift ha condotto un'analisi retrospettiva dei riferimenti ai big data

Qualsiasi azione dell'utente su Internet non è più un segreto gelosamente custodito. Puoi tenere traccia letteralmente di tutto, dagli acquisti online ai Mi piace, grazie al concetto di Big Data. Il risultato è che impari di più sul tuo pubblico target e fai offerte personalizzate. Più precisamente, la macchina fa tutto per te: analizza e uniforma soluzione ottimale accetterà.

Diresti che è fantastico? Naturalmente il meccanismo non è ancora così diffuso, soprattutto in Russia, e non è stato ancora completamente debuggato, ma i primi passi in tal senso sono stati sicuramente fatti.

Quando si tratta di big data, ciò che conta non è quanto raccogli, ma come li usi. In generale, i Big Data sono una tecnica universale. In questo articolo vedremo la sua applicazione nel marketing e nelle vendite.

Cosa sono i Big Data

Grandi aziende di trasporto, negozi online, fornitori di telecomunicazioni, servizi SaaS, banche: in una parola, le aziende con un'ampia base di clienti raccolgono un'enorme quantità di informazioni.

Non si tratta solo di dati personali (nome, email, telefono, sesso, età, geografia), ma anche di indirizzo IP, ora di visita del sito, numero di visite, richieste sul sito, cronologia degli acquisti, ecc. Ogni azienda ha le sue specificità e i suoi dati unici, che sono disponibili solo a lei.

Ad esempio, un servizio taxi “conosce” ogni passo e secondo trascorso dall’utente durante un viaggio. Servizio bancario online: cosa è stato pagato, quando e con quale importo. Negozio online: quali prodotti hai guardato, aggiunti al carrello, aggiunti ai preferiti, ecc.

Cioè, questi non sono solo i dati che ogni azienda accumula in un sistema CRM. Questo è tutto ciò che un'azienda può sapere sui clienti e nei singoli casi può essere misurato in terabyte di informazioni. I database regolari non possono elaborare tali volumi. Se non altro perché i dati cambiano regolarmente e arrivano - verticalmente (+ nuovo cliente) e orizzontalmente (+ informazioni aggiuntive sul cliente).

Inoltre, sono diversi e non strutturati, poiché sono presentati in fonti completamente diverse, ad esempio:

Blog e social network;
File audio e video;
Banche dati aziendali;
Sensori, dispositivi di misurazione e reti di sensori.

Questi sono i Big Data. Qualcosa di più astratto dei documenti fisici, e quindi al di fuori del controllo umano. Gli algoritmi delle macchine vengono in soccorso.

Data Mining ovvero il modo in cui i big data vengono raccolti ed elaborati

Da dove vengono i big data?

Innanzitutto, questo è il tuo sito Web e tutti i punti di acquisizione dei dati di contatto.

In secondo luogo, contatori e sistemi di analisi (Yandex.Metrica, Google Analytics).

Come vengono elaborati i big data? Ecco le principali soluzioni del mercato Big Data:

Sistemi di gestione di database (Sap, Oracle, Microsoft, IBM e altri), che archiviano ed elaborano informazioni, analizzano la dinamica degli indicatori e forniscono risultati in report statistici;

Servizi di gestione degli acquisti pubblicitari RTB che prevedono le azioni degli utenti target e mirano la pubblicità nei canali online (ad esempio, Segmento, RTB-Media);
Servizi di raccomandazione di prodotti che mostrano sul sito web i prodotti che sono più interessanti per un particolare utente (RetailRocket, 1C-Bitrix BigData);
Servizi di personalizzazione dei contenuti che mostrano agli utenti le versioni più adatte delle pagine delle risorse (Personyze, Monoloop, Crosss);
Servizi di personalizzazione dell'invio che inviano lettere mirate (ad esempio Vero, Personyze);

Questi sistemi cooperano attivamente tra loro, migliorano e aggiornano la funzionalità.

Come funziona la tecnologia Big Data e cos'è la Data Science?

L’essenza pratica di questo approccio è ridurre al minimo il coinvolgimento umano nel processo decisionale. Questo è il concetto su cui si basa Scienza dei dati(letteralmente "scienza dei dati").

Secondo questo concetto, i big data sono governati da un modello statistico. Trova relazioni nascoste nei dati e, nel modo più accurato possibile (grazie all'obiettività e ad un ampio campione di dati), prevede il comportamento di un utente specifico - se acquisterà un prodotto, si iscriverà a una newsletter o sarà interessato a un articolo.

Allo stesso tempo avviene un continuo processo di autoapprendimento. Cioè, la macchina stessa impara (il principio del Machine Learning) in tempo reale e crea algoritmi per ottimizzare i processi aziendali.

Determina e suggerisce in modo indipendente:

Cosa, dove e quando offrire all'utente per massimizzare la probabilità di conversione;
Come aumentare il cross-selling e l'upselling;
Quali prodotti sono i più apprezzati e perché;
Come migliorare un prodotto/servizio per soddisfare le esigenze del pubblico target.

Nella vendita al dettaglio, le macchine possono prendere le seguenti decisioni:

Dove aprire il prossimo negozio;
Quali campagne di marketing realizzare;
Come prevedere le vendite nel futuro;
Come identificare il “core” del pubblico;
Di quanto aumentare/ridurre i prezzi il prossimo mese;
Come ottimizzare il budget di marketing;
Come identificare i clienti che partiranno nel prossimo mese.

Nel marketing, questo ti consente di segmentare pubblico di destinazione, sviluppare creatività e offerte personali per ciascun segmento. Sfortunatamente, su questo momento questo processo è solo parzialmente automatizzato.

Ecco un esempio.

Target ha deciso di intraprendere una sfida non ortodossa: prendere di mira le donne incinte prima che cercassero argomenti, condividessero le notizie sui social media o ne parlassero in altro modo online.

Come è successo? La conoscenza delle abitudini di acquisto ha aiutato. Vale a dire, Target ha scoperto in uno studio che le future mamme acquistano molte lozioni non profumate, tovaglioli di cotone e salviette.

Un altro esempio.

Servizio russo e-book Bookmate sapeva poco dei reali interessi dei suoi utenti. Hanno presentato la domanda, ma i libri offerti non li interessavano. La situazione è migliorata grazie all'utilizzo delle informazioni dei social network. Le visualizzazioni dei consigli sono aumentate di 2,17 volte e la conversione in utenti paganti è aumentata di 1,4 volte.

British Airways ha portato la personalizzazione a un livello completamente nuovo. Nell'ambito del programma Know Me, riconosce i volti dei clienti utilizzando Servizio Google Immagini. Il personale riconosce i passeggeri ai terminal dell'aeroporto o a bordo degli aerei e li saluta personalmente per nome.

Inoltre, i dati personali dei passeggeri dei voli precedenti consentono alla compagnia aerea di scusarsi personalmente con coloro che hanno subito ritardi nei voli in passato o i cui bagagli sono andati perduti.

Queste e altre informazioni sulla base (ad esempio, le preferenze alimentari) sono disponibili per gli assistenti di volo British Airways su speciali tablet di lavoro.

Big Data nell'e-commerce: il caso di Netology

L'obiettivo è ottimizzare la comunicazione di marketing per 3 negozi online di cosmetici e prodotti per la cura con un assortimento di oltre 500 prodotti.

Cosa hanno fatto gli specialisti di Netology per questo?

Abbiamo iniziato raccogliendo tutti i dati disponibili sul comportamento di consumo della base clienti - circa 100mila consumatori - dai popolari sistemi di e-commerce Magento e Shopify.

Informazioni su acquisti, carrelli, fattura media, tempi di ordine, ecc.;
Feedback iscritti alla newsletter via e-mail: dati sull'apertura delle lettere e sul clic sui collegamenti da servizi come Mailchimp e Dotmailer, nonché la successiva attività sul sito (visualizzazione di schede prodotto, categorie, acquisti dopo l'invio);
L'attività di visite ripetute da parte di clienti abituali in base ai dati sulle visualizzazioni del prodotto prima di effettuare un acquisto.

Da questi dati abbiamo ottenuto i seguenti indicatori:

Dimensione ottimale dello sconto;
Durata del cliente e valore totale (LTV);
Probabilità di acquisti ripetuti.

Ciò ha creato un'immagine completa di ciascun cliente con un insieme unico di preferenze, abitudini e caratteristiche.

Diciamo:

Cliente A. Acquista lo stesso shampoo per capelli ogni mese. Non vi è alcun motivo per effettuare ulteriori promozioni su questo prodotto per questo cliente. È meglio offrirgli di acquistare un balsamo o una maschera aggiuntivi della stessa marca tra un mese.

Cliente B. Ho comprato acqua di toilette e profumo una volta e dopo non ho più comprato nulla. Tuttavia guarda la posta di un negozio online ed è interessato ai cosmetici decorativi. Esiste la possibilità che il cliente B faccia acquisti altrove. Offrire un set di ombretti scontati può rappresentare un incentivo decisivo per effettuare un acquisto.

Sulla base di queste informazioni, il sistema ha creato segmenti per il lancio di campagne via e-mail e Facebook: in una settimana sono state realizzate dalle 40 alle 100 campagne automatizzate per ciascun marchio.

Durante la raccolta dei dati, i ricercatori hanno identificato una serie di fattori scatenanti. Ad esempio, un certo gruppo di utenti visualizza la posta al mattino e la sera torna a casa e acquista il prodotto che ha visto. La sera ha senso duplicare l'offerta di prodotti attraverso un canale aggiuntivo.

Risultato:è riuscito a triplicare le vendite ripetute, ad aumentare il tasso di apertura delle lettere in media del 70% e il tasso di conversione di coloro che hanno ricevuto la lettera dell'83%.

“Umanizzare” i dati: il caso Yandex.Taxi

Yandex.Taxi dispone di dati univoci su tutti i viaggi. Sulla base di essi, le comunicazioni di marketing possono essere rese più emozionali. L'idea principale è "comunicare" con i clienti in modo amichevole e ricordarti discretamente te stesso. Le statistiche personali sotto forma di storie e personaggi hanno contribuito a implementarlo.

Facciate mediatiche

Gli esperti di marketing di Yandex.Taxi hanno scoperto i luoghi e i percorsi più popolari della città. Per fare questo abbiamo calcolato il numero di ordini per i luoghi più significativi: parchi, teatri, musei, monumenti. Questi dati non sono così personali e non offendono nessuno, ma mostrano come vive la città.

Tali osservazioni hanno permesso di implementare l'idea della comunicazione personale con il pubblico attraverso le facciate dei media. Il design è stato progettato sotto forma di messaggi di chat amichevoli. Ogni città ha le sue frasi.

La società sembra stia scambiando una frase con una persona che solo lui capirà. È contento perché questa è attenzione e partecipazione e Yandex.Taxi spera di aumentare la consapevolezza del marchio in città.

Durante la composizione del testo sono state utilizzate le seguenti tecniche:

Lo slang cittadino è una parola locale che tutti i residenti comprendono. Li abbiamo cercati nelle pagine pubbliche e nei forum cittadini, e abbiamo anche consultato i dirigenti regionali e gli storici locali. Ad esempio, a Kazan l'ufficio del registro si chiama "Bowl", l'argine a Ekaterinburg si chiama "Drama";
Un gioco di parole. Ecco alcuni esempi:

3.090 persone che si sono recate a Madrid in taxi. E tu sai molto sui viaggi! ("Madrid" è un hotel a Ekaterinburg).

958 persone che si precipitarono su Giove. Sei solo spazio! (“Jupiter” è il nome dell'azienda).

Si trattava di un esperimento di prova; ora Yandex sta sviluppando una campagna più completa che coinvolge varie fonti online e offline.

I video di Capodanno

Alla fine del 2017, Yandex.Taxi ha voluto raccontare ai clienti quanto tempo hanno trascorso insieme e ringraziarli per questo: quanti viaggi, minuti di attesa e ordini mattutini.

Per renderlo interessante, abbiamo ideato una probabile trama per un milione di viaggi e abbiamo girato un video su questo argomento con i numeri delle statistiche.

Il risultato è il seguente:

764 milioni di minuti di attesa: una coppia di innamorati si saluta in un taxi.

56 milioni di viaggi mattutini all'anno: madre e figlia vanno a un matinée.

122mila viaggi con animali.

Dai risultati del primo tentativo abbiamo scoperto che dai video sembrava che il brand si vantasse di grandi numeri. Per trasmettere in modo più accurato il messaggio “guarda quanto tempo abbiamo trascorso insieme quest’anno”, le statistiche sono state modificate per spostare l’attenzione sui personaggi della storia.

I numeri in sé non significano nulla. È difficile capire se questa figura sia grande o piccola e cosa volessero mostrare con essa. Yandex utilizzava i dati non come fine a se stesso, ma come un modo per raccontare una storia.

Uova di Pasqua nell'app

L'azienda ha anche creato dei personaggi per i suoi clienti - i “tipi di taxi” - a seconda del numero di viaggi, della loro durata e dei minuti di attesa. Il meccanismo di determinazione ha tenuto conto di queste tre caratteristiche, ha costruito un'immagine del cliente e le ha assegnate ad una delle categorie:

I dati sono stati valutati per la città in cui una persona ha effettuato oltre il 70% dei suoi spostamenti.

L'algoritmo ha trovato la mediana della città e, rispetto ad essa, ha valutato le metriche: “molti” o “pochi” spostamenti, minuti di viaggio e attese.

Ogni utente che ha effettuato più di 4 viaggi in un anno potrà verificare nell'applicazione la propria “tipologia taxi” cliccando sul pulsante:

Per esempio:

Puma nero: viaggiato molto, viaggi brevi, raramente partito in tempo

Un viandante lungimirante: ha viaggiato molto, a lungo, ed è arrivato puntuale alla sua macchina

Il 20% di coloro che hanno visualizzato, hanno fatto screenshot dei risultati e li hanno condivisi sui social network: il doppio di quanto previsto!

Statistiche per gli autisti

Il futuro dei Big Data

Gli esperimenti con i big data continuano.

Yandex è una delle aziende pioniere che non solo insegna il concetto di Data Science, ma lo utilizza anche attivamente nello sviluppo dei propri prodotti.

Prendiamo la piattaforma di blogging Yandex.Zen. È disponibile in diversi paesi. Non è necessario ordinare il materiale per argomenti e altri parametri e personalizzare la visualizzazione per determinate categorie di utenti. Tutti leggeranno gli articoli che gli interessano e riceveranno una nuova selezione di articoli simili. Il sistema offre semplicemente ciò che probabilmente gli piacerà.

Il fatto è che l'intelligenza artificiale non mira a fare la media. Non si sforza di creare un numero limitato di segmenti, poiché le sue capacità gli consentono di offrire contenuti personalizzati a ciascuno dei suoi diversi miliardi di utenti.

Un analogo straniero può essere chiamato alexa.com: questa è una classifica dei siti più visitati in tutto il mondo e in diversi paesi separatamente (le selezioni dei paesi sono a pagamento e costano denaro).

La raccolta automatica dei dati (tramite i suoi servizi, come Yandex.Browser, ecc.) e i modelli statistici consentono di includere nell'elenco siti che non partecipano ad altre valutazioni.

Anche nella sua forma attuale, ciò consente di identificare leader in varie nicchie e, utilizzando altri servizi, modellare le loro strategie di promozione e fonti di traffico.

Diciamo che selezioni 5-10 utenti e la macchina ne trova migliaia simili e li prende di mira. Il vantaggio dell'intelligenza artificiale è che tiene conto di fattori che anche uno specialista esperto può trascurare o non immaginare.

Impara a distinguere quali decisioni sono prese meglio da una persona e quali decisioni sono prese meglio da una macchina, e non confondere queste due classi. Mentre gli algoritmi affrontano meglio compiti simili (scegliere il design di un pulsante), quelli più creativi (progettare un sito web da zero) possono essere svolti solo dagli esseri umani.
Formare non solo le persone, ma anche gli algoritmi;
Tieni presente che, sebbene gli algoritmi siano bravi a rispondere alle domande, non sono bravi a porre domande da soli. Sebbene sia possibile, anche questa è una questione di tempo.

A proposito, la questione del “confronto” tra l’uomo e l’intelligenza della macchina viene sollevata sempre più spesso. In questa occasione, guarda la battaglia tra Andrey Sebrant e Anton Bulanov (direttore di INVITRO, la più grande azienda medica privata).

Riguardo alla segmentazione, agli esperti di marketing con gli assi, al consumo di budget e alla possibilità che il pulsante "Portami clienti" venga visualizzato nel prossimo futuro.

Sembra un gioco da ragazzi.

Prefazione

“Big data” è un termine di moda al giorno d’oggi, che appare in quasi tutte le conferenze professionali dedicate all’analisi dei dati, all’analisi predittiva, al data mining, al CRM. Il termine viene utilizzato in aree in cui è rilevante lavorare con volumi di dati qualitativamente grandi, dove c'è un costante aumento della velocità del flusso di dati nel processo organizzativo: economia, bancario, produzione, marketing, telecomunicazioni, analisi web, medicina, ecc.

Insieme al rapido accumulo di informazioni, anche le tecnologie di analisi dei dati si stanno sviluppando rapidamente. Se qualche anno fa era possibile, ad esempio, solo segmentare i clienti in gruppi con preferenze simili, ora è possibile costruire modelli per ciascun cliente in tempo reale, analizzando, ad esempio, il suo movimento su Internet per cercare uno specifico Prodotto. È possibile analizzare gli interessi del consumatore e, secondo il modello costruito, ricavare annunci pubblicitari adeguati o offerte concrete. Il modello può anche essere modificato e ricostruito in tempo reale, cosa impensabile solo pochi anni fa.

Nel campo delle telecomunicazioni, ad esempio, sono state sviluppate tecnologie per determinare l'ubicazione fisica dei telefono cellulare e dei loro proprietari, e sembra che l'idea descritta nel film di fantascienza del 2002 Minority Report, in cui l'esposizione di informazioni pubblicitarie nei centri commerciali teneva conto degli interessi di specifici individui di passaggio, diventerà presto realtà.

Allo stesso tempo, ci sono situazioni in cui la passione per le nuove tecnologie può portare alla delusione. Ad esempio, a volte i dati sparsi ( Dati sparsi), che forniscono importanti informazioni sulla realtà, sono molto più preziosi di Grandi dati(Big Data), che descrivono le montagne, spesso non contengono informazioni essenziali.

Lo scopo di questo articolo è fare chiarezza e riflettere sulle nuove funzionalità dei Big Data e illustrare come funziona la piattaforma di analisi STATISTICA StatSoft può aiutarti a utilizzare in modo efficace i Big Data per ottimizzare i processi e risolvere problemi.

Quanto sono grandi i Big Data?

Naturalmente la risposta corretta a questa domanda dovrebbe essere “dipende…”

Nelle discussioni moderne, il concetto di Big Data è descritto come dati nell'ordine di terabyte.

In pratica (se parliamo di gigabyte o terabyte), tali dati sono facili da archiviare e gestire utilizzando database “tradizionali” e hardware standard (server di database).

Software STATISTICA utilizza la tecnologia multi-thread per algoritmi per l'accesso ai dati (lettura), la trasformazione e la creazione di modelli predittivi (e di punteggio), quindi tali campioni di dati possono essere facilmente analizzati e non richiedono strumenti specializzati.

Alcuni attuali progetti StatSoft elaborano campioni dell'ordine di 9-12 milioni di righe. Moltiplichiamoli per 1000 parametri (variabili), raccolti e organizzati in un data warehouse per costruire modelli di rischio o predittivi. Questo tipo di file avrà una dimensione “solo” di circa 100 gigabyte. Questo, ovviamente, non è un piccolo data warehouse, ma le sue dimensioni non superano le capacità della tecnologia di database standard.

Linea di prodotto STATISTICA per l'analisi batch e la costruzione di modelli di scoring ( STATISTICA impresa), soluzioni in tempo reale ( STATISTICA Risultati in tempo reale) e strumenti analitici per la creazione e la gestione dei modelli ( STATISTICA Data Miner, Decisione) è facilmente scalabile su più server con processori multi-core.

In pratica, ciò significa che una velocità di funzionamento dei modelli analitici (ad esempio, previsioni sul rischio di credito, probabilità di frode, affidabilità dei componenti delle apparecchiature, ecc.) sufficiente per consentire di prendere decisioni operative può quasi sempre essere raggiunta utilizzando strumenti standard STATISTICA.

Dai grandi volumi di dati ai Big Data

In genere, le discussioni sui Big Data si concentrano su data warehouse (e analisi basate su tali warehouse) che sono molto più grandi di pochi terabyte.

In particolare, alcuni data warehouse possono raggiungere migliaia di terabyte, ovvero fino a petabyte (1000 terabyte = 1 petabyte).

Oltre i petabyte, l’accumulo di dati può essere misurato in exabyte; ad esempio, si stima che il settore manifatturiero a livello mondiale nel 2010 abbia accumulato un totale di 2 exabyte nuova informazione(Manyika et al., 2011).

Ci sono settori in cui i dati vengono raccolti e accumulati in modo molto intensivo.

Ad esempio, in un ambiente produttivo come una centrale elettrica, viene generato un flusso continuo di dati, a volte per decine di migliaia di parametri, ogni minuto o addirittura ogni secondo.

Inoltre, negli ultimi anni sono state introdotte le cosiddette tecnologie “smart grid”, che consentono ai servizi pubblici di misurare il consumo di elettricità delle singole famiglie ogni minuto o ogni secondo.

Per questo tipo di applicazione, dove i dati devono essere conservati per anni, i dati accumulati vengono classificati come Extremely Big Data.

Vi è inoltre un numero crescente di applicazioni Big Data nei settori commerciale e governativo, dove il volume dei dati archiviati può raggiungere centinaia di terabyte o petabyte.

Le moderne tecnologie consentono di “tracciare” le persone e il loro comportamento diversi modi. Ad esempio, quando utilizziamo Internet, facciamo acquisti nei negozi online o nelle grandi catene di negozi come Walmart (secondo Wikipedia, la capacità di archiviazione dei dati di Walmart è stimata in più di 2 petabyte) o ci muoviamo con il cellulari- lasciamo una traccia delle nostre azioni, che porta all'accumulo di nuove informazioni.

Vari metodi di comunicazione, dalle semplici telefonate al caricamento di informazioni attraverso siti di social network come Facebook (secondo Wikipedia, ogni mese vengono scambiati 30 miliardi di informazioni), o la condivisione di video su siti come YouTube (Youtube afferma di caricare 24 ore su 24) di video ogni minuto; vedi Wikipedia), generando enormi quantità di nuovi dati ogni giorno.

Allo stesso modo, le moderne tecnologie mediche generano grandi quantità di dati rilevanti per la fornitura di assistenza sanitaria (immagini, video, monitoraggio in tempo reale).

Pertanto, la classificazione dei volumi di dati può essere rappresentata come segue:

Set di dati di grandi dimensioni: da 1000 megabyte (1 gigabyte) a centinaia di gigabyte

Enormi set di dati: da 1000 gigabyte (1 terabyte) a diversi terabyte

Big Data: da diversi terabyte a centinaia di terabyte

Dati estremamente grandi: da 1.000 a 10.000 terabyte = da 1 a 10 petabyte

Compiti legati ai Big Data

Esistono tre tipi di attività relative ai Big Data:

1. Conservazione e gestione

Volumi di dati di centinaia di terabyte o petabyte non possono essere facilmente archiviati e gestiti utilizzando i tradizionali database relazionali.

2. Informazioni non strutturate

La maggior parte dei Big Data non è strutturata. Quelli. come organizzare testi, video, immagini, ecc.?

3. Analisi dei Big Data

Come analizzare le informazioni non strutturate? Come creare report semplici basati su Big Data, costruire e implementare modelli predittivi approfonditi?

Archiviazione e gestione dei Big Data

I Big Data vengono generalmente archiviati e organizzati in file system distribuiti.

In termini generali, le informazioni vengono archiviate su diversi (a volte migliaia) dischi rigidi di computer standard.

La cosiddetta “mappa” tiene traccia di dove (su quale computer e/o disco) è archiviata una specifica informazione.

Per garantire tolleranza agli errori e affidabilità, ogni informazione viene solitamente memorizzata più volte, ad esempio tre volte.

Quindi, ad esempio, supponiamo che tu abbia raccolto singole transazioni da una grande catena di negozi al dettaglio. informazioni dettagliate Ogni transazione verrà archiviata su server e dischi rigidi diversi e la “mappa” indicherà dove sono archiviate esattamente le informazioni sulla transazione corrispondente.

Utilizzando hardware standard e strumenti software open source per gestire questo file system distribuito (ad es. Hadoop), è relativamente semplice implementare data warehouse affidabili su scala di petabyte.

Informazioni non strutturate

La maggior parte delle informazioni raccolte viene distribuita file systemè costituito da dati non strutturati come testo, immagini, fotografie o video.

Questo ha i suoi vantaggi e svantaggi.

Il vantaggio è che la capacità di archiviare big data consente di archiviare “tutti i dati” senza preoccuparsi di quale parte dei dati sia rilevante per l’analisi e il processo decisionale successivi.

Lo svantaggio è che in questi casi, da estrarre informazioni utiliè necessaria la post-elaborazione di queste enormi quantità di dati.

Mentre alcune di queste operazioni possono essere semplici (ad esempio semplici calcoli, ecc.), altre richiedono algoritmi più complessi che devono essere progettati specificamente per funzionare in modo efficiente su un file system distribuito.

Un dirigente una volta ha detto a StatSoft di aver "speso una fortuna in IT e archiviazione dei dati e non ha ancora iniziato a guadagnare" perché non ha pensato a come utilizzare al meglio quei dati per migliorare il core business.

Pertanto, sebbene il volume dei dati possa crescere in modo esponenziale, la capacità di estrarre informazioni e agire su tali informazioni è limitata e raggiungerà asintoticamente un limite.

È importante che metodi e procedure per la creazione, l’aggiornamento dei modelli e l’automazione del processo decisionale siano sviluppati insieme ai sistemi di archiviazione dei dati per garantire che tali sistemi siano utili e vantaggiosi per l’azienda.

Analisi dei Big Data

Questo è il vero grande problema con l’analisi dei Big Data non strutturata: come analizzarli in modo utile. DI questa edizione Molto meno è stato scritto sulle tecnologie di archiviazione dei dati e di gestione dei Big Data.

Ci sono una serie di questioni da considerare.

Riduci mappa

Quando si analizzano centinaia di terabyte o petabyte di dati, non è possibile estrarre i dati in un'altra posizione per l'analisi (ad esempio, STATISTICA Enterprise Analysis Server).

Il processo di trasferimento dei dati attraverso i canali a uno o più server separati (per l'elaborazione parallela) richiederà troppo tempo e richiederà troppo traffico.

Invece, i calcoli analitici devono essere eseguiti fisicamente vicino al luogo in cui sono archiviati i dati.

L'algoritmo Map-Reduce è un modello per il calcolo distribuito. Il principio del suo funzionamento è il seguente: i dati di input vengono distribuiti ai nodi di lavoro (nodi individuali) del file system distribuito per l'elaborazione preliminare (fase mappa) e, quindi, i dati già preelaborati vengono piegati (uniti) (fase ridurre) .

Quindi, diciamo, per calcolare il totale, l'algoritmo calcolerà i totali parziali in parallelo in ciascuno dei nodi del file system distribuito, quindi sommerà questi totali parziali.

Su Internet è disponibile un'enorme quantità di informazioni su come eseguire vari calcoli utilizzando il modello di riduzione della mappa, anche per l'analisi predittiva.

Statistiche semplici, Business Intelligence (BI)

Per creare semplici report BI, esistono molti prodotti open source che consentono di calcolare somme, medie, proporzioni, ecc. utilizzando la riduzione della mappa.

Ciò rende molto semplice ottenere conteggi accurati e altre semplici statistiche per i report.

Modellazione predittiva, statistica avanzata

A prima vista, può sembrare che costruire modelli predittivi in un file system distribuito sia più difficile, ma non è affatto così. Consideriamo le fasi preliminari dell'analisi dei dati.

Preparazione dei dati. Qualche tempo fa, StatSoft ha intrapreso una serie di progetti ampi e di successo che coinvolgono set di dati molto grandi che descrivono minuto per minuto i dati di processo di una centrale elettrica. L’obiettivo dell’analisi era migliorare l’efficienza degli impianti e ridurre le emissioni (Electric Power Research Institute, 2009).

È importante che, sebbene i set di dati possano essere molto grandi, le informazioni che contengono siano di dimensioni molto più ridotte.

Ad esempio, mentre i dati vengono accumulati ogni secondo o ogni minuto, molti parametri (temperature del gas e del forno, flussi, posizioni delle serrande, ecc.) rimangono stabili per lunghi intervalli di tempo. In altre parole, i dati registrati ogni secondo sono sostanzialmente ripetizioni delle stesse informazioni.

Pertanto, è necessario effettuare un’aggregazione “intelligente” dei dati, ottenendo dati per la modellazione e l’ottimizzazione che contengano solo le informazioni necessarie sui cambiamenti dinamici che influenzano l’efficienza della centrale elettrica e la quantità di emissioni.

Classificazione del testo e preelaborazione dei dati. Illustriamo ancora una volta come insiemi di dati di grandi dimensioni possano contenere informazioni molto meno utili.

Ad esempio, StatSoft è stata coinvolta in progetti relativi al text mining di tweet che riflettono la soddisfazione dei passeggeri nei confronti delle compagnie aeree e dei loro servizi.

Sebbene un gran numero di tweet rilevanti siano stati recuperati ogni ora e ogni giorno, i sentimenti espressi erano piuttosto semplici e monotoni. La maggior parte dei messaggi sono lamentele e brevi messaggi di una sola frase riguardanti “brutte esperienze”. Inoltre, il numero e la “forza” di questi sentimenti sono relativamente stabili nel tempo e in relazione a questioni specifiche (ad esempio, bagagli smarriti, cibo scadente, cancellazioni di voli).

Pertanto, riducendo i tweet effettivi al sentimento presto (punteggio) utilizzando tecniche di text mining (come quelle implementate in STATISTICA Text Miner) si traduce in una quantità di dati molto inferiore, che può quindi essere facilmente abbinata ai dati strutturati esistenti (vendite effettive di biglietti o informazioni sui frequent flyer). L'analisi consente di dividere i clienti in gruppi e studiare i loro reclami tipici.

Sono disponibili molti strumenti per eseguire questa aggregazione di dati (come i punteggi di sentiment) su un file system distribuito, rendendo questo processo analitico facile da implementare.

Modelli di costruzione

Spesso la sfida consiste nel creare rapidamente modelli accurati per i dati archiviati su un file system distribuito.

Esistono implementazioni di map-reduce per vari algoritmi di data mining/analisi predittiva adatti all'elaborazione parallela su larga scala di dati su un file system distribuito (che può essere supportato utilizzando la piattaforma STATISTICA StatSoft).

Tuttavia, proprio perché hai elaborato una quantità di dati così grande, sei sicuro che il modello risultante sia davvero più accurato?

In effetti, è probabilmente più conveniente costruire modelli per piccoli segmenti di dati su un file system distribuito.

Come afferma un recente rapporto di Forrester, "Due più due fa 3,9: di solito è un buon risultato" (Hopkins & Evelson, 2011).

La precisione statistica e matematica è quella di un modello di regressione lineare comprendente, ad esempio, 10 predittori basati su un modello correttamente realizzato campionamento probabilistico su 100.000 osservazioni sarà accurato quanto un modello costruito su 100 milioni di osservazioni.

Tutto sulla tecnologia mobile