Tehnologii de analiză a datelor mari. Big Data: analize și soluții. Beneficiile studiilor scutite

Termenul „Big Data” poate fi recunoscut astăzi, dar există încă destul de puțină confuzie în ceea ce privește ceea ce înseamnă de fapt. Într-adevăr, conceptul evoluează constant și este revizuit, deoarece rămâne forța motrice din spatele multor valuri de transformare digitală în curs de desfășurare, inclusiv inteligență artificială, știința datelor și Internetul lucrurilor. Dar ce este tehnologia Big-Data și cum ne schimbă lumea? Să încercăm să înțelegem esența tehnologiei Big Data și ce înseamnă aceasta în cuvinte simple.

Creșterea uimitoare a Big Data

Totul a început cu o „explozie” a cantității de date pe care le-am creat încă de la începutul erei digitale. Acest lucru se datorează în mare măsură dezvoltării computerelor, internetului și tehnologiilor care pot „smulge” date din lumea din jurul nostru. Datele în sine nu sunt o invenție nouă. Chiar înainte de era computerelor și bazelor de date, am folosit înregistrările tranzacțiilor pe hârtie, înregistrările clienților și fișierele de arhivă, care sunt date. Calculatoarele, în special foile de calcul și bazele de date, ne-au facilitat stocarea și organizarea datelor la scară largă. Dintr-o dată, informațiile sunt disponibile cu un clic de mouse.

Cu toate acestea, am parcurs un drum lung de la tabelele și bazele de date originale. Astăzi, la fiecare două zile creăm atâtea date câte am primit de la început până în anul 2000. Așa e, la fiecare două zile. Iar cantitatea de date pe care le creăm continuă să crească vertiginos; până în 2020, cantitatea de informații digitale disponibile va crește de la aproximativ 5 zettabytes la 20 zettabytes.

În zilele noastre, aproape fiecare acțiune pe care o întreprindem își lasă amprenta. Generăm date ori de câte ori accesăm internetul, când purtăm smartphone-urile noastre echipate cu un motor de căutare, când vorbim cu cunoscuții noștri prin rețelele de socializare sau chat-uri etc. În plus, și cantitatea de date generate de mașini crește rapid. Datele sunt generate și partajate atunci când dispozitivele noastre inteligente de acasă comunică între ele sau cu serverele lor de acasă. Echipamentele industriale din fabrici și fabrici sunt din ce în ce mai dotate cu senzori care acumulează și transmit date.

Termenul „Big Data” se referă la colectarea tuturor acestor date și la capacitatea noastră de a le folosi în avantajul nostru într-o gamă largă de domenii, inclusiv în afaceri.

Cum funcționează tehnologia Big Data?

Big Data funcționează pe principiul: cu cât cunoașteți mai multe despre un anumit subiect sau fenomen, cu atât mai fiabil puteți obține o nouă înțelegere și puteți prezice ce se va întâmpla în viitor. Prin compararea mai multor puncte de date, apar relații care erau ascunse anterior, iar aceste relații ne permit să învățăm și să luăm decizii mai bune. Acest lucru se realizează cel mai adesea printr-un proces care implică construirea de modele din datele pe care le putem colecta și apoi rularea unei simulari care modifică de fiecare dată valorile punctelor de date și vede cum acestea ne afectează rezultatele. Acest proces este automat - tehnologii moderne analiștii vor rula milioane de aceste simulări, modificând fiecare variabilă posibilă până când vor găsi un model – sau o idee – care ajută la rezolvarea problemei la care lucrează.

Bill Gates atârnă peste conținutul de hârtie al unui CD

Până de curând, datele erau limitate la foi de calcul sau baze de date - și totul era foarte organizat și ordonat. Orice lucru care nu putea fi ușor organizat în rânduri și coloane a fost considerat prea complex pentru a fi lucrat și a fost ignorat. Cu toate acestea, progresul în stocare și analiză înseamnă că putem captura, stoca și procesa un numar mare de date de diferite tipuri. Ca rezultat, „date” astăzi poate însemna orice, de la baze de date la fotografii, videoclipuri, înregistrări audio, texte scrise și date senzorilor.

Pentru a înțelege toate aceste date dezordonate, proiectele bazate pe Big Data folosesc adesea analize de ultimă oră, folosind inteligența artificială și învățarea automată. Învățând computerele să determine care sunt anumite date – de exemplu, prin recunoașterea modelelor sau procesarea limbajului natural – le putem învăța să identifice modele mult mai rapid și mai fiabil decât putem.

Cum se utilizează Big Data?

Acest flux din ce în ce mai mare de informații despre datele senzorilor, text, voce, date foto și video înseamnă că acum putem folosi datele în moduri care erau de neimaginat în urmă cu doar câțiva ani. Acest lucru aduce schimbări revoluționare în lumea afacerilor în aproape fiecare industrie. Companiile de astăzi pot prezice, cu o acuratețe incredibilă, ce categorii specifice de clienți vor dori să facă o achiziție și când. Big Data ajută, de asemenea, companiile să-și desfășoare activitățile mult mai eficient.

Chiar și în afara afacerilor, proiectele Big Data ajută deja la schimbarea lumii noastre într-o varietate de moduri:

  • Îmbunătățirea asistenței medicale – Medicina bazată pe date este capabilă să analizeze cantități mari de informații medicale și imagini pentru modele care pot ajuta la detectarea bolii într-un stadiu incipient și la dezvoltarea de noi medicamente.
  • Prezicerea și răspunsul la dezastrele naturale și provocate de om. Datele senzorilor pot fi analizate pentru a prezice unde ar putea avea loc cutremure, iar modelele de comportament uman oferă indicii care ajută organizațiile să ofere asistență supraviețuitorilor. Tehnologia Big Data este, de asemenea, utilizată pentru a urmări și proteja fluxul de refugiați din zonele de război din întreaga lume.
  • Prevenirea criminalității. Forțele de poliție folosesc din ce în ce mai mult strategii bazate pe date, care includ propriile lor informații și informații acces deschis să utilizeze mai bine resursele și să ia contramăsuri acolo unde este necesar.

Cele mai bune cărți despre tehnologia Big-Data

  • Toată lumea minte. Motoarele de căutare, Big Data și Internetul știu totul despre tine.
  • DATE MARE. Toată tehnologia într-o singură carte.
  • industria fericirii. Cum Big Data și noile tehnologii contribuie la adăugarea de emoție bunurilor și serviciilor.
  • O revoluție în analiză. Cum să vă îmbunătățiți afacerea cu analize operaționale în era Big Data.

Probleme cu Big Data

Big Data ne oferă perspective și oportunități fără precedent, dar ridică și probleme și întrebări care trebuie abordate:

  • Confidențialitatea datelor – Big Data pe care le generăm astăzi conține o mulțime de informații despre viețile noastre personale pe care trebuie să le păstrăm private. drept deplin. Din ce în ce mai des, ni se cere să găsim un echilibru între cantitatea de date personale pe care o dezvăluim și comoditatea pe care o oferă aplicațiile și serviciile bazate pe utilizarea Big Data.
  • Protecția datelor - Chiar dacă credem că suntem în regulă cu cineva care are datele noastre pentru un anumit scop, putem avea încredere în el pentru a ne păstra datele în siguranță?
  • Discriminarea datelor - atunci când toate informațiile sunt cunoscute, va fi acceptabilă discriminarea persoanelor pe baza datelor din viața lor personală? Folosim deja scorurile de credit pentru a decide cine poate împrumuta bani, iar asigurarea este, de asemenea, bazată pe date. Ar trebui să ne așteptăm să fim analizați și evaluați mai detaliat, dar trebuie avut grijă ca acest lucru să nu complice viața celor care au mai puține resurse și acces limitat la informație.

Îndeplinirea acestor sarcini este o parte importantă a Big Data și trebuie să fie abordate de organizațiile care doresc să utilizeze astfel de date. Nerespectarea acestui lucru poate lăsa o afacere vulnerabilă, nu numai din punct de vedere al reputației sale, ci și din punct de vedere juridic și financiar.

Privind spre viitor

Datele ne schimbă lumea și viețile într-un ritm fără precedent. Dacă Big Data este capabil de toate acestea astăzi, doar imaginați-vă de ce va fi capabil mâine. Cantitatea de date disponibile pentru noi nu va face decât să crească, iar tehnologia de analiză va deveni și mai avansată.

Pentru companii, capacitatea de a aplica Big Data va deveni din ce în ce mai critică în următorii ani. Doar acele companii care văd datele ca pe un activ strategic vor supraviețui și vor prospera. Cei care ignoră această revoluție riscă să rămână în urmă.



Cum iti place articolul? Conținut și mai potrivit pe minunatul meu Canalul canalului YouTube

Doar fii atent! Poți deveni prea inteligent pe YouTube-ul meu... 👇

Date mare- nu sunt doar datele în sine, ci și tehnologiile de prelucrare și utilizare a acestora, metode de găsire a informațiilor necesare în matrice mari. Problema datelor mari este încă deschisă și vitală pentru orice sisteme care acumulează o mare varietate de informații de zeci de ani.

Acest termen este asociat cu expresia „Volum, viteză, varietate”– principiile pe care se construiește lucrul cu big data. Este direct cantitatea de informații, viteza sa de procesareȘi varietate de informații stocate într-o matrice. Recent, la cele trei principii de bază a fost adăugat încă unul - valoare, care înseamnă valoarea informatiei. Adică trebuie să fie util și necesar din punct de vedere teoretic sau practic, ceea ce ar justifica costurile depozitării și procesării sale.

Rețelele sociale sunt un exemplu de sursă tipică de date mari - fiecare profil sau pagină publică este o mică picătură într-un ocean nestructurat de informații. Mai mult, indiferent de cantitatea de informații stocate într-un anumit profil, interacțiunea cu fiecare dintre utilizatori ar trebui să fie cât mai rapidă posibil.

Big Data se acumulează constant în aproape fiecare domeniu al vieții umane. Aceasta include orice industrie legată fie de interacțiunile umane, fie de calcul. Acestea sunt rețelele de socializare, medicină și sectorul bancar, precum și sisteme de dispozitive care primesc numeroase rezultate ale calculelor zilnice. De exemplu, observații astronomice, informații meteorologice și informații de la dispozitivele de sondare ale Pământului.

Informațiile din diferite sisteme de urmărire în timp real sunt trimise și către serverele unei anumite companii. Televiziune și radiodifuziune, baze de apel operator comunicare celulară- interacțiunea fiecărei persoane în parte cu ei este minimă, dar, în ansamblu, toate aceste informații devin big data.

Tehnologiile de date mari au devenit parte integrantă a cercetării și dezvoltării și comerțului. Mai mult, acestea încep să capteze sfera administrației publice – și peste tot se impune introducerea unor sisteme din ce în ce mai eficiente de stocare și manipulare a informațiilor.

Termenul „big data” a apărut pentru prima dată în presă în 2008, când editorul Nature Clifford Lynch a publicat un articol despre cum să avansezi viitorul științei cu ajutorul tehnologiilor de date mari. Până în 2009, acest termen era considerat doar din punct de vedere al analizei științifice, dar după publicarea a mai multor articole, presa a început să folosească pe scară largă conceptul de Big Data – și continuă să îl folosească și în prezent.

În 2010, au început să apară primele încercări de a rezolva problema tot mai mare a datelor mari. Au fost eliberați produse software, a cărui acțiune a avut ca scop reducerea la minimum a riscurilor atunci când se utilizează matrice uriașe de informații.

Până în 2011, companii mari precum Microsoft, Oracle, EMC și IBM au devenit interesate de big data - au fost primele care au folosit Big data în strategiile lor de dezvoltare și cu destul de mult succes.

Universitățile au început să studieze datele mari ca subiect separat deja în 2013 - acum nu numai știința datelor, ci și inginerie, împreună cu disciplinele de calcul, se confruntă cu probleme în acest domeniu.

Principalele metode de analiză și prelucrare a datelor includ următoarele:

  1. Metode de clasă sau analiză profundă (Data Mining).

Aceste metode sunt destul de numeroase, dar sunt unite de un singur lucru: instrumentele matematice folosite împreună cu realizările în domeniul tehnologiei informației.

  1. Crowdsourcing.

Această tehnică vă permite să obțineți date simultan din mai multe surse, iar numărul acestora din urmă este practic nelimitat.

  1. Testare A/B.

Din întreaga cantitate de date, se selectează un set de elemente de control, care este comparat la rândul său cu alte seturi similare, unde unul dintre elemente a fost modificat. Efectuarea unor astfel de teste ajută la determinarea fluctuațiilor parametrilor care au cel mai mare efect asupra populației de control. Datorită volumelor de Big Data, este posibil să se efectueze un număr mare de iterații, fiecare dintre ele apropiindu-se de cel mai fiabil rezultat.

  1. Analize predictive.

Specialistii in acest domeniu incearca sa prezica si sa planifice din timp modul in care obiectul controlat se va comporta pentru a lua cea mai avantajoasa decizie in aceasta situatie.

  1. Învățare automată (inteligență artificială).

Se bazează pe o analiză empirică a informațiilor și pe construcția ulterioară a algoritmilor de auto-învățare pentru sisteme.

  1. Analiza rețelei.

Cea mai comună metodă pentru studiul rețelelor sociale - după primirea datelor statistice, sunt analizate nodurile create în grilă, adică interacțiunile dintre utilizatorii individuali și comunitățile acestora.

În 2017, când big data nu mai este ceva nou și necunoscut, importanța sa nu numai că nu a scăzut, ci chiar a crescut. Acum experții pariază că analiza unor cantități mari de date va deveni disponibilă nu numai pentru organizațiile gigantice, ci și pentru întreprinderile mici și mijlocii. Această abordare este planificată să fie implementată folosind următoarele componente:

  • Stocare in cloud.

Stocarea și procesarea datelor devin din ce în ce mai rapide și mai economice – în comparație cu costurile de întreținere a propriului centru de date și cu posibila extindere a personalului, închirierea unui cloud pare a fi o alternativă mult mai ieftină.

  • Utilizarea datelor întunecate.

Așa-numitele „date întunecate” sunt toate informațiile nedigitizate despre o companie care nu joacă un rol cheie în utilizarea directă a acesteia, dar pot servi drept motiv pentru trecerea la un nou format de stocare a informațiilor.

  • Inteligență artificială și învățare profundă.

Tehnologia de învățare a inteligenței automate, care imită structura și funcționarea creierului uman, este cea mai potrivită pentru procesarea unei cantități mari de informații în continuă schimbare. În acest caz, mașina va face tot ce ar trebui să facă o persoană, dar probabilitatea de eroare este mult redusă.

S-a prezis că volumul total global de date create și replicate în 2011 ar putea fi de aproximativ 1,8 zettabytes (1,8 trilioane de gigaocteți) - de aproximativ 9 ori mai mult decât ceea ce a fost creat în 2006.

Definiție mai complexă

Cu toate acestea` Date mare` implică mai mult decât doar analiza unor cantități mari de informații. Problema nu este că organizațiile creează cantități uriașe de date, ci că cele mai multe dintre ele sunt prezentate într-un format care nu se potrivește bine cu formatul tradițional al bazei de date structurate - este vorba de jurnalele web, videoclipurile, documentele text, codul mașinii sau, pt. de exemplu, date geospațiale. Toate acestea sunt stocate în multe depozite diferite, uneori chiar și în afara organizației. Drept urmare, corporațiile pot avea acces la o cantitate imensă de date și nu au instrumentele necesare pentru a stabili relații între aceste date și a trage concluzii semnificative din ele. Adăugați la aceasta faptul că acum datele sunt actualizate din ce în ce mai des și obțineți o situație în care metodele tradiționale de analiză a informațiilor nu pot ține pasul cu cantități uriașe de date actualizate constant, ceea ce în cele din urmă deschide calea pentru tehnologie. Date mare.

Cea mai bună definiție

În esență, conceptul Date mare presupune lucrul cu informații de volum uriaș și compoziție diversă, de foarte multe ori actualizate și localizate în surse diferite pentru a crește eficiența muncii, a crea produse noi și a crește competitivitatea. Firma de consultanta Forrester o spune succint: ` Date mare reunesc tehnici și tehnologii care extrag sens din date la limita extremă a caracterului practic`.

Cât de mare este diferența dintre business intelligence și big data?

Craig Bathy, Chief Marketing Officer și Chief Technology Officer Fujitsu Australia, a subliniat că analiza de afaceri este un proces descriptiv de analiză a rezultatelor obținute de o afacere într-o anumită perioadă de timp, în timp ce viteza de procesare Date mare vă permite să faceți analiza predictivă, capabilă să ofere recomandări de afaceri pentru viitor. Tehnologiile de date mari vă permit, de asemenea, să analizați mai multe tipuri de date decât instrumentele de business intelligence, ceea ce face posibilă concentrarea nu numai pe stocarea structurată.

Matt Slocum de la O „Reilly Radar crede că, deși Date mareși business intelligence au același scop (găsirea răspunsurilor la o întrebare), diferă între ele în trei aspecte.

  • Big data este conceput pentru a procesa cantități mai mari de informații decât business intelligence, iar acest lucru, desigur, se potrivește definiției tradiționale a datelor mari.
  • Big Data este conceput pentru a procesa mai rapid și mai rapid informații care se schimbă, ceea ce înseamnă explorare profundă și interactivitate. În unele cazuri, rezultatele sunt generate mai repede decât se încarcă pagina web.
  • Big Data este conceput pentru a gestiona date nestructurate pe care abia începem să le explorăm cum să le folosim după ce le-am putut colecta și stoca și avem nevoie de algoritmi și dialog pentru a facilita găsirea tendințelor conținute în aceste matrice.

Conform cărții albe Oracle Information Architecture: An Architect's Guide to Big Data publicată de Oracle, abordăm informațiile în mod diferit atunci când lucrăm cu date mari decât atunci când facem analize de afaceri.

Lucrul cu big data nu este ca un proces tipic de business intelligence, în care simpla adunare a valorilor cunoscute dă rezultate: de exemplu, adăugarea facturilor plătite împreună devine vânzări pentru un an. Atunci când se lucrează cu date mari, rezultatul se obține în procesul de curățare a acestora prin modelare secvențială: în primul rând se emite o ipoteză, se construiește un model statistic, vizual sau semantic, pe baza acestuia se verifică corectitudinea ipotezei prezentate. , iar apoi este prezentat următorul. Acest proces necesită ca cercetătorul fie să interpreteze semnificațiile vizuale, fie să facă interogări interactive bazate pe cunoștințe, fie să dezvolte algoritmi adaptativi de „învățare automată” capabili să producă rezultatul dorit. Mai mult, durata de viață a unui astfel de algoritm poate fi destul de scurtă.

Tehnici de analiză a datelor mari

Există multe metode diferite pentru analiza matricelor de date, care se bazează pe instrumente împrumutate din statistică și informatică (de exemplu, învățarea automată). Lista nu pretinde a fi completă, dar reflectă cele mai populare abordări din diverse industrii. În același timp, trebuie înțeles că cercetătorii continuă să lucreze la crearea de noi metode și la îmbunătățirea celor existente. În plus, unele dintre tehnicile enumerate nu sunt neapărat aplicabile exclusiv datelor mari și pot fi utilizate cu succes pentru matrice mai mici (de exemplu, testarea A/B, analiza de regresie). Desigur, cu cât matricea este mai voluminoasă și mai diversificată, cu atât se pot obține date mai precise și mai relevante la ieșire.

Testare A/B. O tehnică în care o probă de control este comparată pe rând cu altele. Astfel, este posibil să se identifice combinația optimă de indicatori pentru a obține, de exemplu, cel mai bun răspuns al consumatorului la o ofertă de marketing. Date mare permit efectuarea unui număr mare de iterații și astfel obținerea unui rezultat semnificativ statistic.

învăţarea regulilor de asociere. Un set de tehnici de identificare a relațiilor, de ex. reguli de asociere între variabilele din matrice mari de date. Folosit in extragerea datelor.

clasificare. Un set de tehnici care vă permit să preziceți comportamentul consumatorului într-un anumit segment de piață (decizii de cumpărare, abandon, volumul de consum etc.). Folosit in extragerea datelor.

analiza grupului. O metodă statistică de clasificare a obiectelor în grupuri prin identificarea caracteristicilor comune care nu sunt cunoscute în prealabil. Folosit in extragerea datelor.

Crowdsourcing. O tehnică de colectare a datelor dintr-un număr mare de surse.

Fuziunea și integrarea datelor. Un set de tehnici care vă permit să analizați comentariile utilizatorilor rețelelor sociale și să le comparați cu rezultatele vânzărilor în timp real.

extragerea datelor. Un set de tehnici care vă permit să determinați categoriile cele mai susceptibile de consumatori pentru produsul sau serviciul promovat, să identificați caracteristicile celor mai de succes angajați și să preziceți modelul comportamental al consumatorilor.

Învățare prin ansamblu. Această metodă folosește o mulțime de modele predictive, ceea ce îmbunătățește calitatea predicțiilor făcute.

Algoritmi genetici. În această tehnică solutii posibile reprezentați ca „cromozomi” care se pot combina și muta. La fel ca în procesul de evoluție naturală, cel mai apt individ supraviețuiește.

învățare automată. O direcție în informatică (în mod istoric, i s-a atribuit denumirea de `inteligență artificială`), care își propune să creeze algoritmi de auto-învățare bazați pe analiza datelor empirice.

procesarea limbajului natural (NLP). Un set de tehnici de recunoaștere a limbajului natural împrumutate din informatică și lingvistică.

analiza rețelei. Un set de tehnici pentru analiza legăturilor dintre nodurile din rețele. În ceea ce privește rețelele sociale, vă permite să analizați relația dintre utilizatorii individuali, companii, comunități etc.

Optimizare. Un set de metode numerice pentru reproiectarea sistemelor și proceselor complexe pentru a îmbunătăți unul sau mai mulți indicatori. Ajută la luarea deciziilor strategice, de exemplu, compoziția liniei de produse introduse pe piață, efectuarea analizei investiționale etc.

recunoasterea formelor. Un set de tehnici cu elemente de autoînvățare pentru prezicerea modelului comportamental al consumatorilor.

modelare predictivă. Un set de tehnici care vă permit să creați un model matematic al unui scenariu probabil predeterminat pentru dezvoltarea evenimentelor. De exemplu, analiza bazei de date a sistemului CRM pentru posibile condiții care îi vor împinge pe abonați să schimbe furnizorii.

regresie. Un set de metode statistice pentru identificarea tiparelor între o modificare a unei variabile dependente și una sau mai multe variabile independente. Adesea folosit pentru prognoză și previziuni. Folosit în data mining.

analiza sentimentelor. Tehnicile de evaluare a sentimentului consumatorilor se bazează pe tehnologiile de recunoaștere a limbajului natural uman. Acestea vă permit să izolați mesajele legate de subiectul de interes (de exemplu, un produs de consum) din fluxul de informații generale. Apoi, evaluați polaritatea judecății (pozitivă sau negativă), gradul de emoționalitate și așa mai departe.

procesare semnal. Un set de tehnici împrumutate din ingineria radio, care urmărește recunoașterea unui semnal pe un fundal de zgomot și analiza ulterioară a acestuia.

Analiza spatiala. Un set de tehnici, parțial împrumutate din statistici, pentru analiza datelor spațiale - topologia terenului, coordonatele geografice, geometria obiectelor. sursă Date mareîn acest caz acționează adesea sisteme de geoinformații(GIS).

Statistici. Știința colectării, organizării și interpretării datelor, inclusiv proiectarea chestionarelor și efectuarea de experimente. Metodele statistice sunt adesea folosite pentru a face judecăți de valoare cu privire la relațiile dintre anumite evenimente.

Învățare supravegheată. Un set de tehnici bazate pe tehnologii de învățare automată care vă permit să identificați relații funcționale în matricele de date analizate.

simulare. Modelarea comportamentului sistemelor complexe este adesea folosită pentru a prezice, a prezice și a elabora diverse scenarii atunci când planificați.

Analiza serii temporale. Un set de metode împrumutate din statistici și procesare digitală a semnalului pentru analiza secvențelor de date care se repetă în timp. O utilizare evidentă este urmărirea pieței de valori sau a incidenței pacienților.

Învățare nesupravegheată. Un set de tehnici bazate pe tehnologii de învățare automată care vă permit să identificați relații funcționale ascunse în seturile de date analizate. Are caracteristici comune cu analiza grupului.

Vizualizarea. Metode de prezentare grafică a rezultatelor analizei big data sub formă de diagrame sau imagini animate pentru a simplifica interpretarea și a facilita înțelegerea rezultatelor obținute.


O prezentare vizuală a rezultatelor analizei big data este de o importanță fundamentală pentru interpretarea acestora. Nu este un secret pentru nimeni faptul că percepția umană este limitată, iar oamenii de știință continuă să efectueze cercetări în domeniul îmbunătățirii metodelor moderne de prezentare a datelor sub formă de imagini, diagrame sau animații.

Instrumente analitice

Pentru 2011, unele dintre abordările enumerate în subsecțiunea anterioară, sau o anumită combinație a acestora, fac posibilă punerea în practică a motoarelor analitice de lucru cu big data. Dintre sistemele deschise gratuite sau relativ ieftine pentru analiza Big Data, vă putem recomanda:

  • Revolution Analytics (bazat pe limbajul R pentru statistici matematice).

Un interes deosebit pe această listă este Apache Hadoop, un software open source care a fost testat ca analizor de date de către majoritatea instrumentelor de urmărire a stocurilor în ultimii cinci ani. De îndată ce Yahoo a deschis codul Hadoop către comunitatea open source, a apărut rapid o nouă tendință în industria IT de a crea produse bazate pe Hadoop. Aproape toate instrumentele moderne de analiză Date mare asigura integrarea cu Hadoop. Dezvoltatorii lor sunt atât startup-uri, cât și companii globale bine-cunoscute.

Piețe pentru soluții de management al datelor mari

Platformele Big Data (BDP, Big Data Platform) ca mijloc de combatere a hordingului digital

Capacitate de analiză Date mare, numită colocvial Big Data, este percepută ca o binefacere și fără ambiguitate. Dar este chiar așa? La ce poate duce acumularea nestăpânită de date? Cel mai probabil la faptul că psihologii domestici în relație cu o persoană numesc tezaurizare patologică, silogmanie sau, la figurat, „sindromul lui Plyushkin”. În engleză, pasiunea vicioasă de a colecta totul se numește hording (de la tezaurul englezesc - „rezervă”). Conform clasificării bolilor mintale, hordingul este clasificat ca o tulburare mintală. În era digitală, digitalul (Digital Hoarding) se adaugă la acordurile materiale tradiționale, atât persoanele fizice, cât și întreprinderile și organizațiile întregi () pot suferi de aceasta.

Piața mondială și rusă

Peisajul datelor mari - Furnizorii principali

Interes pentru instrumentele de colectare, prelucrare, management și analiză Date mare a arătat aproape toate companiile IT de top, ceea ce este destul de firesc. În primul rând, ei experimentează direct acest fenomen în propria afacere și, în al doilea rând, Date mare deschide oportunități excelente pentru dezvoltarea de noi nișe de piață și atragerea de noi clienți.

Pe piață au apărut o mulțime de startup-uri care fac afaceri prin prelucrarea unor cantități uriașe de date. Unele dintre ele folosesc infrastructură cloud gata făcută furnizată de jucători mari, cum ar fi Amazon.

Teoria și practica Big Data în industrii

Istoria dezvoltării

2017

Prognoza TmaxSoft: următorul „val” de Big Data va necesita modernizarea DBMS

Companiile știu că marile cantități de date pe care le acumulează conțin Informații importante despre afacerile și clienții lor. Dacă compania poate aplica cu succes aceste informații, atunci va avea un avantaj semnificativ față de concurenții săi și va putea oferi produse și servicii mai bune decât ale lor. Cu toate acestea, multe organizații încă nu pot utiliza în mod eficient Date mare din cauza faptului că infrastructura lor IT moștenită nu este în măsură să ofere capacitatea de stocare necesară, procesele de schimb de date, utilitățile și aplicațiile necesare pentru a procesa și analiza matrice mari de date nestructurate pentru a extrage informații valoroase din acestea, a indicat TmaxSoft.

În plus, creșterea puterii de procesare necesară pentru a analiza volume din ce în ce mai mari de date poate necesita investiții semnificative în infrastructura IT moștenită a unei organizații, precum și resurse suplimentare de întreținere care ar putea fi utilizate pentru a dezvolta noi aplicații și servicii.

Pe 5 februarie 2015, Casa Albă a lansat un raport care discuta despre modul în care companiile folosesc „ Date mare pentru a stabili prețuri diferite pentru diferiți cumpărători - o practică cunoscută sub numele de „discriminare prin preț” sau „preț diferențial” (prețuri personalizate). Raportul descrie beneficiile „big data” atât pentru vânzători, cât și pentru cumpărători și concluzionează că multe dintre problemele ridicate de apariția big data și a prețurilor diferențiate pot fi abordate în cadrul legilor și reglementărilor antidiscriminare existente. .

Raportul notează că, în acest moment, există doar dovezi anecdotice ale modului în care companiile folosesc datele mari în contextul marketingului individualizat și al prețurilor diferențiate. Aceste informații arată că vânzătorii folosesc metode de stabilire a prețurilor care pot fi împărțite în trei categorii:

  • studierea curbei cererii;
  • Direcție și prețuri diferențiate pe baza datelor demografice; Și
  • marketing comportamental vizat (behavioral targeting - behavioral targeting) și stabilirea prețurilor individualizate.

Studierea curbei cererii: Pentru a înțelege cererea și a înțelege comportamentul consumatorilor, agenții de marketing efectuează adesea experimente în acest domeniu, în timpul cărora clienților li se atribuie aleatoriu unul dintre cele două posibile categorii de pret. „Din punct de vedere tehnic, aceste experimente sunt o formă de preț diferențial, deoarece au ca rezultat prețuri diferite pentru clienți, chiar dacă sunt „nediscriminatorii”, în sensul că toți clienții au aceeași șansă de a „atinge” prețul mai mare.”

Direcție: Aceasta este practica de prezentare a produselor consumatorilor pe baza apartenenței acestora la un anumit grup demografic. De exemplu, site-ul web al unei companii de calculatoare poate oferi același laptop diferitelor tipuri de clienți la prețuri diferite în funcție de informațiile pe care le furnizează despre ei înșiși (de exemplu, în funcție de faptul dacă utilizatorul este un reprezentant al agențiilor guvernamentale, instituțiilor științifice sau comerciale sau o persoană) sau locația lor geografică (de exemplu, determinată de adresa IP a unui computer).

Marketing comportamental țintit și prețuri personalizate: În aceste cazuri, datele personale ale cumpărătorilor sunt folosite pentru publicitate direcționată și stabilirea prețurilor individualizate pentru anumite produse. De exemplu, agenții de publicitate online folosesc datele colectate de rețelele de publicitate și cookie-urile terților despre activitatea utilizatorilor pe Internet pentru a-și viza materialele publicitare. Această abordare, pe de o parte, permite consumatorilor să primească reclame pentru bunuri și servicii de interes pentru ei, dar poate provoca îngrijorare pentru acei consumatori care nu doresc anumite tipuri de date personale (cum ar fi informații despre vizitarea site-urilor web legate de probleme medicale și financiare) întâlnite fără acordul lor.

Deși marketingul comportamental țintit este larg răspândit, există relativ puține dovezi de stabilire a prețurilor individualizate în mediul online. Raportul speculează că acest lucru se poate datora faptului că metodele sunt încă în curs de dezvoltare sau pentru că companiile sunt reticente în a adopta (sau preferă să tacă) prețurile individuale, eventual temându-se de o reacție din partea consumatorilor.

Autorii raportului consideră că „pentru consumatorul individual, utilizarea datelor mari este, fără îndoială, asociată atât cu potențiale rentabilități, cât și cu riscuri”. Deși recunoaște că există probleme de transparență și discriminare atunci când se utilizează date mari, raportul susține că legile existente anti-discriminare și protecția consumatorilor sunt suficiente pentru a le rezolva. Cu toate acestea, raportul subliniază, de asemenea, necesitatea unui „control continuu” atunci când companiile utilizează informații confidențiale într-o manieră netransparentă sau în moduri care nu sunt acoperite de cadrul de reglementare existent.

Acest raport este o continuare a eforturilor Casei Albe de a studia utilizarea „big data” și prețurile discriminatorii pe internet, precum și consecințele care decurg pentru consumatorii americani. S-a raportat anterior că Grupul de lucru al Casei Albe pentru Big Data și-a publicat raportul pe această problemă în mai 2014. Comisia Federală pentru Comerț (FTC) a abordat, de asemenea, aceste probleme în cadrul atelierului său din septembrie 2014 privind discriminarea în legătură cu utilizarea datelor mari.

2014

Gartner demistifică Big Data

Un brief de politici din toamna anului 2014 de la Gartner enumeră și dezmintă o serie de mituri comune despre Big Data în rândul CIO.

  • Toată lumea implementează sisteme de procesare Big Data mai rapid decât noi

Interesul pentru tehnologiile Big Data este la cote maxime, 73% dintre organizațiile chestionate de analiștii Gartner în acest an investesc deja sau plănuiesc să facă acest lucru. Dar cele mai multe dintre aceste inițiative sunt încă în fazele lor incipiente și doar 13% dintre cei chestionați au implementat deja astfel de soluții. Cea mai grea parte este să descoperi cum să monetizezi Big Data, să decizi de unde să începi. Multe organizații rămân blocate în faza pilot pentru că nu pot lega tehnologie nouă la anumite procese de afaceri.

  • Avem atât de multe date încât nu trebuie să ne facem griji cu privire la erorile mici din ele.

Unii CIO consideră că micile defecte ale datelor nu afectează rezultatele generale ale analizei unor volume uriașe. Când există o mulțime de date, fiecare eroare separat afectează într-adevăr rezultatul mai puțin, spun analiștii, dar erorile în sine devin mai mari. În plus, majoritatea datelor analizate sunt externe, de structură sau origine necunoscută, astfel că probabilitatea erorilor crește. Astfel, în lumea Big Data, calitatea este de fapt mult mai importantă.

  • Tehnologiile Big Data vor elimina necesitatea integrării datelor

Big Data promite capacitatea de a procesa datele în formatul original cu generarea automată a schemei pe măsură ce sunt citite. Se crede că acest lucru va permite analiza informațiilor din aceleași surse folosind mai multe modele de date. Mulți cred că acest lucru va permite utilizatorilor finali să interpreteze orice set de date în felul lor. În realitate, cei mai mulți utilizatori doresc adesea schema tradițională out-of-the-box, în care datele sunt formatate corespunzător și există un acord cu privire la nivelul de integritate a informațiilor și modul în care acestea ar trebui să se relaționeze cu cazul de utilizare.

  • Depozitele de date nu au sens să fie folosite pentru analize complexe

Mulți administratori de sisteme de management al informațiilor consideră că nu are sens să petrecem timp creând un depozit de date, având în vedere acest complex sisteme analitice utilizați noi tipuri de date. De fapt, multe sisteme de analiză sofisticate folosesc informații dintr-un depozit de date. În alte cazuri, noi tipuri de date trebuie pregătite suplimentar pentru analiză în sistemele de procesare Big Data; trebuie luate decizii cu privire la adecvarea datelor, principiile de agregare și nivelul necesar de calitate - o astfel de pregătire poate avea loc în afara depozitului.

  • Depozitele de date vor fi înlocuite cu lacuri de date

În realitate, vânzătorii induc în eroare clienții poziționând lacurile de date ca înlocuitor pentru stocare sau ca elemente critice ale unei infrastructuri analitice. Tehnologiilor de bază ale lacurilor de date le lipsește maturitatea și amploarea funcționalității găsite în depozitele de date. Prin urmare, liderii responsabili cu gestionarea datelor ar trebui să aștepte până când lacurile ating același nivel de dezvoltare, potrivit Gartner.

Accenture: 92% dintre cei care au implementat sisteme de big data sunt mulțumiți de rezultat

Printre principalele avantaje ale datelor mari, respondenții au numit:

  • „căutare noi surse de venit” (56%),
  • „îmbunătățirea experienței clienților” (51%),
  • „produse și servicii noi” (50%) și
  • „un aflux de clienți noi și menținerea loialității celor vechi” (47%).

La introducerea noilor tehnologii, multe companii s-au confruntat cu probleme tradiționale. Pentru 51%, piatra de poticnire a fost securitatea, pentru 47% - bugetul, pentru 41% - lipsa personalului necesar, iar pentru 35% - dificultăți de integrare în sistemul existent. Aproape toate companiile chestionate (aproximativ 91%) plănuiesc să rezolve în curând problema cu o lipsă de personal și să angajeze specialiști în big data.

Companiile sunt optimiste cu privire la viitorul tehnologiilor de date mari. 89% cred că vor schimba afacerile la fel de mult ca internetul. 79% dintre respondenți au remarcat că companiile care nu se ocupă de big data își vor pierde avantajul competitiv.

Cu toate acestea, respondenții nu au fost de acord cu privire la ceea ce anume ar trebui să fie considerat big data. 65% dintre respondenți cred că acestea sunt „fișiere de date mari”, 60% sunt siguri că este vorba de „analitică și analiză avansată”, iar 50% că este vorba de „instrumente de vizualizare a datelor”.

Madrid cheltuiește 14,7 milioane de euro pe managementul datelor mari

În iulie 2014, a devenit cunoscut faptul că Madrid va folosi tehnologiile de date mari pentru a gestiona infrastructura urbană. Costul proiectului este de 14,7 milioane de euro, iar soluțiile care vor fi implementate vor fi bazate pe tehnologii de analiză și gestionare a datelor mari. Cu ajutorul lor, administrația orașului va gestiona munca cu fiecare furnizor de servicii și va plăti corespunzător, în funcție de nivelul serviciilor.

Vorbim de antreprenori ai administrației care monitorizează starea străzilor, iluminat, irigații, spații verzi, curăță teritoriul și scot, precum și procesează gunoiul. Pe parcursul proiectului, au fost elaborați 300 de indicatori cheie de performanță ai serviciilor orașului pentru inspectorii special desemnați, în baza cărora se vor efectua zilnic 1,5 mii de verificări și măsurători diverse. În plus, orașul va începe să folosească o platformă tehnologică inovatoare numită Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Experți: vârful modei pentru Big Data

Fără excepție, toți furnizorii de pe piața de management al datelor dezvoltă în prezent tehnologii pentru managementul Big Data. Această nouă tendință tehnologică este, de asemenea, discutată activ de comunitatea profesională, atât dezvoltatori, cât și analiști din industrie și potențiali consumatori ai unor astfel de soluții.

După cum a aflat Datashift, din ianuarie 2013, valul de discuții în jurul " Date mare„a depășit toate dimensiunile imaginabile. După ce a analizat numărul de mențiuni ale Big Data în rețelele de socializare, Datashift a calculat că în 2012 acest termen a fost folosit de aproximativ 2 miliarde de ori în postări create de aproximativ 1 milion de autori diferiți din întreaga lume. Acest lucru este echivalent cu 260 de postări pe oră, cu un vârf de 3070 de mențiuni pe oră.

Gartner: În fiecare secundă CIO este gata să cheltuiască bani pe Big Data

După câțiva ani de experimente cu tehnologiile Big data și primele implementări în 2013, adaptarea unor astfel de soluții va crește semnificativ, prezice Gartner. Cercetătorii au chestionat liderii IT din întreaga lume și au descoperit că 42% dintre cei chestionați au investit deja în tehnologiile Big Data sau intenționează să facă astfel de investiții în următorul an (date din martie 2013).

Companiile sunt nevoite să cheltuiască bani pe tehnologii de procesare Date mare Pe măsură ce peisajul informațional se schimbă rapid, am nevoie de noi abordări ale procesării informațiilor. Multe companii și-au dat deja seama că datele mari sunt esențiale, iar lucrul cu acestea vă permite să obțineți beneficii care nu sunt disponibile folosind surse tradiționale de informații și metode de procesare. În plus, exagerarea constantă a subiectului „big data” în mass-media alimentează interesul pentru tehnologiile relevante.

Frank Buytendijk, vicepreședintele Gartner, a îndemnat chiar companiile să reducă tonul, deoarece unii sunt îngrijorați că rămân în urmă concurenților în stăpânirea datelor mari.

„Nu este nevoie să vă faceți griji, posibilitățile de realizare a ideilor bazate pe tehnologiile de date mari sunt practic nelimitate”, a spus el.

Gartner prezice că până în 2015, 20% dintre companiile Global 1000 se vor concentra strategic pe „infrastructura informațională”.

În așteptarea noilor oportunități pe care le vor aduce tehnologiile de procesare a datelor mari, multe organizații organizează deja procesul de colectare și stocare a diferitelor tipuri de informații.

Pentru organizațiile educaționale și guvernamentale, precum și pentru companiile din industrie, cel mai mare potențial de transformare a afacerii constă în combinarea datelor acumulate cu așa-numitele date întunecate (literalmente - „date întunecate”), acestea din urmă includ mesaje. E-mail, multimedia și alte conținuturi similare. Potrivit Gartner, cei care învață să se ocupe de o mare varietate de surse de informații vor câștiga cursa datelor.

Sondaj Cisco: Big Data va ajuta la creșterea bugetelor IT

Raportul Cisco Connected World Technology (primăvara 2013) realizat în 18 țări de firma de analiză independentă InsightExpress a chestionat 1.800 de studenți și un număr egal de tineri profesioniști cu vârsta cuprinsă între 18 și 30 de ani. Sondajul a fost realizat pentru a afla nivelul de pregătire al departamentelor IT pentru implementarea proiectelor Date mareși să înțeleagă provocările asociate, defectele tehnologice și valoarea strategică a unor astfel de proiecte.

Majoritatea companiilor colectează, înregistrează și analizează date. Cu toate acestea, conform raportului, multe companii se confruntă cu o serie de provocări complexe de afaceri și tehnologia informației în legătură cu Big Data. De exemplu, 60% dintre cei chestionați recunosc că soluțiile Big Data pot îmbunătăți procesele de luare a deciziilor și pot crește competitivitatea, dar doar 28% au spus că obțin deja beneficii strategice reale din informațiile acumulate.

Mai mult de jumătate dintre directorii CIO intervievați cred că proiectele Big Data vor contribui la creșterea bugetelor IT în organizațiile lor, deoarece vor exista cerințe crescute privind tehnologie, personal și competențe profesionale. În același timp, mai mult de jumătate dintre respondenți se așteaptă ca astfel de proiecte să crească bugetele IT în companiile lor deja în 2012. 57% sunt încrezători că Big Data își va crește bugetele în următorii trei ani.

81 la sută dintre respondenți au spus că toate (sau cel puțin unele) proiecte Big Data vor necesita utilizarea cloud computing. Astfel, răspândirea tehnologiilor cloud poate afecta viteza de distribuție a soluțiilor Big Data și valoarea acestor soluții pentru afaceri.

Companiile colectează și folosesc cele mai multe date tipuri diferite atât structurate cât și nestructurate. Iată sursele de la care participanții la sondaj primesc date (Cisco Connected World Technology Report):

Aproape jumătate (48 la sută) dintre CIO prevăd că sarcina rețelelor lor se va dubla în următorii doi ani. (Acest lucru este valabil mai ales în China, unde 68 la sută dintre cei chestionați susțin acest punct de vedere, iar în Germania, 60 la sută.) 23% dintre respondenți se așteaptă ca traficul de rețea să se tripleze în următorii doi ani. În același timp, doar 40 la sută dintre respondenți și-au declarat pregătirea pentru o creștere explozivă a traficului de rețea.

27% dintre cei chestionați au recunoscut că au nevoie de politici IT mai bune și măsuri de securitate a informațiilor.

21% au nevoie de mai multă lățime de bandă.

Big Data deschide noi oportunități pentru departamentele IT de a crea valoare și de a construi relații strânse cu unitățile de afaceri pentru a crește veniturile și a consolida profitul unei companii. Proiectele Big Data fac din departamentele IT un partener strategic al departamentelor de afaceri.

Potrivit a 73% dintre respondenți, departamentul IT va deveni principalul motor pentru implementarea strategiei Big Data. În același timp, respondenții consideră că în implementarea acestei strategii vor fi implicate și alte departamente. În primul rând, aceasta se referă la departamentele de finanțe (numite de 24 la sută dintre respondenți), cercetare și dezvoltare (20 la sută), operațiuni (20 la sută), inginerie (19 la sută), precum și marketing (15 la sută) și vânzări ( 14 la sută).

Gartner: Sunt necesare milioane de noi locuri de muncă pentru gestionarea datelor mari

Cheltuielile globale pentru IT vor ajunge la 3,7 miliarde USD până în 2013, în creștere cu 3,8% față de cheltuielile IT din 2012 (prognoza de sfârșit de an este de 3,6 miliarde USD). Segment Date mare(datele mari) vor evolua într-un ritm mult mai rapid, potrivit unui raport Gartner.

Până în 2015, vor fi create 4,4 milioane de locuri de muncă IT pentru a servi big data, dintre care 1,9 milioane vor fi în . Mai mult, fiecare astfel de locuri de muncă va genera trei locuri de muncă suplimentare non-IT, astfel că numai în SUA, 6 milioane de oameni vor lucra pentru a susține economia informațională în următorii patru ani.

Potrivit experților Gartner, principala problemă este că nu există suficient talent în industrie pentru aceasta: atât sistemele de învățământ private, cât și cele publice, de exemplu, în Statele Unite, nu sunt capabile să furnizeze industriei un număr suficient de personal calificat. . Deci dintre noile locuri de muncă menționate în IT, doar unul din trei va fi asigurat cu personal.

Analiștii consideră că rolul de a cultiva personal IT calificat ar trebui să fie preluat direct de companiile care au mare nevoie de ele, deoarece astfel de angajați vor deveni o trecere pentru ei în noua economie informațională a viitorului.

2012

Primul scepticism cu privire la Big Data

Analiștii de la Ovum și Gartner sugerează că pentru un subiect la modă în 2012 Date mare poate fi timpul să renunți la iluzii.

Termenul „Big Data”, în acest moment, de regulă, se referă la cantitatea din ce în ce mai mare de informații care intră în modul de operare din rețelele sociale, rețelele de senzori și alte surse, precum și o gamă tot mai mare de instrumente utilizate pentru a procesa date și a descoperi tendințe importante de afaceri din acestea.

„Din cauza (sau în ciuda) hype-ului din jurul ideii de big data, producătorii în 2012 au privit această tendință cu mare speranță”, a spus Tony Bayer, analist la Ovum.

Bayer a spus că DataSift a efectuat o analiză retrospectivă a referințelor de date mari în

Orice acțiune a utilizatorului pe Internet nu este un mister pentru o lungă perioadă de timp. Puteți urmări literalmente orice - de la achiziții online la aprecieri - datorită conceptului de Big Data. Rezultatul este că înveți mai multe despre publicul țintă și faci oferte personalizate. Mai exact, aparatul face totul pentru tine: îl va analiza și chiar va lua cea mai bună decizie.

Spui că e fantezie? Desigur, mecanismul nu este încă atât de răspândit, mai ales în Rusia, și nu este complet depanat, dar primii pași în acest sens au fost cu siguranță făcuți.

Când vine vorba de date mari, nu contează cât de mult colectați, ci modul în care le utilizați. În general, Big Data este o tehnică universală. În acest articol, ne vom uita la aplicarea sa în marketing și vânzări.

Ce este Big Data

Mari companii de transport, magazine online, furnizori de telecomunicații, servicii SaaS, bănci - într-un cuvânt, companiile cu o bază mare de clienți colectează o cantitate imensă de informații.

Acestea nu sunt doar date personale (nume, e-mail, telefon, sex, vârstă, geografie), ci și adresa IP, timpul de vizită a site-ului, numărul de vizite, solicitările pe site, istoricul achizițiilor etc. Fiecare companie are propriile sale specificități și date unice care sunt disponibile numai pentru ea.

De exemplu, un serviciu de taxi „știe” fiecare pas și secundă pe care utilizatorul le-a petrecut în călătorie. Serviciu bancar online - pentru ce, când și cât ați plătit. Magazin electronic - ce produse te-ai uitat, ai pus in cos sau ai adaugat la favorite etc.

Adică nu sunt doar datele pe care fiecare afacere le acumulează în sistemul CRM. Acesta este tot ceea ce o companie poate ști despre clienți și poate fi măsurat în terabytes de informații în cazuri individuale. Bazele de date obișnuite nu pot gestiona astfel de volume. Numai pentru că datele se schimbă și ajung regulat - pe verticală (+ client nou) și pe orizontală (+ informații suplimentare despre client).

În plus, sunt diverse și nestructurate, deoarece sunt prezentate în surse complet diferite, de exemplu:

  • Bloguri și rețele sociale;
  • Fișiere audio și video;
  • Baze de date corporative;
  • Senzori, dispozitive de măsurare și rețele de senzori.

Acesta este Big Data. Ceva mai abstract decât documentele fizice și, prin urmare, dincolo de puterea unei persoane de a le gestiona. Algoritmii mașinii vin în ajutor.

Data Mining sau modul în care datele mari sunt colectate și procesate

De unde provin big data?

În primul rând, este site-ul dvs. și toate punctele de captare a datelor de contact.

În al doilea rând, contoare și sisteme de analiză (Yandex.Metrika, Google Analytics).

Cum sunt procesate big data? Iată principalele soluții ale pieței Big Data:

Sisteme de management al bazelor de date (Sap, Oracle, Microsoft, IBM și altele) care stochează și procesează informații, analizează dinamica indicatorilor și oferă rezultate în rapoarte statistice;

  • Servicii de gestionare a achizițiilor de publicitate RTB care prezic acțiunile utilizatorilor vizați și anunțurile vizate pe canalele online (de exemplu, Segmento, RTB-Media);
  • Servicii de recomandare de produse care afișează pe site produsele cele mai interesante pentru un anumit utilizator (RetailRocket, 1C-Bitrix BigData);
  • Servicii de personalizare a conținutului care arată utilizatorilor cele mai potrivite versiuni ale paginilor de resurse (Personyze, Monoloop, Crosss);
  • Servicii de personalizare newsletter care trimit e-mailuri vizate (de exemplu, Vero, Personyze);

Aceste sisteme cooperează activ între ele, îmbunătățesc și actualizează funcționalitatea.

Cum funcționează tehnologia Big Data și ce este Data Science

Esența practică a acestei abordări este de a minimiza implicarea unei persoane în procesul decizional. Conceptul de știință a datelor se bazează pe aceasta (literalmente - „știința datelor”).

Conform acestui concept, big data este guvernată de un model statistic. Găsește relații ascunse în date și prezice cât mai precis posibil (datorită obiectivității și unei selecții largi de date) comportamentul unui anumit utilizator - dacă va cumpăra un produs, se va abona la un buletin informativ sau va fi interesat de un articol.

Acesta este un proces continuu de auto-învățare. Adică, mașina în sine învață (principiul Machine Learning) în timp real și creează algoritmi pentru a optimiza procesele de afaceri.

Ea stabilește și sugerează în mod independent:

  • Ce, unde și când să ofere utilizatorului probabilitatea maximă de conversie;
  • Cum să creșteți vânzările încrucișate și vânzările în sus;
  • Ce produse sunt cele mai populare și de ce;
  • Cum să îmbunătățești produsul/serviciul pentru nevoile publicului țintă.

În comerțul cu amănuntul, mașinile pot lua următoarele decizii:

  • Unde să deschideți următorul magazin;
  • Ce campanii de marketing să desfășoare;
  • Cum să preziceți vânzările în perioada viitoare;
  • Cum să evidențiezi „nucleul” audienței;
  • Cât de mult să creșteți/scădeți prețurile luna viitoare;
  • Cum să-ți optimizezi bugetul de marketing;
  • Cum să identifici clienții care vor pleca luna viitoare.

În marketing, acest lucru vă permite să segmentați publicul țintă, să dezvoltați reclame și oferte personale pentru fiecare segment. Din păcate, pe acest moment acest proces este doar parțial automatizat.

Iată un exemplu pentru tine.

Target și-a asumat provocarea neobișnuită de a viza femeile însărcinate înainte ca acestea să introducă interogări de actualitate, să distribuie știrile pe rețelele de socializare sau să le facă publicitate în alt mod online.

Cum a funcționat? Cunoștințele despre obiceiurile de cumpărături au ajutat. Și anume, Target a descoperit într-un studiu că viitoarele mame cumpără o mulțime de loțiuni fără parfum, șervețele din bumbac și prosoape.

Alt exemplu.

Serviciul rus de cărți electronice Bookmate știa puțin despre interesele reale ale utilizatorilor săi. Au mers la aplicație, dar cărțile propuse nu i-au interesat. Situația s-a îmbunătățit datorită utilizării informațiilor din rețelele de socializare. Vizualizările recomandărilor au crescut de 2,17 ori, iar conversia către utilizatori plătitori a crescut de 1,4 ori.

British Airways a dus personalizarea la un nivel cu totul nou. Ca parte a programului Know Me, ea recunoaște fețele clienților care folosesc serviciul Google Images. Personalul recunoaște pasagerii la terminalele aeroportului sau la bordul aeronavelor și îi salută personal pe nume.

În plus, datele personale ale pasagerilor de pe zborurile anterioare permit companiei aeriene să își ceară scuze personal celor care au întârziat un zbor în trecut sau ale căror bagaje au fost pierdute.

Aceasta și alte informații despre bază (de exemplu, preferințele alimentare) sunt disponibile însoțitorilor de bord British Airways pe tablete speciale de lucru.

Big Data în comerțul electronic: cazul netologiei

Scopul este optimizarea comunicațiilor de marketing pentru 3 magazine online de cosmetice și produse de îngrijire cu o gamă de peste 500 de produse.

Ce au făcut specialiştii „Netologiei” pentru asta?

Am început prin a colecta toate datele disponibile despre comportamentul consumatorilor din baza de clienți - aproximativ 100 de mii de consumatori - din popularele sisteme de comerț electronic Magento și Shopify.

  • Informații despre cumpărături, coșuri, cec mediu, timpul comenzilor etc.;
  • Părere abonați la newsletter prin e-mail: date despre deschiderea scrisorilor și clicarea pe link-uri de la servicii precum Mailchimp și Dotmailer, precum și despre activitatea ulterioară pe site (vizualizarea cardurilor de produse, categoriilor, achiziții după trimitere prin corespondență);
  • Activitatea de vizite repetate ale clienților obișnuiți în funcție de datele privind vizualizările produsului înainte de a face o achiziție.

Din aceste date s-au obținut următorii indicatori:

  • Mărimea optimă a reducerii;
  • Durata de viață a clientului și valoarea totală (LTV);
  • Probabilitatea repetării achizițiilor.

Astfel, s-a obținut o imagine cu drepturi depline a fiecărui client cu un set unic de preferințe, obiceiuri și caracteristici.

Sa spunem:

Clientul A. Cumpără același șampon de păr în fiecare lună. Nu există niciun motiv pentru a face promoții suplimentare la acest produs pentru acest client. Este mai bine să-i oferi o lună mai târziu să cumpere un balsam suplimentar sau o mască de aceeași marcă.

Clientul B. A cumpărat o dată apă de toaletă și parfum și nu a mai cumpărat nimic după. Cu toate acestea, el se uită prin mailing-uri de la un magazin online și este interesat de cosmetice decorative. Există posibilitatea ca clientul B să facă cumpărături în altă parte. Oferirea unui set de fard de pleoape la preț redus poate fi un stimulent decisiv pentru a face o achiziție.

Pe baza acestor informații, sistemul a format segmente pentru lansarea campaniilor prin email și Facebook - de la 40 la 100 de campanii automatizate pentru fiecare brand pe săptămână.

În timpul colectării datelor, cercetătorii au identificat o serie de factori declanșatori. De exemplu, un anumit grup de utilizatori se uită prin poștă dimineața, iar seara se întorc acasă și cumpără bunurile pe care le văd. Este logic să-și dubleze oferta de produse seara printr-un canal suplimentar.

Rezultat: a reușit să tripleze vânzările repetate, să crească rata de deschidere a scrisorilor cu o medie de 70%, iar conversia celor care au primit scrisoarea cu 83%.

„Umanizarea” datelor: Yandex.Caz Taxi

Yandex.Taxi are date unice despre toate călătoriile. Pe baza acestora, comunicările de marketing pot fi făcute mai emoționante. Ideea principală este să „comunicați” cu clienții într-un mod prietenos și să vă amintiți discret despre dvs. Statisticile personale sub formă de povești și personaje au ajutat la implementarea acesteia.

fațade media

Marketerii Yandex.Taxi au descoperit cele mai populare locuri din oraș și rute. Pentru a face acest lucru, am numărat numărul de comenzi către cele mai semnificative locuri: parcuri, teatre, muzee, monumente. Aceste date nu sunt atât de personale și nu jignesc pe nimeni, dar arată cum trăiește orașul.

Astfel de observații au făcut posibilă realizarea ideii de comunicare personală cu publicul prin fațadele media. Designul a fost conceput sub formă de mesaje prietenoase în chat. Fiecare oraș are propriile fraze.

Compania pare să facă schimb de o frază cu o persoană pe care numai el o va înțelege. El este mulțumit, deoarece aceasta este atenție și participare, iar Yandex.Taxi mizează pe creșterea gradului de conștientizare a mărcii în oraș.

La compilarea textului s-au folosit următoarele metode:

  • Argoul orașului - cuvinte locale pe care toți locuitorii le înțeleg. Le-am căutat în publicul și forumurile din oraș și am verificat, de asemenea, cu managerii regionali și istoricii locali. De exemplu, în Kazan, oficiul registrului se numește „Poirul”, terasamentul din Ekaterinburg se numește „Dramă”;
  • Joc de cuvinte. Aici sunt cateva exemple:

3.090 de persoane care au călătorit până la Madrid cu taxiul. Stii sa calatoresti? ("Madrid" - un hotel din Ekaterinburg).

958 de oameni care s-au repezit la Jupiter. Ești doar spațiu! („Jupiter” este numele companiei).

Acesta a fost un experiment de testare, iar acum Yandex dezvoltă o campanie mai cuprinzătoare care implică diverse surse online și offline.

Videoclipuri de Anul Nou

La sfârșitul anului 2017, Yandex.Taxi a vrut să spună clienților cât timp au petrecut împreună și să le mulțumească pentru asta — câte călătorii, minute de așteptare și comenzi de dimineață.

Pentru a fi interesant, am venit cu un complot probabil pentru una dintre un milion de călătorii și am filmat un videoclip pe acest subiect cu cifre din statistici.

S-a dovedit următoarele:


764 de milioane de minute de așteptare - un cuplu de îndrăgostiți își ia rămas bun de la taxi.


56 de milioane de excursii de dimineață pe an - mama și fiica merg la matineu.


122 de mii de excursii cu animale.

Rezultatele primei încercări au constatat că videoclipurile arată ca și cum marca arată cifre mari. Pentru a transmite mai precis mesajul „uite cât timp am petrecut împreună în acest an”, statisticile au fost modificate pentru a muta accentul pe personajele poveștii.


Numerele în sine nu înseamnă nimic. Este greu de înțeles dacă această cifră este mare sau mică și ce au vrut să arate cu ea. Yandex a folosit datele nu ca scop în sine, ci ca o modalitate de a spune o poveste.

Ouă de Paște în aplicație

Compania a venit și cu personaje pentru clienții săi – „tipuri de taxi” – în funcție de numărul de călătorii, durata acestora și minutele de așteptare. Mecanismul de definire a luat în considerare aceste trei caracteristici, a adăugat imaginea clientului din ele și le-a atribuit uneia dintre categorii:


Datele au fost evaluate pentru orașul în care o persoană a făcut peste 70% din călătorii.

Algoritmul a găsit mediana pentru oraș și a evaluat valorile în raport cu acesta - „multe” sau „puține” călătorii, minute de călătorie și așteptare.

Fiecare utilizator care a făcut mai mult de 4 călătorii într-un an și-a putut afla „tipul de taxi” în aplicație făcând clic pe butonul:


De exemplu:


Puma neagră: a călătorit mult, călătorii scurte, rar a plecat la timp


Un rătăcitor prevăzător: a călătorit mult, mult timp și a coborât la timp în mașină

20% dintre cei care au vizionat au analizat rezultatele și le-au distribuit pe rețelele de socializare - sunt de două ori mai multe decât au prezis!

Statistici pentru șoferi


Viitorul Big Data

Experimentele cu date mari continuă.

Yandex este una dintre companiile de pionierat care nu numai că învață conceptele de știință a datelor, ci și le utilizează în mod activ în dezvoltarea propriilor produse.

Luați platforma de blogging Yandex.Zen. Este disponibil în diferite țări. Nu este nevoie să sortați materialul după subiecte și alți parametri și să personalizați afișajul pentru anumite categorii de utilizatori. Toată lumea va citi articole care sunt interesante pentru el și va primi o nouă selecție de altele similare. Sistemul sugerează pur și simplu ceea ce este cel mai probabil să-i placă.

Cert este că inteligența mașinii nu are ca scop media. Nu urmărește să creeze un număr limitat de segmente, deoarece capacitățile sale îi permit să ofere conținut personalizat fiecăruia dintre câteva miliarde de utilizatori.

Un analog străin poate fi numit alexa.com - aceasta este o evaluare a celor mai vizitate site-uri din întreaga lume și în diferite țări separat (selecțiile în funcție de țară sunt plătite și costă bani).

Colectarea automată a datelor (prin serviciile sale, cum ar fi Yandex.Browser etc.) și modelele statistice vă permit să includeți site-uri care nu participă la alte evaluări.

Chiar și în forma actuală, acest lucru face posibilă identificarea liderilor în diverse nișe și, cu ajutorul altor servicii, modelarea strategiilor de promovare și a surselor de trafic ale acestora.

Să presupunem că selectați 5-10 utilizatori - iar aparatul găsește mii de utilizatori similari și setează direcționarea pentru aceștia. Avantajul inteligenței mașinii este că ia în considerare factori pe care chiar și un specialist cu experiență îi poate pierde din vedere, nu îi poate ghici.

  • Învață să deosebești ce decizii sunt luate mai bine de o persoană și care sunt mai bune de către o mașină și nu confunda aceste două clase. Dacă algoritmii fac față mai bine aceluiași tip de sarcini (alegeți un design de buton), cei mai creativi (proiectați un site de la zero) pot fi realizate doar de o persoană.
  • Antrenează nu numai oameni, ci și algoritmi;
  • Rețineți că, deși algoritmii sunt grozavi în a răspunde la întrebări, ei înșiși nu sunt capabili să pună întrebări. Deși este posibil, este și o chestiune de timp.

Apropo, problema „confruntării” dintre inteligența omului și a mașinii se pune din ce în ce mai des. Cu această ocazie, urmăriți bătălia Andrey Sebrant vs Anton Bulanov (Directorul INVITRO, cea mai mare companie medicală privată).

Despre segmentare, marketeri cu axe, bugete ardente și dacă butonul „Adu-mi clienți” va apărea în viitorul apropiat.

Privește-l dintr-o respirație.

cuvânt înainte

„Big data” este un termen la modă care apare la aproape toate conferințele profesionale dedicate analizei datelor, analizei predictive, data mining, CRM. Termenul este folosit în domeniile în care este relevant să se lucreze cu cantități mari de date calitativ, unde există o creștere constantă a vitezei fluxului de date în procesul organizațional: economie, bancar, producție, marketing, telecomunicații, analiză web, medicină. , etc.

Odată cu acumularea rapidă de informații, tehnologiile de analiză a datelor se dezvoltă rapid și ele. Dacă în urmă cu câțiva ani era posibil doar, să zicem, să se segmenteze clienții în grupuri cu preferințe similare, acum este posibil să se construiască modele pentru fiecare client în timp real, analizând, de exemplu, mișcarea acestuia pe Internet pentru a căuta un anume produs. Pot fi analizate interesele consumatorului și, în conformitate cu modelul construit, sunt afișate reclame adecvate sau oferte specifice. Modelul poate fi configurat și reconstruit și în timp real, ceea ce era de neconceput cu doar câțiva ani în urmă.

În domeniul telecomunicațiilor, de exemplu, au fost dezvoltate tehnologii pentru determinarea locației fizice telefoane mobileși proprietarii lor și, se pare, ideea descrisă în filmul SF Minority Report din 2002, în care afișarea informațiilor publicitare în centrele comerciale ținea cont de interesele anumitor persoane care trec, va deveni în curând realitate.

În același timp, există situații în care entuziasmul pentru noile tehnologii poate duce la dezamăgire. De exemplu, uneori date rare ( Date rare) care oferă o perspectivă importantă asupra realității sunt mult mai valoroase decât Date mare(Big Data) care descrie munții, adesea fără informații esențiale.

Scopul acestui articol este de a clarifica și reflecta asupra noilor posibilități ale Big Data și de a ilustra modul în care o platformă de analiză STATISTICI StatSoft vă poate ajuta să utilizați în mod eficient Big Data pentru a optimiza procesele și pentru a rezolva probleme.

Cât de mare este Big Data?

Desigur, răspunsul corect la această întrebare ar trebui să fie „depinde...”

În discuțiile moderne, conceptul de Big Data este descris ca date de volum de ordinul teraocteților.

În practică (dacă vorbim de gigabytes sau terabytes), astfel de date sunt ușor de stocat și gestionat folosind baze de date „tradiționale” și echipamente standard (server baze de date).

Software STATISTICI folosește tehnologia multi-threaded pentru algoritmi de acces la date (citire), transformare și construcție de modele predictive (și scoring), astfel încât astfel de mostre de date pot fi analizate cu ușurință și nu necesită instrumente specializate.

În unele proiecte StatSoft curente, sunt procesate mostre de ordinul a 9-12 milioane de rânduri. Să le înmulțim cu 1000 de parametri (variabile) colectați și organizați în depozitul de date pentru a construi modele de risc sau predictive. Acest tip de fișier va avea „doar” aproximativ 100 de gigaocteți. Acesta nu este cu siguranță un depozit de date mic, dar dimensiunea sa nu depășește capacitățile tehnologiei standard de baze de date.

Linie de produse STATISTICI pentru analiza loturilor și construirea modelelor de punctare ( STATISTICA Enterprise), soluții în timp real ( STATISTICA Scor live), și instrumente analitice pentru crearea și gestionarea modelelor ( STATISTICA Data Miner) scala cu ușurință pe mai multe servere cu procesoare multi-core.

În practică, aceasta înseamnă că o viteză suficientă a modelelor analitice (de exemplu, previziuni privind riscul de credit, probabilitatea de fraudă, fiabilitatea nodurilor echipamentelor etc.) pentru a lua decizii operaționale poate fi aproape întotdeauna obținută folosind instrumente standard. STATISTICI.

De la Big Data la Big Data

De regulă, discuția despre Big Data este centrată în jurul depozitelor de date (și analizei bazate pe astfel de magazine) care sunt mult mai mari decât doar câțiva terabytes.

În special, unele depozite de date pot crește la mii de terabytes, adică până la petabytes (1000 terabytes = 1 petabyte).

Dincolo de petaocteți, acumularea de date poate fi măsurată în exaocteți, de exemplu, sectorul de producție la nivel mondial în 2010 este estimat că a acumulat un total de 2 exabytes de informații noi (Manyika et al., 2011).

Există industrii în care datele sunt colectate și acumulate foarte intens.

De exemplu, într-un mediu de producție, cum ar fi centralele electrice, un flux continuu de date este uneori generat pentru zeci de mii de parametri în fiecare minut sau chiar în fiecare secundă.

În plus, în ultimii ani, au fost introduse așa-numitele tehnologii „rețea inteligentă”, care le permit utilităților să măsoare consumul de energie electrică al gospodăriilor individuale în fiecare minut sau în fiecare secundă.

Pentru acest tip de aplicație, în care datele trebuie stocate ani de zile, datele acumulate sunt clasificate drept Extremely Big Data.

Există, de asemenea, un număr tot mai mare de aplicații Big Data în sectoarele comerciale și guvernamentale, unde volumul de date în stocare poate fi de sute de terabytes sau petabytes.

Tehnologia modernă vă permite să „urmăriți” oamenii și comportamentul lor căi diferite. De exemplu, atunci când navigăm pe internet, cumpărăm online sau la lanțuri mari de magazine precum Walmart (conform Wikipedia, stocarea datelor Walmart este evaluată la peste 2 petaocteți) sau navigăm cu telefoane mobile- lăsăm o urmă a acțiunilor noastre, ceea ce duce la acumularea de noi informații.

Diverse mijloace de comunicare, de la simple apeluri telefonice până la încărcarea de informații prin intermediul site-urilor de rețele sociale precum Facebook (conform Wikipedia, informațiile sunt schimbate în fiecare lună la 30 de miliarde de unități), sau partajarea video pe site-uri precum YouTube (Youtube pretinde a fi descărcări 24). ore de video în fiecare minut; vezi Wikipedia) generează o cantitate imensă de date noi în fiecare zi.

În mod similar, tehnologiile medicale moderne generează cantități mari de date legate de acordarea de îngrijiri medicale (imagini, videoclipuri, monitorizare în timp real).

Deci, clasificarea volumelor de date poate fi reprezentată după cum urmează:

Seturi mari de date: de la 1000 megaocteți (1 gigaoctet) la sute de gigaocteți

Seturi uriașe de date: de la 1000 de gigaocteți (1 terabyte) la câțiva terabytes

Big Data: de la câțiva terabytes la sute de terabytes

Date extrem de mari: 1.000 până la 10.000 terabytes = 1 până la 10 petabytes

Sarcini legate de Big Data

Există trei tipuri de sarcini asociate cu Big Data:

1. Depozitare și gestionare

Sute de terabytes sau petabytes de date nu sunt ușor de stocat și gestionat cu bazele de date relaționale tradiționale.

2. Informații nestructurate

Majoritatea Big Data sunt nestructurate. Acestea. cum pot fi organizate text, video, imagini etc.?

3. Analiza datelor mari

Cum se analizează informațiile nestructurate? Cum să creați rapoarte simple bazate pe Big Data, să construiți și să implementați modele predictive aprofundate?

Stocarea și gestionarea Big Data

Big Data este de obicei stocată și organizată în sisteme de fișiere distribuite.

În termeni generali, informațiile sunt stocate pe mai multe (uneori mii) de hard disk-uri pe computere standard.

Așa-numita „hartă” (hartă) ține evidența unde (pe ce computer și/sau disc) este stocată o anumită informație.

Pentru a asigura toleranța și fiabilitatea la erori, fiecare informație este de obicei stocată de mai multe ori, de exemplu de trei ori.

Deci, de exemplu, să presupunem că ați colectat tranzacții individuale de la un mare lanț de magazine cu amănuntul. informatii detaliate despre fiecare tranzacție vor fi stocate pe diferite servere și hard disk-uri, iar „harta” (harta) indexează unde sunt stocate exact informațiile despre tranzacția corespunzătoare.

Utilizarea hardware standard și instrumente software open source pentru a gestiona acest sistem de fișiere distribuit (de exemplu, Hadoop), este relativ ușor să implementați depozite de date fiabile la scară petabyte.

Informații nestructurate

Majoritatea informațiilor colectate într-un sistem de fișiere distribuit constă din date nestructurate, cum ar fi text, imagini, fotografii sau videoclipuri.

Acest lucru are avantajele și dezavantajele sale.

Avantajul este că capacitatea de a stoca date mari vă permite să stocați „toate datele” fără să vă faceți griji cu privire la cât de multe dintre date sunt relevante pentru analiza ulterioară și luarea deciziilor.

Dezavantajul este că, în astfel de cazuri, este necesară prelucrarea ulterioară a acestor cantități uriașe de date pentru a extrage informații utile.

În timp ce unele dintre aceste operațiuni pot fi simple (cum ar fi calcule simple etc.), altele necesită algoritmi mai complecși care trebuie să fie special proiectați pentru a rula eficient pe un sistem de fișiere distribuit.

Un director de top i-a spus odată StatSoft că „a cheltuit o avere pe IT și stocarea datelor, dar încă nu a început să fie plătit”, pentru că nu s-a gândit la cum să folosească cel mai bine acele date pentru a-și îmbunătăți activitatea de bază.

Deci, în timp ce cantitatea de date poate crește exponențial, capacitatea de a extrage informații și de a acționa asupra acestor informații este limitată și va atinge asimptotic limita.

Este important ca metodele și procedurile pentru construirea, actualizarea modelelor și automatizarea procesului decizional să fie dezvoltate împreună cu sistemele de stocare a datelor pentru a se asigura că astfel de sisteme sunt utile și benefice întreprinderii.

Analiza Big Data

Aceasta este o problemă cu adevărat mare cu analiza datelor mari nestructurate: cum să le analizăm într-un mod util. S-a scris mult mai puțin despre această problemă decât despre stocarea datelor și tehnologiile de gestionare a Big Data.

Există o serie de probleme care ar trebui luate în considerare.

Reducere hartă

Când se analizează sute de teraocteți sau petaocteți de date, nu este posibil să extrageți datele într-un alt loc pentru analiză (de exemplu, în STATISTICA Enterprise Analysis Server).

Procesul de transfer de date pe canale către un server sau servere separate (pentru procesare paralelă) va dura prea mult și va necesita prea mult trafic.

În schimb, calculele analitice trebuie efectuate fizic aproape de locul în care sunt stocate datele.

Algoritmul Map-Reduce este un model pentru calculul distribuit. Principiul funcționării sale este următorul: distribuirea datelor de intrare către nodurile de lucru (nodurile individuale) ale sistemului de fișiere distribuit pentru preprocesare (map-step) și, apoi, convoluția (combinația) deja pre -date prelucrate (reducere pas).

Astfel, să zicem, pentru a calcula suma finală, algoritmul va calcula în paralel subtotalurile din fiecare dintre nodurile sistemului de fișiere distribuite, iar apoi va rezuma aceste valori intermediare.

Există o mulțime de informații disponibile online despre cum puteți efectua diferite calcule cu un model de reducere a hărții, inclusiv pentru analize predictive.

Statistici simple, Business Intelligence (BI)

Pentru a crea rapoarte BI simple, există multe produse open source care vă permit să calculați sume, medii, proporții etc. folosind map-reduce.

Prin urmare, obținerea de contorizări precise și alte statistici simple pentru raportare este foarte ușor.

Modelare predictivă, statistici avansate

La prima vedere, poate părea că construirea modelelor predictive într-un sistem de fișiere distribuit este mai dificilă, dar nu este deloc așa. Luați în considerare etapele preliminare ale analizei datelor.

Pregătirea datelor. Cu ceva timp în urmă, StatSoft a derulat o serie de proiecte mari și de succes care implicau seturi de date foarte mari care descriu performanța minut cu minut a unei centrale electrice. Scopul analizei a fost îmbunătățirea eficienței centralei și reducerea emisiilor (Electric Power Research Institute, 2009).

Este important ca, în ciuda faptului că seturile de date pot fi foarte mari, informațiile conținute în ele au o dimensiune mult mai mică.

De exemplu, în timp ce datele sunt acumulate la fiecare secundă sau în fiecare minut, mulți parametri (temperaturile gazului și cuptorului, debitele, pozițiile clapetelor etc.) rămân stabili pe perioade lungi de timp. Cu alte cuvinte, datele care sunt scrise în fiecare secundă sunt practic o repetare a aceleiași informații.

Astfel, este necesar să se efectueze agregarea de date „inteligentă”, obținând date pentru modelare și optimizare care să conțină doar informațiile necesare despre schimbările dinamice care afectează eficiența centralei și cantitatea de emisii.

Clasificarea textelor și preprocesarea datelor. Să ilustrăm încă o dată cum seturile de date mari pot conține informații mult mai puțin utile.

De exemplu, StatSoft a fost implicat în proiecte legate de analiza textelor (text mining) din tweet-uri, reflectând cât de mulțumiți sunt pasagerii de companiile aeriene și de serviciile acestora.

Deși un număr mare de tweet-uri relevante au fost extrase în fiecare oră și zilnic, sentimentul exprimat în acestea a fost destul de simplu și monoton. Majoritatea postărilor sunt plângeri și mesaje scurte cu o singură propoziție despre „experiențe proaste”. În plus, numărul și „puterea” acestor sentimente sunt relativ stabile în timp și pe probleme specifice (de exemplu, bagaje pierdute, mâncare săracă, anulări de zboruri).

Astfel, reducerea tweet-urilor reale la scoruri de sentiment folosind tehnici de extragere a textului (cum ar fi cele implementate în STATISTICA Text Miner) are ca rezultat o cantitate mult mai mică de date, care pot fi apoi mapate cu ușurință la datele structurate existente (vânzări reale de bilete sau informații despre călători frecvent). Analiza vă permite să împărțiți clienții în grupuri și să studiați reclamațiile caracteristice ale acestora.

Există multe instrumente disponibile pentru a realiza acest tip de agregare a datelor (de exemplu, scoruri de sentiment) pe un sistem de fișiere distribuit, ceea ce face acest proces analitic ușor de realizat.

Modele de constructii

Adesea, provocarea este de a construi rapid modele precise pentru datele stocate într-un sistem de fișiere distribuit.

Există implementări de reducere a hărților pentru diverși algoritmi de extragere a datelor/analitică predictivă, potriviti pentru procesarea paralelă la scară largă a datelor într-un sistem de fișiere distribuit (care poate fi acceptat folosind platforma STATISTICI statsoft).

Cu toate acestea, tocmai pentru că ați procesat o cantitate foarte mare de date, sunteți sigur că modelul rezultat este de fapt mai precis?

De fapt, cel mai probabil este mai convenabil să construiești modele pentru segmente mici de date într-un sistem de fișiere distribuit.

După cum spune un raport Forrester recent: „Doi plus doi este egal cu 3,9, ceea ce este de obicei suficient de bun” (Hopkins & Evelson, 2011).

Acuratețea statistică și matematică constă în faptul că un model de regresie liniară, care include, de exemplu, 10 predictori bazați pe un model bine realizat. proba probabilistica din 100.000 de observații va fi la fel de precis ca un model construit din 100 de milioane de observații.