Технологія аналізу великих даних. Big Data: аналітика та рішення. Переваги звільнених досліджень

Термін «Біг-Дата», можливо, сьогодні вже пізнаваний, але навколо нього все ще досить багато плутанини щодо того, що він означає насправді. Правду кажучи, концепція постійно розвивається і переглядається, оскільки вона залишається рушійною силою багатьох хвиль цифрового перетворення, що продовжуються, включаючи штучний інтелект, науку про дані та Інтернет речей. Але що є технологія Big-Data і як вона змінює наш світ? Спробуймо розібратися пояснити суть технології Біг-Дати і що вона означає простими словами.

Дивовижне зростання Біг-Дати

Все почалося з вибуху в обсязі даних, які ми створили від початку цифрової епохи. Це багато в чому пов'язане з розвитком комп'ютерів, Інтернету та технологій, здатних «вихоплювати» дані з навколишнього світу. Дані власними силами є новим винаходом. Ще до епохи комп'ютерів та баз даних ми використовували паперові записи транзакцій, клієнтські записи та архівні файли, які є даними. Комп'ютери, особливо електронні таблиці та бази даних, дозволили нам легко і легко зберігати та впорядковувати дані у великих масштабах. Несподівано інформація стала доступною за допомогою одного клацання миші.

Тим не менш, ми пройшли довгий шлях від початкових таблиць та баз даних. Сьогодні через кожні два дні ми створюємо стільки даних, скільки отримали з самого початку аж до 2000 року. Правильно через кожні два дні. І обсяг даних, які ми створюємо, продовжує швидко зростати; до 2020 обсяг доступної цифрової інформації зросте приблизно з 5 зеттабайтів до 20 зеттабайтів.

В даний час майже кожна дія, яку ми робимо, залишає свій слід. Ми генеруємо дані щоразу, коли виходимо в Інтернет, коли переносимо наші смартфони, обладнані пошуковим модулем, коли розмовляємо з нашими знайомими через соціальні мережі чи чати тощо. До того ж кількість даних, згенерованих машинним способом, також швидко зростає. Дані генеруються та розповсюджуються, коли наші «розумні» домашні пристрої обмінюються даними один з одним або зі своїми домашніми серверами. Промислове обладнання на заводах та фабриках все частіше оснащується датчиками, які акумулюють та передають дані.

Термін «Big-Data» відноситься до збору всіх цих даних та нашої здатності використовувати їх у своїх інтересах у широкому спектрі областей, включаючи бізнес.

Як працює технологія Big-Data?

Біг Дата працює за принципом: чим більше ви знаєте про той чи інший предмет чи явище, тим більш достовірно ви зможете досягти нового розуміння та передбачити, що станеться у майбутньому. У ході порівняння більшої кількості точок даних виникають взаємозв'язки, які були приховані, і ці взаємозв'язки дозволяють нам вчитися і приймати більш виважені рішення. Найчастіше це робиться за допомогою процесу, який включає побудову моделей на основі даних, які ми можемо зібрати, і подальший запуск імітації, в ході якої щоразу налаштовуються значення точок даних і відстежується те, як вони впливають на наші результати. Цей процес автоматизований. сучасні технологіїаналітики будуть запускати мільйони цих симуляцій, налаштовуючи всі можливі змінні доти, доки не знайдуть модель або ідею, які допоможуть вирішити проблему, над якою вони працюють.

Біл Гейтс висить над паперовим вмістом одного компакт-диска

Донедавна дані були обмежені електронними таблицями або базами даних - і все було дуже впорядковане та акуратне. Все те, що не можна було легко організувати в рядки та стовпці, розцінювалося як надто складне для роботи та ігнорувалося. Проте прогрес у галузі зберігання та аналітики означає, що ми можемо фіксувати, зберігати та обробляти велика кількістьданих різного типу. В результаті «дані» на сьогоднішній день можуть означати будь-що, починаючи базами даних, і закінчуючи фотографіями, відео, звукозаписами, письмовими текстами та даними датчиків.

Щоб зрозуміти всі ці безладні дані, проекти, що мають в основі Біг Дату, найчастіше використовують ультрасучасну аналітику із залученням штучного інтелекту та комп'ютерного навчання. Навчаючи обчислювальні машини визначати, що ж є конкретні дані — наприклад, за допомогою розпізнавання образів або обробки природної мови — ми можемо навчити їх визначати моделі набагато швидше і достовірніше, ніж ми самі.

Як використовується Біг-Дата?

Цей потік інформації, що постійно збільшується, про дані датчиків, текстових, голосових, фото- і відеоданих означає, що тепер ми можемо використовувати дані тими способами, які неможливо було уявити ще кілька років тому. Це приносить революційні зміни у світ бізнесу чи не в кожній галузі. Сьогодні компанії можуть з неймовірною точністю передбачити, які конкретні категорії клієнтів захочуть зробити придбання і коли. Біг Дата також допомагає компаніям виконувати свою діяльність набагато ефективніше.

Навіть поза сферою бізнесу проекти, пов'язані з Big-Data, вже допомагають змінити наш світ різними шляхами:

Покраща здоров'я — медицина, керована даними, здатна аналізувати величезну кількість медичної інформації та зображень для моделей, які можуть допомогти виявити захворювання на ранній стадії та розробити нові ліки.
Прогнозуючи та реагуючи на природні та техногенні катастрофи. Дані датчиків можна проаналізувати, щоб передбачити, де можуть статися землетруси, а моделі поведінки людини підказують, які допомагають організаціям надавати допомогу тим, хто вижив. Технологія Біг Дати також використовується для відстеження та захисту потоку біженців із зон воєнних дій у всьому світі.
Запобігаючи злочинності. Поліцейські сили все частіше використовують стратегії, засновані на даних, які включають їхню власну розвідувальну інформацію та інформацію з відкритого доступудля ефективнішого використання ресурсів та вживання стримуючих заходів там, де це необхідно.

Кращі книги про технологію Big-Data

Всі брешуть. Пошуковики, Big Data та Інтернет знають про вас все.
BIG DATA. Вся технологія в одній книзі.
Промисловість щастя. Як Big Data та нові технології допомагають додати емоцію в товари та послуги.
Революція аналітики. Як у епоху Big Data покращити ваш бізнес за допомогою операційної аналітики.

Проблеми з Big-Data

Біг Дата дає нам безпрецедентні ідеї та можливості, але також порушує проблеми та питання, які необхідно вирішити:

Конфіденційність даних – Big-Data, яку ми сьогодні генеруємо, містить багато інформації про наше особисте життя, на конфіденційність якого ми маємо повне право. Дедалі частіше нас просять знайти баланс між кількістю персональних даних, які ми розкриваємо, та зручністю, яку пропонують додатки та послуги, засновані на використанні Біг Дати.
Захист даних — навіть якщо ми вирішуємо, що нас влаштовує те, що хтось має наші дані для певної мети, чи можемо ми довіряти йому безпеку та безпеку наших даних?
Дискримінація даних — коли вся інформація буде відома, чи стане прийнятною дискримінація людей на основі даних із їхнього особистого життя? Ми вже використовуємо оцінки кредитоспроможності, щоб вирішити, хто може брати гроші, і страхування також значною мірою залежить від даних. Нам варто очікувати, що нас будуть аналізувати і оцінювати більш докладно, однак слід подбати про те, щоб це не ускладнювало життя тих людей, які мають менші ресурси та обмежений доступ до інформації.

Виконання цих завдань є важливою складовою Біг Дати і їх необхідно вирішувати організаціям, які хочуть використовувати такі дані. Нездатність здійснити це може зробити бізнес уразливим, причому не лише з погляду його репутації, але також із юридичної та фінансової сторони.

Дивлячись у майбутнє

Дані змінюють наш світ та наше життя небувалими темпами. Якщо Big-Data здатна на все це сьогодні, просто уявіть, на що вона буде здатна завтра. Обсяг доступних нам даних тільки збільшиться, а технологія аналітики стане ще більш сучасною.

Для бізнесу здатність застосовувати Біг Дату ставатиме все більш вирішальною у найближчі роки. Тільки ті компанії, які розглядають дані як стратегічний актив, виживуть і процвітатимуть. Ті, хто ігнорує цю революцію, ризикують залишитися позаду.

Як вам стаття? Ще більш придатний контент на моєму чудовому YouTube-каналі

Тільки обережніше! На моєму ютубі можна стати надто розумним... 👇

Big Data– це самі дані, а й технології їх обробки та використання, методи пошуку необхідної інформації у великих масивах. Проблема великих даних, як і раніше, залишається відкритою і життєво важливою для будь-яких систем, що десятиліттями накопичують найрізноманітнішу інформацію.

З цим терміном пов'язують вираз "Volume, Velocity, Variety"- Принципи, на яких будується робота з великими даними. Це безпосередньо об'єм інформації, швидкодія її обробкиі різноманітність відомостей, що зберігаються в масиві. Останнім часом до трьох базових засад стали додавати ще один – Value, що означає цінність інформації. Тобто, вона має бути корисною та потрібною в теоретичному чи практичному плані, що виправдовувало б витрати на її зберігання та обробку.

Як приклад типового джерела великих даних можна навести соціальні мережі - кожен профіль або публічна сторінка є однією маленькою краплею в ніяк не структурованому океані інформації. Причому незалежно від кількості відомостей, що зберігаються в тому чи іншому профілі, взаємодія з кожним з користувачів має бути максимально швидким.

Великі дані безперервно накопичуються практично у будь-якій сфері людського життя. Сюди входить будь-яка галузь, пов'язана або з людськими взаємодіями або з обчисленнями. Це і соціальні медіа, і медицина, і банківська сфера, а також системи пристроїв, які отримують численні результати щоденних обчислень. Наприклад, астрономічні спостереження, метеорологічні відомості та інформація із пристроїв зондування Землі.

Інформація з різних систем стеження в режимі реального часу також надходить на сервери тієї чи іншої компанії. Телебачення та радіомовлення, бази дзвінків операторів стільникового зв'язку– взаємодія кожної конкретної людини з ними мінімальна, але разом вся ця інформація стає великими даними.

Технології великих даних стали невід'ємними від науково-дослідницької діяльності та комерції. Понад те, вони починають захоплювати і сферу управління – і скрізь потрібне використання дедалі ефективніших систем зберігання та маніпулювання інформацією.

Вперше термін «великі дані» з'явився у пресі у 2008 році, коли редактор журналу Nature Кліффорд Лінч випустив статтю на тему розвитку майбутнього науки за допомогою технологій роботи з великою кількістю даних. До 2009 року цей термін розглядався лише з погляду наукового аналізу, але після виходу ще кількох статей преса стала широко використовувати поняття Big Data – і продовжує його використовувати в даний час.

У 2010 році стали з'являтися перші спроби вирішити проблему великих даних. Були випущені програмні продукти, Дія яких була спрямована на те, щоб мінімізувати ризики при використанні величезних інформаційних масивів.

До 2011 року великими даними зацікавилися такі великі компанії, як Microsoft, Oracle, EMC та IBM – вони стали першими використовувати напрацювання Big data у своїх стратегіях розвитку, причому досить успішно.

ВНЗ почали проводити вивчення великих даних як окремий предмет вже у 2013 році – тепер проблемами у цій сфері займаються не лише науки про дані, а й інженерія разом з обчислювальними предметами.

До основних методів аналізу та обробки даних можна віднести такі:

Методи класу чи глибинний аналіз (Data Mining).

Дані методи досить численні, але їх поєднує одне: використовуваний математичний інструментарій разом із досягненнями зі сфери інформаційних технологій.

Краудсорсінг.

Ця методика дозволяє отримувати дані одночасно з кількох джерел, причому кількість останніх практично не обмежена.

А/В-тестування.

Зі всього обсягу даних вибирається контрольна сукупність елементів, яку по черзі порівнюють з іншими подібними сукупностями, де був змінений один з елементів. Проведення подібних тестів допомагає визначити, коливання якого з параметрів найбільше впливають на контрольну сукупність. Завдяки обсягам Big Data можна проводити величезну кількість ітерацій, з кожною з них наближаючись до максимально достовірного результату.

Прогнозна аналітика

Фахівці у цій галузі намагаються заздалегідь передбачити і розпланувати те, як поводитиметься підконтрольний об'єкт, щоб прийняти найвигідніше у цій ситуації рішення.

Машинне навчання (штучний інтелект).

Грунтується на емпіричному аналізі інформації та подальшому побудові алгоритмів самонавчання систем.

Мережевий аналіз.

Найпоширеніший метод дослідження соціальних мереж – після отримання статистичних даних аналізуються створені у сітці вузли, тобто взаємодії між окремими користувачами та його спільнотами.

У 2017 році, коли великі дані перестали бути чимось новим і незвіданим, їхня важливість не тільки не зменшилася, а ще й зросла. Наразі експерти роблять ставки на те, що аналіз великих обсягів даних стане доступним не лише для організацій-гігантів, а й для представників малого та середнього бізнесу. Такий підхід планується реалізувати за допомогою таких складових:

Хмарні сховища.

Зберігання та обробка даних стають швидшими та економічнішими – у порівнянні з витратами на утримання власного дата-центру та можливе розширення персоналу оренда хмари є набагато дешевшою альтернативою.

Використання Dark Data.

Так звані «темні дані» – вся неоцифрована інформація про компанію, яка не відіграє ключової ролі при безпосередньому її використанні, але може спричинити перехід на новий формат зберігання відомостей.

Штучний інтелект та Deep Learning.

Технологія навчання машинного інтелекту, що наслідує структуру і роботу людського мозку, якнайкраще підходить для обробки великого обсягу постійно мінливої інформації. У цьому випадку машина зробить все те ж саме, що мала б зробити людина, але при цьому ймовірність помилки значно знижується.

Передбачалося, що загальний світовий обсяг створених та реплікованих даних у 2011-му може становити близько 1,8 зеттабайта (1,8 трлн. гігабайт) – приблизно в 9 разів більше за те, що було створено у 2006-му.

Більш складне визначення

Проте ` великі даніприпускають щось більше, ніж просто аналіз величезних обсягів інформації. Проблема не в тому, що організації створюють величезні обсяги даних, а в тому, що більша частина їх представлена у форматі, що погано відповідає традиційному структурованому формату БД, - це веб-журнали, відеозаписи, текстові документи, машинний код або, наприклад, геопросторові дані . Усе це зберігається у безлічі різноманітних сховищ, іноді навіть поза організації. У результаті корпорації можуть мати доступ до величезного обсягу своїх даних і не мати необхідних інструментів, щоб встановити взаємозв'язки між цими даними та зробити на їх основі значні висновки. Додайте сюди ту обставину, що дані зараз оновлюються все частіше і частіше, і ви отримаєте ситуацію, в якій традиційні методи аналізу інформації не можуть наздогнати величезні обсяги даних, що постійно оновлюються, що в результаті і відкриває дорогу технологіям великих даних.

Найкраще визначення

По суті поняття великих данихмає на увазі роботу з інформацією величезного обсягу та різноманітного складу, дуже часто оновлюваної та що знаходиться в різних джерелах з метою збільшення ефективності роботи, створення нових продуктів та підвищення конкурентоспроможності. Консалтингова компанія Forrester дає коротке формулювання: ` Великі даніпоєднують техніки та технології, які отримують сенс з даних на екстремальній межі практичності.

Наскільки велика різниця між бізнес-аналітикою та великими даними?

Крейг Баті, виконавчий директор з маркетингу та директор з технологій Fujitsu Australia, вказував, що бізнес-аналіз є описовим процесом аналізу результатів, досягнутих бізнесом у певний період часу, тим часом як швидкість обробки великих данихдозволяє зробити аналіз пророковим, здатним пропонувати бізнесу рекомендації на майбутнє. Технології великих даних дозволяють аналізувати більше типів даних у порівнянні з інструментами бізнес-аналітики, що дає можливість фокусуватися не тільки на структурованих сховищах.

Метт Слокум з O"Reilly Radar вважає, що хоча великі даніта бізнес-аналітика мають однакову мету (пошук відповідей на питання), вони відрізняються один від одного за трьома аспектами.

Великі дані призначені для обробки більших обсягів інформації, ніж бізнес-аналітика, і це, звичайно, відповідає традиційному визначенню великих даних.
Великі дані призначені для обробки більш швидко одержуваних та змінних відомостей, що означає глибоке дослідження та інтерактивність. У деяких випадках результати формуються швидше, ніж веб-сторінка.
Великі дані призначені для обробки неструктурованих даних, способи використання яких ми тільки починаємо вивчати після того, як змогли налагодити їх збирання та зберігання, і нам потрібні алгоритми та можливість діалогу для полегшення пошуку тенденцій, що містяться всередині цих масивів.

Згідно з опублікованою компанією Oracle білою книгою Інформаційна архітектура Oracle: керівництво архітектора за великими даними, при роботі з великими даними ми підходимо до інформації інакше, ніж при проведенні бізнес-аналізу.

Робота з великими даними не схожа на звичайний процес бізнес-аналітики, де просте складання відомих значень приносить результат: наприклад, результат додавання даних про оплачені рахунки стає обсягом продажів за рік. Працюючи з великими даними результат виходить у процесі їх очищення шляхом послідовного моделювання: спочатку висувається гіпотеза, будується статистична, візуальна чи семантична модель, виходячи з неї вірність висунутої гіпотези і потім висувається наступна. Цей процес вимагає від дослідника або інтерпретації візуальних значень або складання інтерактивних запитів на основі знань, або розробки адаптивних алгоритмів `машинного навчання`, здатних отримати результат, що шукається. Причому час життя такого алгоритму може бути коротким.

Методики аналізу великих даних

Існує безліч різноманітних методик аналізу масивів даних, основу яких лежить інструментарій, запозичений зі статистики та інформатики (наприклад, машинне навчання). Список не претендує на повноту, однак у ньому відображені найбільш затребувані у різних галузях підходи. При цьому слід розуміти, що дослідники продовжують працювати над створенням нових методик та вдосконаленням існуючих. Крім того, деякі з перерахованих методик зовсім не обов'язково застосовні виключно до великих даних і можуть з успіхом використовуватися для менших за обсягом масивів (наприклад, A/B-тестування, регресійний аналіз). Безумовно, чим більший і диверсифікований масив піддається аналізу, тим більше точні та релевантні дані вдається отримати на виході.

A/B testing. Методика, у якій контрольна вибірка послідовно порівнюється коїться з іншими. Тим самим вдається виявити оптимальну комбінацію показників для досягнення, наприклад, найкращої реакції у відповідь споживачів на маркетингову пропозицію. Великі данідозволяють провести величезну кількість ітерацій і таким чином отримати статистично достовірний результат.

Association rule learning. Набір методик виявлення взаємозв'язків, тобто. асоціативних правил між змінними величинами у великих масивах даних. Використовується у data mining.

Classification. Набір методик, які дозволяє передбачити поведінку споживачів у певному сегменті ринку (прийняття рішень про купівлю, відтік, обсяг споживання та ін.). Використовується у data mining.

Cluster analysis. Статистичний метод класифікації об'єктів за групами за рахунок виявлення наперед не відомих загальних ознак. Використовується у data mining.

Crowdsourcing. Методика збору даних із великої кількості джерел.

Data fusion and data integration. Набір методик, що дозволяє аналізувати коментарі користувачів соціальних мереж та зіставляти з результатами продажів у режимі реального часу.

Data mining. Набір методик, який дозволяє визначити найбільш сприйнятливі для продукту, що просувається, або послуги категорії споживачів, виявити особливості найбільш успішних працівників, передбачити поведінкову модель споживачів.

Ensemble learning. У цьому вся методі задіюється безліч предикативних моделей з допомогою чого підвищується якість зроблених прогнозів.

Genetic algorithms. У цій методиці можливі рішенняпредставляють у вигляді `хромосом`, які можуть комбінуватися та мутувати. Як і в процесі природної еволюції, виживає найбільш пристосована особина.

Machine learning. Напрямок в інформатиці (історично за ним закріпилася назва "штучний інтелект"), який має на меті створення алгоритмів самонавчання на основі аналізу емпіричних даних.

Natural language processing (NLP). Набір запозичених з інформатики та лінгвістики методик розпізнавання природної мови людини.

Network analysis. Набір методик аналізу зв'язків між вузлами у мережах. Стосовно соціальних мереж дозволяє аналізувати взаємозв'язки між окремими користувачами, компаніями, спільнотами і т.п.

Optimization. Набір чисельних методів для редизайну складних систем та процесів для покращення одного або кількох показників. Допомагає у прийнятті стратегічних рішень, наприклад, складу виведеної ринку продуктової лінійки, проведенні інвестиційного аналізу та ін.

Pattern recognition. Набір методик із елементами самонавчання для передбачення поведінкової моделі споживачів.

Predictive modeling. Набір методик, які дозволяють створити математичну модель наперед заданого можливого сценарію розвитку подій. Наприклад, аналіз бази даних CRM-системи щодо можливих умов, які підштовхнуть абоненти змінити провайдера.

Regression. Набір статистичних методів для виявлення закономірності між зміною залежної змінної та однією або декількома незалежними. Часто застосовується для прогнозування та передбачень. Використовується у data mining.

Sentiment analysis. В основі методик оцінки настроїв споживачів лежать технології розпізнавання природної мови. Вони дозволяють вичленувати з загального інформаційного потоку повідомлення, пов'язані з предметом, що цікавить (наприклад, споживчим продуктом). Далі оцінити полярність судження (позитивне чи негативне), ступінь емоційності та ін.

Signal processing. Запозичений з радіотехніки набір методик, який має на меті розпізнавання сигналу на тлі шуму та його подальшого аналізу.

Spatial analysis. Набір запозичених зі статистики методик аналізу просторових даних - топології місцевості, географічних координат, геометрії об'єктів. Джерелом великих даниху цьому випадку часто виступають геоінформаційні системи(ГІС).

Statistics. Наука про збирання, організацію та інтерпретацію даних, включаючи розробку опитувальників та проведення експериментів. Статистичні методи часто застосовуються для оціночних суджень про взаємозв'язки між тими чи іншими подіями.

Supervised learning. Набір заснованих на технологіях машинного навчання методик, які дозволяють виявити функціональні взаємозв'язки в масивах даних, що аналізуються.

Simulation. Моделювання поведінки складних систем часто використовується для прогнозування, передбачення та опрацювання різних сценаріїв під час планування.

Time series analysis. Набір запозичених зі статистики та цифрової обробки сигналів методів аналізу послідовностей даних, що повторюються з плином часу. Одні з очевидних застосувань – відстеження ринку цінних паперів чи захворюваності на пацієнтів.

Unsupervised learning. Набір заснованих на технологіях машинного навчання методик, які дозволяють виявити приховані функціональні взаємозв'язки в масивах даних, що аналізуються. Має спільні риси з Cluster Analysis.

Візуалізація. Методи графічного представлення результатів аналізу великих даних як діаграм чи анімованих зображень спрощення інтерпретації полегшення розуміння отриманих результатів.

Наочне уявлення результатів аналізу великих даних має важливого значення їх інтерпретації. Не секрет, що сприйняття людини обмежене, і вчені продовжують вести дослідження у сфері вдосконалення сучасних методів представлення даних як зображень, діаграм чи анімацій.

Аналітичний інструментарій

На 2011 рік деякі з перерахованих у попередньому підрозділі підходів або певну їх сукупність дозволяють реалізувати практично аналітичні двигуни для роботи з великими даними. З вільних або недорогих відкритих систем аналізу Big Data можна порекомендувати:

Revolution Analytics (на базі мови R для мат.статистики).

Особливий інтерес у цьому списку представляє Apache Hadoop - ПЗ з відкритим кодом, яке за останні п'ять років випробувано як аналізатор даних більшістю трекерів акцій. Як тільки Yahoo відкрила код Hadoop спільноті з відкритим кодом, в ІТ-індустрії негайно з'явився цілий напрямок створення продуктів на базі Hadoop. Практично всі сучасні засоби аналізу великих данихнадають засоби інтеграції із Hadoop. Їхніми розробниками виступають як стартапи, так і загальновідомі світові компанії.

Ринки рішень для управління великими даними

Платформи великих даних (BDP, Big Data Platform) як засіб боротьби з цифровим хордингом

Можливість аналізувати великі дані, В просторіччя звана Big Data, сприймається як благо, причому однозначно. Але чи це так насправді? До чого може призвести нестримне накопичення даних? Швидше за все до того, що вітчизняні психологи стосовно людини називають патологічним накопиченням, силогоманією або образно "синдромом Плюшкіна". По-англійськи хибна пристрасть збирати все поспіль називають хордингом (від англ. hoard - "Запас"). За класифікацією ментальних захворювань хординг зарахований до психічних розладів. У цифрову епоху до традиційного речового хордингу додається цифровий (Digital Hoarding), ним можуть страждати як окремі особи, так і цілі підприємства та організації.

Світовий та ринок Росії

Big data Landscape - Основні постачальники

Інтерес до інструментів збору, обробки, управління та аналізу великих данихвиявляли чи не всі провідні ІТ-компанії, що цілком закономірно. По-перше, вони безпосередньо стикаються з цим феноменом у власному бізнесі, по-друге, великі данівідкривають чудові можливості для освоєння нових ніш ринку та залучення нових замовників.

На ринку з'являлося багато стартапів, які роблять бізнес на обробці величезних масивів даних. Частина з них використовують готову хмарну інфраструктуру, яку надають великі гравці на кшталт Amazon.

Теорія та практика Великих даних у галузях

Історія розвитку

2017

Прогноз TmaxSoft: наступна «хвиля» Big Data вимагатиме модернізації СУБД

Підприємствам відомо, що у накопичених ними величезних обсягах даних міститься важлива інформаціяпро їх бізнес та клієнтів. Якщо компанія зможе успішно застосувати цю інформацію, то вона матиме значну перевагу в порівнянні з конкурентами, і вона зможе запропонувати кращі, ніж у них, продукти та сервіси. Проте багато організацій все ще не можуть ефективно використати великі данічерез те, що їхня успадкована ІТ-інфраструктура нездатна забезпечити необхідну ємність систем зберігання, процеси обміну даних, утиліти та програми, необхідні для обробки та аналізу великих масивів неструктурованих даних для вилучення з них цінної інформації, зазначили в TmaxSoft.

Крім того, збільшення процесорної потужності, необхідної для аналізу обсягів даних, що постійно збільшуються, може вимагати значних інвестицій у застарілу ІТ-інфраструктуру організації, а також додаткових ресурсів для супроводу, які можна було б використовувати для розробки нових додатків і сервісів.

5 лютого 2015 року Білий дім опублікував доповідь, в якій обговорювалося питання про те, як компанії використовують великі дані» для встановлення різних цін для різних покупців – практика, відома як «цінова дискримінація» або «диференційоване ціноутворення» (personalized pricing). Звіт описує користь «великих даних» як для продавців, так і покупців, і його автори приходять до висновку, що багато проблемних питань, що виникли у зв'язку з появою великих даних та диференційованого ціноутворення, можуть бути вирішені в рамках існуючого антидискримінаційного законодавства та законів , Що захищають права споживачів

У доповіді наголошується, що в цей час є лише окремі факти, що свідчать про те, як компанії використовують великі дані в контексті індивідуалізованого маркетингу та диференційованого ціноутворення. Ця інформація показує, що продавці використовують методи ціноутворення, які можна розділити на три категорії:

вивчення кривої попиту;
Наведення (steering) та диференційоване ціноутворення на основі демографічних даних; і
цільовий поведінковий маркетинг (поведінковий націлення - behavioral targeting) та індивідуалізоване ціноутворення.

Вивчення кривої попиту: З метою з'ясування попиту та вивчення поведінки споживачів маркетологи часто проводять експерименти в цій галузі, в ході яких клієнтам випадковим чином призначається одна з двох можливих цінових категорій. «Технічно ці експерименти є формою диференційованого ціноутворення, оскільки їх наслідком стають різні ціни для клієнтів, навіть якщо вони є «недискримінаційними» у тому сенсі, що у всіх клієнтів можливість «потрапити» на вищу ціну однакова».

Наведення (steering): Це практика представлення продуктів споживачам на основі їхньої приналежності до певної демографічної групи. Так, веб-сайт комп'ютерної компанії може пропонувати один і той же ноутбук різним типам покупців за різними цінами, заставленими на основі повідомленої ними про себе інформації (наприклад, залежно від того, чи даний користувач є представником державних органів, наукових чи комерційних установ, або ж приватною особою) або від їхнього географічного розташування (наприклад, визначеного за IP-адресою комп'ютера).

Цільовий поведінковий маркетинг та індивідуалізоване ціноутворення: У цих випадках персональні дані покупців використовуються для цільової реклами та індивідуалізованого призначення цін на певні продукти. Наприклад, онлайн-рекламодавці використовують зібрані рекламними мережами та через куки третіх сторін дані про активність користувачів в інтернеті для того, щоб націлено розсилати свої рекламні матеріали. Такий підхід, з одного боку, дає можливість споживачам отримати рекламу представляють для них інтерес товарів і послуг, Він, однак, може викликати занепокоєння тих споживачів, які не хочуть, щоб певні види їх персональних даних (такі, як відомості про відвідування сайтів, пов'язаних з медичними та фінансовими питаннями) збиралися без їхньої згоди.

Хоча цільовий поведінковий маркетинг поширений, є відносно мало свідчень індивідуалізованого ціноутворення онлайн-среде. У звіті висловлюється припущення, що це може бути пов'язане з тим, що відповідні методи все ще розробляються, або ж з тим, що компанії не поспішають використовувати індивідуальне ціноутворення (або вважають за краще мовчати) - можливо, побоюючись негативної реакції з боку споживачів.

Автори звіту вважають, що «для індивідуального споживача використання великих даних, безсумнівно, пов'язане як із потенційною віддачею, і з ризиками». Визнаючи, що при використанні великих даних виникають проблеми прозорості та дискримінації, звіт у той же час стверджує, що існуючих антидискримінаційних законів та законів захисту прав споживачів достатньо для їх вирішення. Однак у звіті також наголошується на необхідності «постійного контролю» у тих випадках, коли компанії використовують конфіденційну інформацію непрозорим чином або способами, які не охоплюються існуючою нормативно-правовою базою.

Ця доповідь є продовженням зусиль Білого дому щодо вивчення застосування «великих даних» та дискримінаційного ціноутворення в Інтернеті, та відповідних наслідків для американських споживачів. Раніше вже повідомлялося про те, що робоча група Білого дому за великими даними опублікувала в травні 2014 свою доповідь з цього питання. Федеральна комісія з торгівлі (FTC) також розглядала ці питання під час проведеного нею у вересні 2014 року семінару з дискримінації у зв'язку з використанням великих даних.

2014

Gartner розвіює міфи про "Великі дані"

В аналітичній записці осені 2014 року Gartner перераховано низку поширених серед ІТ-керівників міфів щодо Великих Даних та наводяться їх спростування.

Всі впроваджують системи обробки Великих Даних швидше за нас

Інтерес до технологій Великих Даних рекордно високий: у 73% організацій, опитаних аналітиками Gartner цього року, вже інвестують у відповідні проекти чи збираються. Але більшість таких ініціатив поки що на ранніх стадіях, і лише 13% опитаних вже запровадили подібні рішення. Найскладніше - визначити, як отримувати дохід з Великих Даних, вирішити, з чого почати. У багатьох організаціях застряють на пілотній стадії, оскільки не можуть прив'язати нову технологіюдо конкретних бізнес-процесів.

У нас так багато даних, що немає потреби турбуватися про дрібні помилки в них

Деякі ІТ-керівники вважають, що дрібні огріхи даних не впливають на загальні результати аналізу величезних обсягів. Коли даних багато, кожна помилка окремо дійсно менше впливає на результат, зазначають аналітики, але й самих помилок стає більше. З іншого боку, більшість аналізованих даних - зовнішні, невідомої структури чи походження, тому ймовірність помилок зростає. Таким чином, у світі Великих Даних якість насправді набагато важливіша.

Технології Великих Даних скасують потребу в інтеграції даних

Великі Дані обіцяють можливість обробки даних в оригінальному форматі з автоматичним формуванням схеми в міру зчитування. Вважається, що це дозволить аналізувати інформацію з тих самих джерел за допомогою декількох моделей даних. Багато хто вважає, що це також дозволить кінцевим користувачам самим інтерпретувати будь-який набір даних на власний розсуд. Насправді більшості користувачів часто потрібен традиційний спосіб з готовою схемою, коли дані форматуються відповідним чином, і є угоди про рівень цілісності інформації та про те, як вона має співвідноситися зі сценарієм використання.

Сховища даних немає сенсу використовувати для складної аналітики

Багато адміністраторів систем управління інформацією вважають, що немає сенсу витрачати час на створення сховища даних, беручи до уваги, що складні аналітичні системикористуються новими типами даних. Насправді у багатьох системах складної аналітики використовується інформація із сховища даних. В інших випадках нові типи даних необхідно додатково готувати до аналізу в системах обробки Великих Даних; доводиться приймати рішення про придатність даних, принципи агрегації та необхідний рівень якості - така підготовка може відбуватися поза сховищем.

На зміну сховищам даних прийдуть озера даних

Насправді постачальники вводять замовників в оману, позиціонуючи озера даних (data lake) як заміну сховищ або як критично важливі елементи аналітичної інфраструктури. Основним технологіям озер даних не вистачає зрілості та широти функціональності, властивої сховищам. Тому керівникам, які відповідають за управління даними, варто почекати, поки озера досягнуть того ж рівня розвитку, вважають у Gartner.

Accenture: 92% великих даних, що впровадили системи, задоволені результатом

Серед головних переваг великих даних опитані назвали:

«Пошук нових джерел доходу» (56%),
«Поліпшення досвіду клієнтів» (51%),
«нові продукти та послуги» (50%) та
«приплив нових клієнтів та збереження лояльності старих» (47%).

При впровадженні нових технологій багато компаній зіштовхнулися із традиційними проблемами. Для 51% каменем спотикання стала безпека, для 47% – бюджет, для 41% – брак необхідних кадрів, а для 35% – складності при інтеграції з існуючою системою. Практично всі опитані компанії (близько 91%) планують незабаром вирішувати проблему з нестачею кадрів та наймати спеціалістів за великими даними.

Підприємства оптимістично оцінюють майбутнє технологій великих даних. 89% вважають, що вони змінять бізнес так само сильно, як і інтернет. 79% респондентів наголосили, що компанії, які не займаються великими даними, втратять конкурентну перевагу.

Втім, опитані розійшлися на думці про те, що варто вважати великими даними. 65% респондентів вважають, що це «великі картотеки даних», 60% упевнені, що це «просунута аналітика та аналіз», а 50% - що це «дані інструментів візуалізації».

Мадрид витрачає 14,7 млн. євро на управління великими даними

У липні 2014 р. стало відомо про те, що Мадрид використовуватиме технології big data для управління міською інфраструктурою. Вартість проекту - 14,7 млн євро, основу рішень, що впроваджуються, складуть технології для аналізу та управління великими даними. З їхньою допомогою міська адміністрація керуватиме роботою з кожним сервіс-провайдером та відповідним чином оплачуватиме її залежно від рівня послуг.

Йдеться про підрядників адміністрації, які стежать за станом вулиць, освітленням, іригацією, зеленими насадженнями, здійснюють прибирання території та вивезення, а також переробку сміття. У ході проекту для спеціально виділених інспекторів розроблено 300 ключових показників ефективності роботи міських сервісів, на базі яких щодня здійснюватиметься 1,5 тис. різних перевірок та вимірів. Крім того, місто почне використовувати інноваційну технологічну платформу під назвою Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Експерти: Пік моди на Big Data

Всі без винятку вендори на ринку управління даними в цей час проводять розробку технологій для менеджменту Big Data. Цей новий технологічний тренд також активно обговорюється професійними співтовариством як розробниками, так і галузевими аналітиками та потенційними споживачами таких рішень.

Як з'ясувала компанія Datashift, станом на січень 2013 року хвиля обговорень навколо великих даних» перевищила всі мислимі розміри. Проаналізувавши кількість згадок Big Data у соціальних мережах, у Datashift підрахували, що за 2012 рік цей термін вживався близько 2 млрд разів у постах, створених близько 1 млн різних авторів у всьому світі. Це еквівалентно 260 постам за годину, причому пік згадувань становив 3070 згадок за годину.

Gartner: Кожен другий ІТ-директор готовий витратитись на Big data

Після кількох років експериментів з технологіями Big data та перших впроваджень у 2013 році адаптація подібних рішень значно зросте, прогнозують у Gartner. Дослідники опитали ІТ-лідерів у всьому світі та встановили, що 42% опитаних вже інвестували у технології Big data або планують зробити такі інвестиції протягом найближчого року (дані на березень 2013 року).

Компанії змушені витратитись на технології обробки великих данихОскільки інформаційний ландшафт стрімко змінюється, вимагаю нових підходів до обробки інформації. Багато компаній вже усвідомили, що великі масиви даних є критично важливими, причому робота з ними дозволяє досягти вигод, які не доступні при використанні традиційних джерел інформації та способів її обробки. Крім того, постійне мусування теми «великих даних» у ЗМІ підігріває інтерес до відповідних технологій.

Френк Байтендидк (Frank Buytendijk), віце-президент Gartner, навіть закликав компанії стримати запал, оскільки деякі виявляють занепокоєння, що відстають від конкурентів у освоєнні Big data.

"Хвилюватися не варто, можливості для реалізації ідей на базі технологій "великих даних" фактично безмежні", - заявив він.

За прогнозами Gartner, до 2015 року 20% компаній у списку Global 1000 візьмуть стратегічний фокус на «інформаційну інфраструктуру».

В очікуванні нових можливостей, які принесуть із собою технології обробки «великих даних», вже зараз багато організацій організують процес збирання та зберігання різноманітних інформації.

Для освітніх та урядових організацій, а також компаній галузі промисловості найбільший потенціал для трансформації бізнесу закладено у поєднанні накопичених даних із так званими dark data (дослівно – «темними даними»), до останніх належать повідомлення електронної пошти, мультимедіа та інший подібний контент. На думку Gartner, у гонці даних переможуть саме ті, хто навчиться поводитися з різними джерелами інформації.

Опитування Cisco: Big Data допоможе збільшити ІТ-бюджети

У ході дослідження (весна 2013 року) під назвою Cisco Connected World Technology Report, проведеного в 18 країнах незалежною аналітичною компанією InsightExpress, було опитано 1800 студентів коледжів і таку ж кількість молодих фахівців віком від 18 до 30 років. Опитування проводилося, щоб з'ясувати рівень готовності ІТ-відділів до реалізації проектів Big Dataта отримати уявлення про пов'язані з цим проблеми, технологічні вади та стратегічну цінність таких проектів.

Більшість компаній збирає, записує та аналізує дані. Тим не менш, йдеться у звіті, багато компаній у зв'язку з Big Data стикаються з цілою низкою складних ділових та інформаційно-технологічних проблем. Наприклад, 60 відсотків опитаних визнають, що рішення Big Data можуть удосконалити процеси прийняття рішень та підвищити конкурентоспроможність, але лише 28 відсотків заявили про те, що вже набувають реальних стратегічних переваг від накопиченої інформації.

Більше половини опитаних ІТ-керівників вважають, що проекти Big Data допоможуть збільшити ІТ-бюджети в їхніх організаціях, оскільки будуть пред'являтися підвищені вимоги до технологій, персоналу та професійних навичок. При цьому більше половини респондентів очікують, що такі проекти збільшать ІТ-бюджети у їхніх компаніях вже у 2012 році. 57 відсотків впевнені, що Big Data збільшить їхні бюджети протягом наступних трьох років.

81 відсоток респондентів заявили, що всі (або принаймні деякі) проекти Big Data вимагатимуть застосування хмарних обчислень. Таким чином, поширення хмарних технологій може позначитися на швидкості розповсюдження рішень Big Data та цінності цих рішень для бізнесу.

Компанії збирають і використовують дані самих різних типів, Як структуровані, так і неструктуровані. Ось із яких джерел отримують дані учасники опитування (Cisco Connected World Technology Report):

Майже половина (48 відсотків) ІТ-керівників прогнозує подвоєння навантаження на їхні мережі протягом найближчих двох років. (Це особливо характерно для Китаю, де такої точки зору дотримуються 68 відсотків опитаних, та Німеччини – 60 відсотків). 23 відсотки респондентів очікують потроїння мережного навантаження протягом наступних двох років. При цьому лише 40 відсотків респондентів заявили про свою готовність до вибухоподібного зростання обсягів мережевого трафіку.

27 відсотків опитаних визнали, що їм необхідні якісніші ІТ-політики та заходи інформаційної безпеки.

21 відсоток потребує розширення смуги пропускання.

Big Data відкриває перед ІТ-відділами нові можливості для нарощування цінності та формування тісних відносин з бізнес-підрозділами, дозволяючи підвищити доходи та зміцнити фінансове становище компанії. Проекти Big Data роблять ІТ-підрозділи стратегічним партнером бізнес-підрозділів.

На думку 73% респондентів, саме ІТ-відділ стане основним локомотивом реалізації стратегії Big Data. При цьому, вважають опитані, інші відділи також підключатимуться до реалізації цієї стратегії. Насамперед, це стосується відділів фінансів (його назвали 24 відсотки респондентів), науково-дослідного (20 відсотків), операційного (20 відсотків), інженерного (19 відсотків), а також відділів маркетингу (15 відсотків) та продажів (14 відсотків).

Gartner: Для управління великими даними потрібні мільйони нових робочих місць

Світові ІТ витрати досягнуть $3,7 млрд до 2013 року, що на 3,8% більше витрат на інформаційні технології у 2012 році (прогноз на кінець року становить $3,6 млрд). Сегмент великих даних(big data) розвиватиметься набагато вищими темпами, йдеться у звіті Gartner.

До 2015 року 4,4 млн робочих місць у сфері інформаційних технологій буде створено для обслуговування великих даних, з них 1,9 млн робочих місць – . Більше того, кожне таке робоче місце спричинить створення трьох додаткових робочих місць за межами сфери ІТ, так що тільки в США в найближчі чотири роки 6 млн людей буде працювати для підтримки інформаційної економіки.

На думку експертів Gartner, головна проблема полягає в тому, що в галузі для цього недостатньо талантів: як приватна, так і державна освітня система, наприклад, у США не здатні забезпечувати галузь достатньою кількістю кваліфікованих кадрів. Тож із згаданих нових робочих місць у ІТ кадрами буде забезпечено лише одне із трьох.

Аналітики вважають, що роль вирощування кваліфікованих ІТ кадрів повинні брати на себе безпосередньо компанії, які їх гостро потребують, оскільки такі співробітники стануть перепусткою для них у нову інформаційну економіку майбутнього.

2012

Перший скепсис щодо "Великих даних"

Аналітики компаній Ovum та Gartner припускають, що для модної у 2012 році теми великих данихможе настати час визволення від ілюзій.

Терміном «Великі Дані», в цей час як правило, позначають обсяг інформації, що постійно зростає. оперативному режимііз соціальних медіа, від мереж датчиків та інших джерел, а також зростаючий діапазон інструментів, що використовуються для обробки даних та виявлення на їх основі важливих бізнес-тенденцій.

«Через шум (або незважаючи на неї) щодо ідеї великих даних виробники в 2012 році з величезною надією дивилися на цю тенденцію», - зазначив Тоні Байєр, аналітик Ovum.

Байєр повідомив, що компанія DataSift провела ретроспективний аналіз згадок великих даних.

Будь-яка дія користувача в інтернеті – давно не таємниця за сімома печатками. Ви можете відслідковувати буквально все – від онлайн-покупок до лайків – завдяки концепції Big Data. Результат – ви дізнаєтеся більше про цільову аудиторію та робите персоналізовані пропозиції. Точніше все робить за вас машина: і проаналізує, і навіть оптимальне рішення прийме.

Скажете це фантастика? Звичайно, механізм поки не такий поширений, особливо в Росії, і не повністю налагоджений, але перші кроки на шляху до цього точно зроблено.

Якщо йдеться про великі дані, важливо не те, скільки ви їх зібрали, а те, як ви їх використовуєте. Взагалі Big Data – це універсальна методика. У цій статті ми розглянемо її застосування у маркетингу та продажах.

Що таке Big Data

Великі транспортні компанії, інтернет-магазини, телеком-провайдери, SaaS-сервіси, банки - одним словом, компанії з великою базою клієнтів збирають величезний обсяг інформації.

Це не тільки персональні дані (ім'я, email, телефон, стать, вік, географія), а також IP-адреса, час відвідування сайту, кількість візитів, запити на сайті, історія покупок тощо. Кожна фірма має свою специфіку та свої унікальні дані, які доступні тільки їй.

Наприклад, сервіс таксі «знає» кожен крок та секунду, яку користувач провів у поїздці. Банківський онлайн-сервіс - за що, коли і якою сумою розплачувався. Інтернет-магазин — які товари дивився, поклав у кошик чи додав у вибране тощо.

Тобто це не ті дані, які накопичує кожен бізнес у CRM-системі. Це все, що компанія може бути відомо про клієнтів, і це може вимірюватися терабайтами інформації в окремих випадках. Звичайні бази що неспроможні обробляти такі обсяги. Хоча б тому, що дані регулярно змінюються та прибувають – вертикально (+ новий клієнт) та горизонтально (+ додаткова інформація про клієнта).

Крім того, вони різнопланові та неструктуровані, тому що представлені в абсолютно різних джерелах, наприклад:

Блоги та соцмережі;
Аудіо- та відеофайли;
Корпоративні бази даних;
Датчики, вимірювальні пристрої та сенсорні мережі.

Це і є Big Data. Щось абстрактніше, ніж фізичні документи, тому й керувати ними людині не під силу. На допомогу приходять машинні алгоритми.

Data Mining або як збираються та обробляються великі дані

Звідки беруться великі дані?

По-перше, це ваш сайт та всі точки захоплення контактних даних.

По-друге, лічильники та системи аналітики (Яндекс.Метрика, Google Analytics).

Як обробляються великі дані? Ось основні рішення ринку Big Data:

Системи управління базами даних (Sap, Oracle, Microsoft, IBM та інші), які зберігають та обробляють інформацію, аналізують динаміку показників та надають результати у статистичних звітах;

Сервіси управління закупівлями RTB-реклами, що передбачають дії цільових користувачів та таргетують рекламу в онлайн-каналах (наприклад, Segmento, RTB-Media);
Сервіси товарних рекомендацій, що показують на сайті товари максимально цікаві для конкретного користувача (RetailRocket, 1С-Бітрікс BigData);
Сервіси персоналізації контенту, які показують користувачам найбільш відповідні версії сторінок ресурсу (Personyze, Monoloop, Crosss);
Сервіси персоналізації розсилок, які надсилають листи, що таргетуються (наприклад, Vero, Personyze);

Ці системи активно співпрацюють між собою, удосконалюються та оновлюють функціонал.

Як працює технологія Big Data та що таке Data Science

Практична суть такого підходу — мінімізувати залучення людини до процесу прийняття рішення. На цьому ґрунтується концепція Data Science (дослівно — «наука про дані»).

Згідно з цією концепцією, великими даними керує статистична модель. Вона знаходить приховані взаємозв'язки в даних і максимально точно (завдяки об'єктивності та широкій вибірці даних) передбачає поведінку конкретного користувача — чи він придбає продукт, чи підпишеться на розсилку, чи зацікавиться статтею.

У цьому відбувається безперервний процес самонавчання. Тобто машина сама навчається (принцип Machine Learning) у реальному часі та створює алгоритми для оптимізації бізнес-процесів.

Вона самостійно визначає та підказує:

Що, де і коли запропонувати користувачеві максимальної ймовірності конверсії;
Як збільшити крос-продаж та додатковий продаж;
Які товари найпопулярніші та чому;
Як покращити продукт/сервіс під потреби ЦА.

У рітейлі машини можуть приймати такі рішення:

Де відкрити наступний магазин;
Які маркетингові акції проводити;
Як прогнозувати продажі у майбутньому періоді;
Як виділити "ядро" аудиторії;
Наскільки підвищити / знизити ціни наступного місяця;
Як оптимізувати маркетинговий бюджет;
Як визначити клієнтів, які підуть наступного місяця.

У маркетингу це дозволяє сегментувати цільову аудиторію, розробляти креативи та персональні пропозиції кожного сегмента. На жаль, на Наразіцей процес автоматизовано лише частково.

Ось вам приклад.

Компанія Target вирішила нестандартне завдання — таргетуватися на вагітних жінок до того, як вони вводитимуть тематичні запити, поділяться новиною в соцмережах або іншими способами розкажуть про це в інтернеті.

Як це вдалося? Допомогли знання про купівельні звички. А саме Target виявив у ході дослідження, що майбутні мами купують багато лосьйону без запаху, бавовняних серветок та махрових мочалок.

Інший приклад.

Російський сервіс електронних книг Bookmate мало знав про реальні інтереси своїх користувачів. Вони заходили у додаток, але пропоновані книжки їх цікавили. Ситуація покращилася завдяки використанню інформації із соцмереж. Перегляди рекомендацій зросли в 2,17 рази, а конверсія у користувачів, що платять, — в 1,4 раза.

Авіакомпанія British Airways вивела персоналізацію на абсолютно новий рівень. В рамках програми Know Me вона розпізнає обличчя клієнтів за допомогою Google Images. Персонал впізнає пасажирів у терміналах аеропортів або на борту літака та особисто вітає їх на ім'я.

Крім цього, персональні дані пасажирів про попередні рейси дозволяють авіакомпанії вибачитися тим, чим рейс у минулому був затриманий або чий багаж загубився.

Ця та інша інформація про базу (наприклад, переваги в їжі) є у доступі у бортпровідників British Airways на спеціальних робочих планшетах.

Big Data у e-commerce: кейс Нетології

Мета - оптимізувати маркетингові комунікації для 3 інтернет-магазинів косметики та засобів догляду з асортиментом понад 500 товарів.

Що для цього зробили спеціалісти «Нетології»?

Почали зі збору всіх доступних даних про споживчу поведінку клієнтської бази – близько 100 тисяч споживачів – із популярних ecommerce-систем Magento та Shopify.

Інформація про покупки, кошики, середній чек, час замовлень і т.д.;
Зворотній зв'язокпередплатників email-розсилки: дані про відкриття листів та переходів за посиланнями з сервісів типу Mailchimp та Dotmailer, а також про подальшу активність на сайті (перегляд карток товарів, категорій, покупки після розсилки);
Активність повторних відвідувань постійних клієнтів за даними про перегляд товарів до здійснення покупки.

З цих даних отримали такі показники:

Оптимальний розмір знижки;
Час життя клієнта та його загальну цінність (LTV);
Можливість повторних покупок.

Таким чином вийшов повноцінний образ кожного клієнта з унікальним набором уподобань, звичок та особливостей.

Допустимо:

Клієнт А. Купує щомісяця один і той самий шампунь для волосся. Немає причин робити додаткові акції для цього товару для цього клієнта. Краще запропонувати йому через місяць купити додатково кондиціонер чи маску того самого бренду.

Клієнт B. Один раз купив туалетну воду та парфуми і після нічого не купував. Проте переглядає розсилки від інтернет-магазину та цікавиться декоративною косметикою. Є ймовірність, що клієнт здійснює покупки в іншому місці. Пропозиція набору тіней зі знижкою може бути вирішальним стимулом здійснення покупки.

На основі цієї інформації система сформувала сегменти для запуску кампаній через email та Facebook – за тиждень вийшло від 40 до 100 автоматизованих кампаній для кожного бренду.

У ході збору даних дослідники виявили низку тригерів. Наприклад, деяка група користувачів переглядає пошту вранці, а ввечері повертається додому і купує побачений товар. Є сенс продублювати їм товарну пропозицію увечері через додатковий канал.

Результат:вдалося потроїти повторні продажі, підвищити open rate листів у середньому на 70%, а конверсія з листа — на 83%.

«Олюднення» даних: кейс Яндекс.Таксі

Яндекс.Таксі має унікальні дані про всі поїздки. На основі них можна маркетингові комунікації зробити більш емоційними. Основна ідея - по-дружньому "спілкуватися" з клієнтами і ненав'язливо нагадувати про себе. Реалізувати її допомогла персональна статистика у вигляді історій та характерів.

Медіафасади

Маркетологи Яндекс.Таксі з'ясували найпопулярніші місця у місті та маршрути. Для цього підрахували кількість замовлень до найзначніших місць: парків, театрів, музеїв, пам'ятників. Ці дані не такі персональні та нікого не ображають, але показують, чим живе місто.

Такі спостереження дозволили реалізувати ідею особистого спілкування з аудиторією у вигляді медіафасадів. Дизайн оформили у вигляді дружніх повідомлень у чаті. Для кожного міста свої фрази.

Компанія ніби перекидається з людиною фразою, яку зрозуміє лише вона. Йому приємно, оскільки це увага та участь, а Яндекс.Таксі розраховує на підвищення впізнаваності бренду у місті.

При складанні тексту використовували такі прийоми:

Міський сленг – місцеві слова, які розуміють усі жителі. Шукали їх у міських пабликах та форумах, а також уточнювали у регіональних менеджерів та краєзнавців. Наприклад, у Казані загс називають "Чаша", набережну в Єкатеринбурзі - "Драма";
Гра слів. Ось приклади:

3090 осіб, які доїхали до Мадриду на таксі. А ви знаєте толк у подорожах! ("Мадрид" - готель в Єкатеринбурзі).

958 людей, які помчали до Юпітера. Ви просто космос! («Юпітер» – назва компанії).

Це був тестовий експеримент, зараз Яндекс розробляє більш комплексну кампанію із залученням різних онлайн-і офлайн-джерел.

Новорічні ролики

За підсумками 2017 року Яндекс.Таксі хотіли розповісти клієнтам, скільки часу вони провели разом і подякувати за це — скільки поїздок, хвилин очікування та ранкових замовлень.

Щоб зробити це цікаво, вигадали ймовірний сюжет для однієї з мільйонів поїздок і зняли ролик на цю тему з цифрами зі статистики.

Вийшло таке:

764 мільйони хвилин очікування - закохана пара прощається біля таксі.

56 мільйонів ранкових поїздок за рік – мама з донькою їдуть на ранок.

122 тисячі поїздок із тваринами.

За результатами першої спроби з'ясували, що ролики виглядають так, ніби бренд хвалиться великими числами. Щоб точніше донести посилання «дивіться, скільки часу цього року ми провели разом», статистику змінили, щоб усунути фокус на персонажів історії.

Самі собою цифри ні про що не говорять. Складно зрозуміти, чи велика ця цифра чи маленька, і що нею хотіли показати. Яндекс використав дані не як самоціль, а як спосіб розповісти історію.

Великдень у додатку

Компанія також вигадала характери для своїх клієнтів — «таксітіпи» — залежно від кількості поїздок, їхньої тривалості та хвилин очікування. Механізм визначення враховував три цих характеристики, складав їх образ клієнта і відносив до однієї з категорій:

Дані оцінювалися тим містом, де людина зробила понад 70% поїздок.

Алгоритм знаходив медіану містом і щодо неї оцінював метрики — «багато» чи «мало» поїздок, хвилин поїздки та очікування.

Дізнатися свій «таксітіп» міг кожен користувач, який здійснив більше 4 поїздок на рік, у додатку за кнопкою:

Наприклад:

Чорна пума: їздив багато, подорожі короткі, рідко виходив вчасно

Далекоглядний мандрівник: їздив багато, довго і виходив до автомобіля вчасно

20% із тих, хто переглядав, заскринювали результати і ділилися ними в соцмережах — це вдвічі більше, ніж прогнозували!

Статистика для водіїв

Майбутнє Big Data

Експерименти з великими даними продовжуються.

Яндекс — одна з компаній-піонерів, які навчають концепції Data Science, а й активно використовують їх у створенні власних продуктів.

Візьмемо блогову платформу Яндекс.Дзен. Вона доступна у різних країнах. Не потрібно сортувати матеріал за темами та іншими параметрами та налаштовувати показ на певні категорії користувачів. Кожен читатиме статті, які йому цікаві та отримуватимуть нову добірку схожих. Система просто пропонує те, що йому найімовірніше сподобається.

Справа в тому, що машинний інтелект спрямований не на усереднення. Він прагне створити обмежену кількість сегментів, оскільки його можливості дозволяють пропонувати персоналізований контент кожному з кількох мільярдів користувачів.

Зарубіжним аналогом можна назвати alexa.com – це рейтинг найбільш відвідуваних сайтів у всьому світі та в різних країнах окремо (вибірки по країнах платні та коштують грошей).

Автоматичний збір даних (через свої сервіси, такі як «Яндекс.Браузер» та ін.) та статистичні моделі дозволяють включати до списку сайти, які в інших рейтингах не беруть участі.

Навіть у поточному вигляді це дає можливість у різних нішах виявляти лідерів та за допомогою інших сервісів моделювати їх стратегії просування та джерела трафіку.

Допустимо, ви відбираєте 5-10 користувачів - а машина знаходить тисячі схожих і налаштовує на них націлення. Перевага машинного інтелекту в тому, що він враховує фактори, які навіть досвідчений фахівець може випустити з уваги, не здогадатися про них.

Навчіться відрізняти, які рішення краще приймає людина, а які машина, і не плутайте два ці класи. Якщо з однотипними завданнями (вибрати дизайн кнопки) алгоритми справляються краще, творчіші (сконструювати сайт з нуля) зможе тільки людина.
Навчайте як людей, а й алгоритми;
Враховуйте, що хоча алгоритми чудово відповідають питання, але самі ставити питання не вміють. Хоча, можливо, це теж питання часу.

До речі, питання про «протистояння» людини та машинного інтелекту порушується все частіше. З цього приводу подивіться баттл Андрій Себрант vs Антон Буланов (директор ІНВІТРО – найбільшої приватної медичної компанії).

Про сегментацію, маркетологів із сокирами, пропалювання бюджетів і чи з'явиться незабаром кнопка «Приведіть мені клієнтів».

Виглядає на одному подиху.

Передмова

"Big data" - модний нині термін, що фігурує майже на всіх професійних конференціях, присвячених аналізу даних, прогностичною аналітикою, інтелектуальним аналізом даних (data mining), CRM. Термін використовується у сферах, де актуальна робота з якісно великими обсягами даних, де постійно відбувається збільшення швидкості потоку даних до організаційного процесу: економіки, банківської діяльності, виробництва, маркетингу, телекомунікації, веб-аналітики, медицини та ін.

Разом із стрімким накопиченням інформації швидкими темпами розвиваються й технології аналізу даних. Якщо ще кілька років тому було можливо, скажімо, лише сегментувати клієнтів на групи зі схожими уподобаннями, то тепер можна будувати моделі для кожного клієнта в режимі реального часу, аналізуючи, наприклад, його переміщення по мережі Інтернет для пошуку конкретного товару. Інтереси споживача можуть бути проаналізовані, і відповідно до побудованої моделі виведена відповідна реклама або конкретні пропозиції. Модель також може налаштовуватись і перебудовуватися в режимі реального часу, що було немислимо ще кілька років тому.

У сфері телекомунікації, наприклад, розвинені технології визначення фізичного розташування стільникових телефонівта їхніх власників, і, здається, незабаром стане реальністю ідея, описана у науково-фантастичному фільмі «Особлива думка», 2002 року, де відображення рекламної інформації в торгових центрах враховувало інтереси конкретних осіб, які проходять повз.

У той же час існують ситуації, коли захоплення новими технологіями може призвести і до розчарування. Наприклад, іноді розріджені дані ( Sparse data), що дають важливе розуміння дійсності, є набагато ціннішими, ніж Великі дані(Big Data), що описують гори, часто не істотної інформації.

Мета цієї статті - прояснити та обдумати нові можливості Big Data та проілюструвати, як аналітична платформа STATISTICAкомпанії StatSoft може допомогти в ефективному використанні Big Data для оптимізації процесів та вирішення завдань.

Наскільки великі Big Data?

Звичайно, правильна відповідь на це питання має звучати - «це залежить…»

У сучасних обговореннях поняття Big Data описують як дані обсягу в системах терабайт.

На практиці (якщо йдеться про гігабайти або терабайти), такі дані легко зберігати та керувати ними за допомогою «традиційних» баз даних та стандартного обладнання (сервера баз даних).

Програмне забезпечення STATISTICAвикористовує багатопоточну технологію для алгоритмів доступу до даних (читання), перетворення та побудови прогностичних (і скорингових) моделей, тому такі вибірки даних можуть бути легко проаналізовані і не вимагають спеціалізованих інструментів.

У деяких поточних проектах StatSoft обробляються вибірки близько 9-12 мільйонів рядків. Помножимо їх на 1000 параметрів (змінних), зібраних та організованих у сховищі даних для побудови ризикових чи прогностичних моделей. Такий файл матиме об'єм “лише” близько 100 гігабайт. Це, звичайно, не маленьке сховище даних, але його розміри не перевищують можливостей технології стандартних баз даних.

Лінія продуктів STATISTICAдля пакетного аналізу та побудови скорингових моделей ( STATISTICA Enterprise), рішення, що працюють у режимі реального часу ( STATISTICA Live Score), та аналітичні інструменти для створення та управління моделями ( STATISTICA Data Miner , Decisioning) легко масштабуються на кілька серверів із багатоядерними процесорами.

На практиці це означає, що достатня швидкість роботи аналітичних моделей (наприклад, прогнози щодо кредитного ризику, ймовірності шахрайства, надійності вузлів обладнання тощо), що дозволяє приймати оперативні рішення, майже завжди може бути досягнута за допомогою стандартних інструментів. STATISTICA.

Від великих обсягів даних до Big Data

Як правило, обговорення Big Data зосереджено навколо сховищ даних (і проведення аналізу, що базуються на таких сховищах), обсягом набагато більше, ніж просто кілька терабайт.

Зокрема, деякі сховища даних можуть зрости до тисячі терабайт, тобто до петабайт (1000 терабайт = 1 петабайт).

За межами петабайт, накопичення даних може бути виміряно в ексабайтах, наприклад, у виробничому секторі по всьому світу в 2010 році, за оцінками, накопичено загалом 2 ексабайти нової інформації (Manyika et al., 2011).

Існують галузі, де дані збираються та накопичуються дуже інтенсивно.

Наприклад, у виробничій сфері, такій як електростанції, безперервний потік даних іноді генерується для десятків тисяч параметрів кожну хвилину або навіть кожну секунду.

Крім того, за останні кілька років, впроваджуються так звані "smart grid" технології, що дозволяють комунальним службам вимірювати споживання електроенергії окремими сім'ями кожну хвилину чи кожну секунду.

Для таких програм, у яких дані повинні зберігатися роками, накопичені дані класифікуються як Extremely Big Data.

Зростає і кількість додатків Big Data серед комерційних та державних секторів, де обсяг даних у сховищах може становити сотні терабайт або петабайт.

Сучасні технології дозволяють «відслідковувати» людей та їхню поведінку у різний спосіб. Наприклад, коли ми користуємося інтернетом, робимо покупки в Інтернет-магазинах або великих мережах магазинів, таких як Walmart (згідно з Вікіпедією, сховище даних Walmart оцінюється більш ніж у 2 петабайт), або переміщуємося з включеними мобільними телефонами- ми залишаємо слід наших дій, що призводить до накопичення нової інформації.

Різні способи зв'язку, від простих телефонних дзвінків до завантаження інформації через сайти соціальних мереж, таких як Facebook (згідно з даними Вікіпедії, обмін інформацією щомісяця становить 30 млрд. одиниць), або обмін відео на таких сайтах, як YouTube (Youtube стверджує, що він завантажує 24 години відео кожну хвилину (див. Wikipedia), щодня генерують величезну кількість нових даних.

Аналогічним чином, сучасні медичні технології генерують великі обсяги даних, що стосуються надання медичної допомоги (зображення, відео, моніторинг у реальному часі).

Отже, класифікацію обсягів даних можна так:

Великі набори даних: від 1000 мегабайт (1 гігабайт) до сотень гігабайт

Величезні набори даних: від 1000 гігабайт (1терабайт) до кількох терабайт

Big Data: від кількох терабайт до сотень терабайт

Extremely Big Data: від 1000 до 10000 терабайт = від 1 до 10 петабайт

Завдання, пов'язані з Big Data

Існують три типи завдань, пов'язаних з Big Data:

1. Зберігання та управління

Обсяг даних у сотні терабайт або петабайт не дозволяє легко зберігати та керувати ними за допомогою традиційних реляційних баз даних.

2. Неструктурована інформація

Більшість даних Big Data є неструктурованими. Тобто. як можна організувати текст, відео, зображення тощо?

3. Аналіз Big Data

Як аналізувати неструктуровану інформацію? Як на основі Big Data складати прості звіти, будувати та впроваджувати поглиблені прогностичні моделі?

Зберігання та керування Big Data

Big Data зазвичай зберігаються та організуються у розподілених файлових системах.

Загалом, інформація зберігається на кількох (іноді тисячах) жорстких дисках, стандартних комп'ютерах.

Так звана "карта" (map) відстежує, де (на якому комп'ютері та/або диску) зберігається конкретна частина інформації.

Для забезпечення відмовостійкості та надійності, кожну частину інформації зазвичай зберігають кілька разів, наприклад – тричі.

Так, наприклад, припустимо, що ви зібрали індивідуальні транзакції у великій роздрібній мережі магазинів. Детальна інформаціяпро кожну транзакцію зберігатиметься на різних серверах і жорстких дисках, а «карта» (map) індексує, де зберігаються відомості про відповідну угоду.

За допомогою стандартного обладнання та відкритих програмних засобів для керування цією розподіленою файловою системою (наприклад, Hadoop), порівняно легко можна реалізувати надійні сховища даних у масштабі петабайт.

Неструктурована інформація

Більшість зібраної інформації у розподіленій файловій системі складається з неструктурованих даних, таких як текст, зображення, фотографії або відео.

Це має свої переваги та недоліки.

Перевага полягає в тому, що можливість зберігання великих даних дозволяє зберігати "всі дані", не турбуючись про те, яка частина даних актуальна для подальшого аналізу та прийняття рішення.

Недоліком є те, що в таких випадках для отримання корисної інформації потрібна подальша обробка цих величезних масивів даних.

Хоча деякі з цих операцій можуть бути простими (наприклад, прості підрахунки тощо), інші вимагають більш складних алгоритмів, які повинні бути спеціально розроблені для ефективної роботи на розподіленій файловій системі.

Один топ-менеджер одного разу розповів StatSoft, що він «витратив цілий стан на IT та зберігання даних, але досі не почав отримувати грошей», тому що не думав про те, як краще використовувати ці дані для покращення основної діяльності.

Отже, у той час як обсяг даних може зростати в геометричній прогресії, можливості отримувати інформацію та діяти на основі цієї інформації, обмежені та будуть асимптотично досягати межі.

Важливо, щоб методи та процедури для побудови, оновлення моделей, а також для автоматизації процесу прийняття рішень були розроблені поряд із системами зберігання даних, щоб гарантувати, що такі системи є корисними та вигідними для підприємства.

Аналіз Big Data

Це справді велика проблема, пов'язана з аналізом неструктурованих даних Big Data: як аналізувати їх із користю. Про це питання написано набагато менше, ніж про зберігання даних та технології управління Big Data.

Є низка питань, які слід розглянути.

Map-Reduce

При аналізі сотні терабайт або петабайт даних, неможливо витягти дані в будь-яке інше місце для аналізу (наприклад, в STATISTICA Enterprise Analysis Server).

Процес перенесення даних каналами на окремий сервер або сервера (для паралельної обробки) займе занадто багато часу і вимагає занадто великого трафіку.

Натомість, аналітичні обчислення мають бути виконані фізично близько до місця, де зберігаються дані.

Алгоритм Map-Reduce є модель для розподілених обчислень. Принцип його роботи полягає в наступному: відбувається розподіл вхідних даних на робочі вузли (individual nodes) розподіленої файлової системи для попередньої обробки (map-крок) і потім згортка (об'єднання) вже попередньо оброблених даних (reduce-крок).

Таким чином, скажімо, для обчислення підсумкової суми алгоритм буде паралельно обчислювати проміжні суми в кожному з вузлів розподіленої файлової системи, а потім підсумовувати ці проміжні значення.

В Інтернеті є величезна кількість інформації про те, яким чином можна виконувати різні обчислення за допомогою моделі map-reduce, у тому числі і для прогностичної аналітики.

Прості статистики, Business Intelligence (BI)

Для складання простих звітів BI існує безліч продуктів з відкритим кодом, що дозволяють обчислювати суми, середні, пропорції і т.п. за допомогою map-reduce.

Таким чином, отримати точні підрахунки та інші прості статистики для складання звітів дуже легко.

Прогнозне моделювання, поглиблені статистики

На перший погляд може здатися, що побудова прогностичних моделей у розподіленій файловій системі складніша, проте це зовсім не так. Розглянемо попередні етапи аналізу даних.

Підготовка данних. Нещодавно StatSoft провів серію великих та успішних проектів за участю дуже великих наборів даних, що описують похвилинні показники процесу роботи електростанції. Мета проведеного аналізу полягала у підвищенні ефективності діяльності електростанції та зниженні кількості викидів (Electric Power Research Institute, 2009).

Важливо, що, незважаючи на те, що набори даних можуть бути дуже великими, інформація, що міститься в них, має значно меншу розмірність.

Наприклад, у той час як дані накопичуються щомиті або щохвилини, багато параметрів (температура газів і печей, потоки, положення заслін і т.д.) залишаються стабільними на великих інтервалах часу. Інакше висловлюючись, дані, записуються кожну секунду, є переважно повтореннями однієї й тієї інформації.

Таким чином, необхідно проводити “розумне” агрегування даних, отримуючи для моделювання та оптимізації дані, що містять лише необхідну інформацію про динамічні зміни, що впливають на ефективність роботи електростанції та кількість викидів.

Класифікація текстів та попередня обробка даних. Проілюструємо ще раз, як великі набори даних можуть містити набагато менше корисної інформації.

Наприклад, StatSoft брав участь у проектах, пов'язаних з аналізом текстів (text mining) з твітів, що відображають, наскільки пасажири задоволені авіакомпаніями та їх послугами.

Незважаючи на те, що щогодини та щодня було вилучено велику кількість відповідних твітів, настрої, виражені в них, були досить простими та одноманітними. Більшість повідомлень – скарги та короткі повідомлення з однієї пропозиції про “поганий досвід”. Крім того, кількість і “сила” цих настроїв щодо стабільні у часі та у конкретних питаннях (наприклад, втрачений багаж, погане харчування, скасування рейсів).

Таким чином, скорочення фактичних твітів до швидка (оцінки) настрою, використовуючи методи text mining (наприклад, реалізовані в STATISTICA Text Miner), призводить до набагато меншого обсягу даних, які потім можуть бути легко зіставлені з існуючими структурованими даними (фактичні продажі квитків, або інформація про пасажирів, що часто літають). Аналіз дозволяє розбити клієнтів на групи та вивчити їх характерні скарги.

Існує безліч інструментів для проведення такого агрегування даних (наприклад, швидкі настрої) в розподіленій файловій системі, що дозволяє легко здійснювати даний аналітичний процес.

Побудова моделей

Часто завдання полягає в тому, щоб швидко побудувати точні моделі даних, що зберігаються в розподіленій файловій системі.

Існують реалізації map-reduce для різних алгоритмів data mining/прогностичної аналітики, які підходять для масштабної паралельної обробки даних у розподіленій файловій системі (що може бути підтримане за допомогою платформи STATISTICА StatSoft).

Однак, саме через те, що ви обробили дуже велику кількість даних, чи ви впевнені, що підсумкова модель є дійсно більш точною?

Насправді, найімовірніше, зручніше будувати моделі для невеликих сегментів даних у розподіленій файловій системі.

Як говориться в нещодавньому звіті Forrester: «Два плюс два дорівнює 3,9 – це зазвичай досить добре» (Hopkins & Evelson, 2011).

Статистична та математична точність полягає в тому, що модель лінійної регресії, що включає, наприклад, 10 предикторів, заснованих на правильно зробленій ймовірнісної вибіркизі 100 000 спостережень буде так само точна, як модель, побудована на 100 мільйонах спостережень.

Все про мобільну техніку