ビッグデータ分析技術。ビッグデータ：分析とソリューション。免除研究の利点

「ビッグデータ」という用語は今日では認識できるかもしれませんが、それが実際に何を意味するのかについては、まだかなりの混乱があります。実のところ、この概念は絶えず進化し、改訂されています。これは、次のようなデジタルトランスフォーメーションの多くの進行中の波の背後にある原動力であり続けているためです。人工知能、データサイエンスとモノのインターネット。しかし、ビッグデータ技術とは何であり、それは私たちの世界をどのように変えているのでしょうか？ビッグデータ技術の本質とそれが何を意味するのかを簡単な言葉で理解してみましょう。

ビッグデータの驚くべき成長

それはすべて、デジタル時代の幕開け以来、私たちが作成したデータ量の「爆発」から始まりました。これは主に、私たちの周りの世界からデータを「奪う」ことができるコンピューター、インターネット、およびテクノロジーの開発によるものです。データ自体は新しい発明ではありません。コンピュータやデータベースの時代以前から、私たちはデータである紙の取引記録、クライアント記録、アーカイブファイルを使用していました。コンピューター、特にスプレッドシートやデータベースにより、大規模なデータの保存と整理が容易になりました。突然、マウスをクリックするだけで情報を入手できます。

ただし、元のテーブルとデータベースからは長い道のりを歩んできました。現在、2日ごとに、最初から2000年までに受け取ったデータと同じ数のデータを作成しています。そうです、2日ごとに。そして、私たちが作成するデータの量は急増し続けています。 2020年までに、利用可能なデジタル情報の量は約5ゼタバイトから20ゼタバイトに増加します。

今日、私たちがとるほとんどすべての行動はその痕跡を残しています。インターネットにアクセスしたり、検索エンジンを搭載したスマートフォンを携帯したり、ソーシャルネットワークやチャットなどで知人と会話したりするたびにデータを生成します。さらに、マシンで生成されるデータの量も急速に増加しています。スマートホームデバイスが相互に、またはホームサーバーと通信するときに、データが生成および共有されます。工場や工場の産業機器には、データを蓄積して送信するセンサーがますます装備されています。

「ビッグデータ」という用語は、これらすべてのデータの収集と、ビジネスを含む幅広い分野でそれを活用するための当社の能力を指します。

ビッグデータテクノロジーはどのように機能しますか？

ビッグデータは原則に基づいて機能します。特定の主題や現象について理解すればするほど、新しい理解を確実に達成し、将来何が起こるかを予測することができます。より多くのデータポイントを比較することで、以前は隠されていた関係が明らかになり、これらの関係により、学習してより良い意思決定を行うことができます。これはほとんどの場合、収集できるデータからモデルを構築し、シミュレーションを実行してデータポイントの値を毎回微調整し、それらが結果にどのように影響するかを確認するプロセスを通じて行われます。このプロセスは自動化されています- 現代の技術アナリストは、これらのシミュレーションを何百万も実行し、取り組んでいる問題の解決に役立つモデルまたはアイデアが見つかるまで、考えられるすべての変数を微調整します。

ビル・ゲイツは1枚のCDの紙の内容にぶら下がっています

最近まで、データはスプレッドシートまたはデータベースに限定されていました。すべてが非常に整理され、整理されていました。行と列に簡単に整理できないものは、複雑すぎて操作できないと見なされ、無視されました。ただし、ストレージと分析の進歩は、キャプチャ、保存、処理できることを意味しますたくさんのさまざまなタイプのデータ。その結果、今日の「データ」とは、データベースから写真、ビデオ、録音物、書かれたテキスト、センサーデータまであらゆるものを意味します。

この厄介なデータをすべて理解するために、ビッグデータに基づくプロジェクトでは、人工知能と機械学習を使用した最先端の分析を使用することがよくあります。たとえば、パターン認識や自然言語処理を通じて、特定のデータが何であるかを判断するようにコンピューターに教えることで、私たちができるよりもはるかに速く、より確実にパターンを識別するようにコンピューターに教えることができます。

ビッグデータはどのように使用されますか？

センサーデータ、テキスト、音声、写真、ビデオデータに関するこの増え続ける情報の流れは、ほんの数年前には想像もできなかった方法でデータを使用できるようになったことを意味します。これにより、ほぼすべての業界でビジネスの世界に革命的な変化がもたらされます。今日の企業は、どの特定のカテゴリーの顧客がいつ買収を希望するかを信じられないほど正確に予測することができます。ビッグデータは、企業が活動をより効率的に実行するのにも役立ちます。

ビジネス以外でも、ビッグデータプロジェクトはすでにさまざまな方法で私たちの世界を変えるのに役立っています。

医療の改善–データ駆動型医療は、膨大な量の医療情報と画像を分析して、病気を早期に発見し、新薬を開発するのに役立つモデルを見つけることができます。
自然災害および人為的災害の予測と対応。センサーデータを分析して地震が発生する可能性のある場所を予測できます。人間の行動パターンは、組織が生存者を支援するのに役立つ手がかりを提供します。ビッグデータテクノロジーは、世界中の戦争地帯からの難民の流れを追跡して保護するためにも使用されています。
犯罪の防止。警察は、独自のインテリジェンスと情報を含むデータ駆動型戦略をますます使用しています。オープンアクセス資源を有効に活用し、必要に応じて対策を講じます。

ビッグデータテクノロジーに関する最高の本

誰もが嘘をつきます。検索エンジン、ビッグデータ、インターネットはあなたのことをすべて知っています。
ビッグデータ。 1冊の本のすべての技術。
幸福産業。ビッグデータと新しいテクノロジーが商品やサービスに感情を加えるのにどのように役立つか。
分析の革命。ビッグデータの時代に運用分析でビジネスを改善する方法。

ビッグデータの問題

ビッグデータは、前例のない洞察と機会を提供しますが、対処する必要のある問題と質問も提起します。

データのプライバシー–今日私たちが生成するビッグデータには、私たちが秘密にしなければならない私生活に関する多くの情報が含まれています。完全な権利。開示する個人データの量と、ビッグデータの利用に基づくアプリケーションやサービスの利便性とのバランスを取ることがますます求められています。
データ保護-特定の目的のためにデータを持っている人に問題がないと思ったとしても、データを安全に保つために彼らを信頼できますか？
データの差別-すべての情報がわかっている場合、個人の生活からのデータに基づいて人々を差別することは許容されますか？私たちはすでにクレジットスコアを使用して、誰がお金を借りることができるかを決定しています。保険もデータ主導型です。より詳細に分析および評価されることを期待する必要がありますが、これによって、リソースが少なく、情報へのアクセスが制限されている人々の生活が複雑にならないように注意する必要があります。

これらのタスクを実行することはビッグデータの重要な部分であり、そのようなデータを使用したい組織が対処する必要があります。そうしないと、評判だけでなく、法的にも財政的にもビジネスが脆弱になる可能性があります。

未来を見据えて

データは私たちの世界と私たちの生活を前例のないペースで変えています。ビッグデータが今日これらすべてに対応できるのであれば、明日何ができるか想像してみてください。私たちが利用できるデータの量は増えるだけであり、分析技術はさらに高度になります。

企業にとって、ビッグデータを適用する能力は、今後数年間でますます重要になるでしょう。データを戦略的資産と見なす企業だけが生き残り、繁栄します。この革命を無視する人々は取り残される危険があります。

この記事はどうですか？私の素晴らしい上でさらに適切なコンテンツ YouTubeチャンネル

注意してください！あなたは私のYouTubeであまりにも賢くなることができます...👇

ビッグデータ-これはデータ自体だけでなく、それらの処理と使用のためのテクノロジー、大きな配列で必要な情報を見つけるための方法でもあります。ビッグデータの問題は、何十年にもわたって多種多様な情報を蓄積してきたシステムにとって、依然としてオープンで重要です。

この用語は、式に関連付けられています 「ボリューム、ベロシティ、バラエティ」–ビッグデータを扱うための原則が構築されています。直接です 情報量, その処理速度と さまざまな情報配列に格納されます。最近、3つの基本原則にもう1つ追加されました- 価値、つまり 情報の価値。つまり、それは理論的または実用的な観点から有用かつ必要である必要があり、それはその保管と処理のコストを正当化するでしょう。

ソーシャルネットワークは、ビッグデータの典型的なソースの例です。各プロファイルまたは公開ページは、構造化されていない情報の海の1つの小さなドロップです。さらに、特定のプロファイルに保存されている情報の量に関係なく、各ユーザーとの対話は可能な限り高速である必要があります。

ビッグデータは、人間の生活のほぼすべての分野で絶えず蓄積されています。これには、人間の相互作用またはコンピューティングに関連するあらゆる業界が含まれます。これらは、ソーシャルメディア、医療、銀行セクター、および毎日の計算の多数の結果を受け取るデバイスシステムです。たとえば、天文観測、気象情報、地球探査装置からの情報などです。

さまざまな追跡システムからの情報も、特定の会社のサーバーにリアルタイムで送信されます。テレビ・ラジオ放送、オペレーターコールベースセルラー通信-個々の人と彼らとの相互作用は最小限ですが、全体として、このすべての情報はビッグデータになります。

ビッグデータテクノロジーは、研究開発と商取引に不可欠になっています。さらに、彼らは行政の領域を捉え始めています-そしてどこでも、情報を保存および操作するためのより効率的なシステムの導入が必要とされています。

「ビッグデータ」という用語は、2008年にネイチャーエディターのクリフォードリンチがビッグデータテクノロジーの助けを借りて科学の未来を前進させる方法に関する記事を発表したときに初めて報道されました。 2009年まで、この用語は科学的分析の観点からのみ考慮されていましたが、さらにいくつかの記事がリリースされた後、マスコミはビッグデータの概念を広く使用し始め、現在も使用を続けています。

2010年に、ビッグデータの増大する問題を解決する最初の試みが現れ始めました。リリースされましたソフトウェア製品、そのアクションは、巨大な情報アレイを使用する際のリスクを最小限に抑えることを目的としていました。

2011年までに、Microsoft、Oracle、EMC、IBMなどの大企業はビッグデータに関心を持つようになりました。彼らは開発戦略でビッグデータを最初に使用し、非常に成功しました。

大学はすでに2013年にビッグデータを別の科目として研究し始めました。現在、データサイエンスだけでなく、工学もコンピューティング科目とともに、この分野の問題に取り組んでいます。

データ分析と処理の主な方法は次のとおりです。

クラスメソッドまたは詳細分析（データマイニング）。

これらの方法は非常に多くありますが、情報技術の分野での成果と組み合わせて使用される数学的ツールという1つのものによって統合されています。

クラウドソーシング。

この手法を使用すると、複数のソースから同時にデータを取得でき、後者の数は実質的に無制限です。

A/Bテスト。

データの全量から、要素の制御セットが選択され、要素の1つが変更された他の同様のセットと順番に比較されます。このようなテストを実施すると、どのパラメーターの変動が対照母集団に最大の影響を与えるかを判断するのに役立ちます。大量のビッグデータのおかげで、膨大な数の反復を実行することが可能であり、それぞれが最も信頼できる結果に近づいています。

予測分析。

この分野の専門家は、この状況で最も有利な決定を下すために、制御対象がどのように動作するかを事前に予測および計画しようとします。

機械学習（人工知能）。

これは、情報の経験的分析と、それに続くシステムの自己学習アルゴリズムの構築に基づいています。

ネットワーク分析。

ソーシャルネットワークを研究するための最も一般的な方法-統計データを受け取った後、グリッドに作成されたノードが分析されます。つまり、個々のユーザーとそのコミュニティの間の相互作用です。

2017年、ビッグデータが新しく未知のものではなくなったとき、その重要性は低下しただけでなく、増加しました。現在、専門家は、大量のデータの分析が巨大な組織だけでなく、中小企業でも利用できるようになると確信しています。このアプローチは、次のコンポーネントを使用して実装される予定です。

クラウドストレージ。

データの保存と処理はより高速で経済的になっています。独自のデータセンターを維持するためのコストやスタッフの拡大の可能性と比較して、クラウドを借りることははるかに安価な代替手段のようです。

ダークデータの使用。

いわゆる「ダークデータ」とは、企業のデジタル化されていない情報であり、直接の使用では重要な役割を果たしませんが、新しい情報ストレージ形式に切り替える理由となる可能性があります。

人工知能とディープラーニング。

人間の脳の構造と動作を模倣する機械知能学習技術は、絶えず変化する大量の情報を処理するのに最適です。この場合、マシンは人がすべきことをすべて実行しますが、エラーの可能性は大幅に減少します。

2011年に作成および複製されたデータの世界全体の量は、約1.8ゼタバイト（1.8兆ギガバイト）になると予測されました。これは、2006年に作成されたデータの約9倍です。

より複雑な定義

それにもかかわらず` ビッグデータ`膨大な量の情報を分析するだけではありません。問題は、組織が大量のデータを作成することではなく、そのほとんどが従来の構造化データベース形式に適合しない形式で表示されることです。これは、Webログ、ビデオ、テキストドキュメント、マシンコード、またはたとえば、地理空間データ。これらはすべて、組織外の場合でも、さまざまなリポジトリに保存されます。その結果、企業は膨大な量のデータにアクセスでき、これらのデータ間の関係を確立し、それらから意味のある結論を引き出すために必要なツールを持っていない可能性があります。これに加えて、データがますます頻繁に更新されるようになり、従来の情報分析方法では、絶えず更新される大量のデータに追いつくことができず、最終的にはテクノロジーへの道が開かれます。 ビッグデータ.

最良の定義

本質的に、コンセプト ビッグデータ作業効率を高め、新製品を作成し、競争力を高めるために、非常に頻繁に更新され、さまざまなソースに配置された、膨大な量の多様な構成の情報を処理する必要があります。コンサルティング会社のForresterは、簡潔に次のように述べています。 ビッグデータ実用性の極限でデータから意味を引き出す技術と技術を結集する`。

ビジネスインテリジェンスとビッグデータの違いはどれくらいですか？

富士通オーストラリアの最高マーケティング責任者兼最高技術責任者であるCraigBathyは、事業分析は、処理速度を維持しながら、特定の期間に企業が達成した結果を分析する記述的なプロセスであると指摘しました。 ビッグデータ分析を予測可能にし、将来のビジネス上の推奨事項を提供できるようにします。ビッグデータテクノロジーを使用すると、ビジネスインテリジェンスツールよりも多くの種類のデータを分析できるため、構造化されたストレージだけに焦点を当てることはできません。

O "ReillyRadarのMattSlocumは、 ビッグデータビジネスインテリジェンスの目標は同じであり（質問に対する回答を見つけること）、3つの点で互いに異なります。

ビッグデータは、ビジネスインテリジェンスよりも大量の情報を処理するように設計されており、もちろん、これはビッグデータの従来の定義に適合します。
ビッグデータは、より速く、より急速に変化する情報を処理するように設計されています。これは、深い調査と双方向性を意味します。場合によっては、結果はWebページの読み込みよりも速く生成されます。
ビッグデータは非構造化データを処理するように設計されており、収集して保存できるようになってから使用方法を模索し始めたばかりです。これらの配列に含まれる傾向を見つけやすくするためのアルゴリズムとダイアログが必要です。

Oracleが発行した『Oracle Information Architecture：Architect's Guide to Big Data』ホワイトペーパーによると、ビッグデータを扱う場合とビジネス分析を行う場合では、情報へのアプローチが異なります。

ビッグデータの操作は、既知の値を単純に合計すると結果が得られる一般的なビジネスインテリジェンスプロセスとは異なります。たとえば、一緒に支払われた請求書を追加すると、1年間の売上になります。ビッグデータを処理する場合、シーケンシャルモデリングによってビッグデータをクリーンアップするプロセスで結果が得られます。最初に、仮説が提示され、統計的、視覚的、またはセマンティックモデルが構築され、提示された仮説の正しさがチェックされます。、そして次のものが提案されます。このプロセスでは、研究者は視覚的な意味を解釈するか、インタラクティブな知識ベースのクエリを作成するか、目的の結果を生成できる適応型の「機械学習」アルゴリズムを開発する必要があります。さらに、そのようなアルゴリズムの寿命は非常に短くなる可能性があります。

ビッグデータ分析手法

データ配列を分析するには、統計やコンピューターサイエンスから借用したツール（機械学習など）に基づくさまざまな方法があります。このリストは完全であるとは主張していませんが、さまざまな業界で最も人気のあるアプローチを反映しています。同時に、研究者は新しい方法の創造と既存の方法の改善に取り組んでいることを理解する必要があります。さらに、リストされている手法の一部は、必ずしも大きなデータにのみ適用できるわけではなく、小さなアレイにも正常に使用できます（A / Bテスト、回帰分析など）。もちろん、アレイが分析されるほどボリュームがあり、多様化できるほど、出力でより正確で関連性のあるデータを取得できます。

A/Bテスト。コントロールサンプルを他のサンプルと順番に比較する手法。したがって、例えば、マーケティング提案に対する最良の消費者の反応を達成するための指標の最適な組み合わせを特定することが可能である。 ビッグデータ膨大な数の反復を実行できるため、統計的に有意な結果を得ることができます。

相関ルール学習。関係を識別するための一連の手法、つまり大規模なデータ配列内の変数間の相関ルール。で使われる データマイニング.

分類。特定の市場セグメントでの消費者行動（購入決定、チャーン、消費量など）を予測できる一連の手法。で使われる データマイニング.

クラスター分析。事前に知られていない一般的な機能を識別することにより、オブジェクトをグループに分類するための統計的方法。で使われる データマイニング.

クラウドソーシング。多数のソースからデータを収集するための手法。

データ融合とデータ統合。ソーシャルネットワークユーザーのコメントを分析し、それらをリアルタイムの販売結果と比較できるようにする一連の手法。

データマイニング。宣伝された製品またはサービスの消費者の最も影響を受けやすいカテゴリを決定し、最も成功した従業員の特性を識別し、消費者の行動モデルを予測することを可能にする一連の手法。

アンサンブルラーニング。この方法では、多くの予測モデルを使用するため、行われる予測の品質が向上します。

遺伝的アルゴリズム。このテクニックでは可能な解決策組み合わせて変異させることができる「染色体」として表されます。自然進化の過程のように、最も適切な個人は生き残ります。

機械学習。経験的データの分析に基づいて自己学習アルゴリズムを作成することを目的とした、コンピュータサイエンスの方向性（歴史的には「人工知能」という名前が割り当てられています）。

自然言語処理 (NLP）。コンピュータサイエンスと言語学から借りた自然言語認識技術のセット。

ネットワーク分析。ネットワーク内のノード間のリンクを分析するための一連の手法。ソーシャルネットワークに関しては、個々のユーザー、企業、コミュニティなどの間の関係を分析することができます。

最適化。複雑なシステムとプロセスを再設計して1つ以上の指標を改善するための一連の数値手法。市場に投入された製品ラインの構成、投資分析の実施など、戦略的決定を下すのに役立ちます。

パターン認識。消費者の行動モデルを予測するための自己学習の要素を備えた一連の手法。

予測モデリング。イベントの開発のために事前に決定された可能性のあるシナリオの数学的モデルを作成できるようにする一連の手法。たとえば、CRMシステムデータベースを分析して、加入者をプロバイダーの変更に追いやる可能性のある条件を探します。

回帰。従属変数と1つ以上の独立変数の変化の間のパターンを識別するための統計的手法のセット。多くの場合、予測と予測に使用されます。データマイニングで使用されます。

感情分析。消費者の感情を評価するための技術は、人間の自然言語認識技術に基づいています。これらを使用すると、関心のある主題（たとえば、消費者製品）に関連するメッセージを一般的な情報フローから分離できます。次に、判断の極性（ポジティブまたはネガティブ）、感情の程度などを評価します。

信号処理。ノイズの背景に対して信号を認識し、そのさらなる分析を目的とする、無線工学から借用した一連の技術。

空間分析。空間データ（地形トポロジ、地理座標、オブジェクトのジオメトリ）を分析するための、統計から部分的に借用された一連の手法。ソース ビッグデータこの場合、しばしば行動します地理情報システム（GIS）。

統計学。アンケートの設計や実験の実施など、データの収集、整理、解釈の科学。統計的手法は、特定のイベント間の関係について価値判断を行うためによく使用されます。

教師あり学習。分析されたデータ配列の機能的な関係を特定できるようにする、機械学習テクノロジーに基づく一連の手法。

シミュレーション。複雑なシステムの動作のモデリングは、計画時にさまざまなシナリオを予測、予測、および実行するためによく使用されます。

時系列分析。時間の経過とともに繰り返されるデータシーケンスを分析するための統計およびデジタル信号処理から借用した一連のメソッド。明らかな使用法の1つは、株式市場または患者の発生率を追跡することです。

教師なし学習。分析されたデータセット内の隠れた機能的関係を特定できるようにする、機械学習テクノロジーに基づく一連の手法。と共通の機能があります クラスター分析.

視覚化。解釈を簡素化し、得られた結果の理解を容易にするために、ビッグデータ分析の結果を図またはアニメーション画像の形式でグラフィカルに表示する方法。

ビッグデータ分析の結果を視覚的に表現することは、それらの解釈にとって基本的に重要です。人間の知覚が制限されていることは周知の事実であり、科学者は、画像、図、またはアニメーションの形式でデータを提示する最新の方法を改善する分野で研究を続けています。

分析ツール

2011年については、前のサブセクションにリストされたアプローチのいくつか、またはそれらの特定の組み合わせにより、ビッグデータを処理するための分析エンジンを実践することが可能になります。ビッグデータを分析するための無料または比較的安価なオープンシステムのうち、次のことをお勧めします。

Revolution Analytics（数理統計のR言語に基づく）。

このリストで特に興味深いのは、過去5年間にほとんどの株式トラッカーによってデータアナライザーとしてテストされたオープンソースソフトウェアであるApacheHadoopです。 YahooがHadoopコードをオープンソースコミュニティに公開するとすぐに、Hadoopをベースにした製品を作成するというIT業界のまったく新しいトレンドが急速に現れました。ほとんどすべての最新の分析ツール ビッグデータ Hadoopとの統合を提供します。彼らの開発者はスタートアップであり、有名なグローバル企業でもあります。

ビッグデータ管理ソリューションの市場

デジタルホーディングと戦う手段としてのビッグデータプラットフォーム（BDP、ビッグデータプラットフォーム）

分析する能力 ビッグデータ、口語的にビッグデータと呼ばれ、恩恵として、そして明確に認識されています。しかし、それは本当にそうですか？データの無制限の蓄積は何につながる可能性がありますか？人に関連する国内の心理学者が病的な買いだめ、syllogomania、または比喩的に「Plyushkin症候群」と呼ぶという事実に最もありそうです。英語では、すべてを収集するという悪質な情熱は、（英語の貯蔵庫からの「予備」）の群れと呼ばれます。精神疾患の分類によると、群れは精神障害として分類されます。デジタル時代では、デジタル（デジタルホーディング）が従来のマテリアルコードに追加され、個人と企業および組織全体（）の両方がそれに苦しむ可能性があります。

世界とロシアの市場

ビッグデータの展望-主要プロバイダー

収集、処理、管理、分析ツールへの関心 ビッグデータほぼすべての主要なIT企業を示しました。これは非常に自然なことです。第一に、彼らは彼ら自身のビジネスでこの現象を直接経験し、第二に、 ビッグデータ新しい市場のニッチを開発し、新しい顧客を引き付けるための優れた機会を開きます。

膨大な量のデータを処理するビジネスを行う多くのスタートアップが市場に登場しています。それらのいくつかは、Amazonのような大規模なプレーヤーによって提供される既製のクラウドインフラストラクチャを使用しています。

産業におけるビッグデータの理論と実践

開発の歴史

2017

TmaxSoftの予測：ビッグデータの次の「波」にはDBMSの最新化が必要です

企業は、蓄積する膨大な量のデータに含まれていることを知っています重要な情報彼らのビジネスとクライアントについて。会社がこの情報をうまく適用できれば、競合他社よりも大きな利点があり、競合他社よりも優れた製品とサービスを提供できるようになります。しかし、多くの組織はまだ効果的に使用することができません ビッグデータ従来のITインフラストラクチャでは必要なストレージ容量を提供できないため、非構造化データの大規模なアレイを処理および分析して貴重な情報を抽出するために必要なデータ交換プロセス、ユーティリティ、およびアプリケーションをTmaxSoftは指摘しました。

さらに、増え続けるデータ量を分析するために必要な処理能力を高めるには、組織のレガシーITインフラストラクチャへの多額の投資と、新しいアプリケーションやサービスの開発に使用できる追加のメンテナンスリソースが必要になる場合があります。

2015年2月5日、ホワイトハウスは企業がどのように使用しているかを議論するレポートをリリースしました。 ビッグデータ購入者ごとに異なる価格を設定する-「価格差別」または「差別的価格設定」（個別価格設定）として知られる慣行。レポートは、売り手と買い手の両方にとっての「ビッグデータ」の利点を説明し、ビッグデータの出現と価格差によって提起された問題の多くは、既存の差別禁止法および規制の範囲内で対処できると結論付けています。消費者の権利の保護。

レポートは、現時点では、企業が個別のマーケティングと差別化された価格設定のコンテキストでビッグデータをどのように使用しているかについての事例証拠のみがあると述べています。この情報は、売り手が3つのカテゴリに分類できる価格設定方法を使用していることを示しています。

需要曲線の研究;
人口統計に基づくステアリングと差別化された価格設定。と
ターゲット行動マーケティング（行動ターゲティング-行動ターゲティング）と個別の価格設定。

需要曲線の調査：需要を理解し、消費者の行動を研究するために、マーケターはこの分野で実験を行うことがよくあります。その間、顧客には2つの可能なもののうちの1つがランダムに割り当てられます。価格カテゴリ。「技術的には、これらの実験は、すべての顧客がより高い価格を「打つ」可能性が同じであるという意味で「差別的ではない」場合でも、顧客の価格が異なるため、価格差の形式です。」

操舵：これは、特定の人口統計グループに属することに基づいて、消費者に製品を提示する方法です。たとえば、コンピュータ会社のWebサイトは、提供する情報に基づいて（たとえば、ユーザーが政府機関、科学機関、商業機関のいずれであるかによって、同じラップトップをさまざまなタイプの顧客にさまざまな価格で提供する場合があります。個人）またはその地理的位置（たとえば、コンピューターのIPアドレスによって決定されます）。

ターゲットを絞った行動マーケティングとカスタマイズされた価格設定：これらの場合、購入者の個人データは、特定の製品のターゲットを絞った広告および個別の価格設定に使用されます。たとえば、オンライン広告主は、広告ネットワークとサードパーティのCookieによって収集された、インターネット上のユーザーアクティビティに関するデータを使用して、広告資料をターゲティングします。このアプローチにより、消費者は関心のある商品やサービスの広告を受け取ることができますが、特定の種類の個人データ（にリンクされているWebサイトへのアクセスに関する情報など）を望まない消費者にとっては懸念が生じる可能性があります。医療および財政問題）彼らの同意なしに会った。

ターゲットを絞った行動マーケティングは広く普及していますが、オンライン環境での個別の価格設定の証拠は比較的少ないです。報告書は、これは方法がまだ開発されているためか、企業が個別の価格設定を採用することを躊躇している（または黙っていることを好む）ためであり、おそらく消費者からの反発を恐れていると推測しています。

レポートの作成者は、「個々の消費者にとって、ビッグデータの使用は間違いなく潜在的な利益とリスクの両方に関連している」と信じています。ビッグデータを使用する場合の透明性と差別の問題があることを認めながら、報告書は、既存の差別禁止法と消費者保護法がそれらに対処するのに十分であると主張しています。ただし、このレポートは、企業が機密情報を不透明な方法で、または既存の規制の枠組みでカバーされていない方法で使用する場合の「継続的な精査」の必要性も強調しています。

このレポートは、インターネット上での「ビッグデータ」の使用と差別的な価格設定、およびその結果としてのアメリカの消費者への影響を研究するホワイトハウスの取り組みの続きです。ビッグデータに関するホワイトハウスワーキンググループが2014年5月にこの問題に関するレポートを公開したことが以前に報告されました。連邦取引委員会（FTC）も、ビッグデータの使用に関連する差別に関する2014年9月のワークショップでこれらの問題に取り組みました。

2014

ガートナーはビッグデータの謎を解き明かします

ガートナーの2014年秋のポリシーブリーフでは、CIO間のビッグデータに関する多くの一般的な神話がリストされ、明らかにされています。

誰もが私たちよりも速くビッグデータ処理システムを実装しています

ビッグデータテクノロジーへの関心はかつてないほど高く、今年ガートナーのアナリストが調査した組織の73％は、すでに投資しているか、そうすることを計画しています。しかし、これらのイニシアチブのほとんどはまだ非常に初期の段階にあり、調査対象の13％だけがすでにそのようなソリューションを実装しています。最も難しいのは、ビッグデータを収益化する方法を見つけ出し、どこから始めればよいかを決めることです。多くの組織は、結び付けることができないため、パイロットフェーズで立ち往生しています新技術特定のビジネスプロセスに。

データが非常に多いため、小さなエラーについて心配する必要はありません。

一部のCIOは、データの小さな欠陥が大量の分析の全体的な結果に影響を与えないと考えています。アナリストによると、データが多い場合、各エラーが個別に結果に与える影響は少なくなりますが、エラー自体は大きくなります。さらに、分析されたデータのほとんどは外部のものであり、構造や起源が不明であるため、エラーの可能性が高くなります。したがって、ビッグデータの世界では、品質が実際にははるかに重要です。

ビッグデータテクノロジーは、データ統合の必要性を排除します

ビッグデータは、データが読み取られるときに自動スキーマ生成を使用して、元の形式でデータを処理する機能を約束します。これにより、複数のデータモデルを使用して同じソースからの情報を分析できるようになると考えられています。多くの人は、これによりエンドユーザーが独自の方法でデータセットを解釈できるようになると信じています。実際には、ほとんどのユーザーは、データが適切にフォーマットされ、情報の整合性のレベルとそれがユースケースにどのように関連するかについて合意がある、従来のすぐに使えるスキーマを望んでいます。

データウェアハウスは、複雑な分析に使用する意味がありません

多くの情報管理システム管理者は、データウェアハウスの作成に時間を費やすことは、その複雑さを考えると意味がないと考えています。分析システム新しいデータ型を使用します。実際、多くの高度な分析システムは、データウェアハウスからの情報を使用しています。その他の場合、ビッグデータ処理システムで分析するために、新しいデータタイプを追加で準備する必要があります。データの適合性、集約の原則、および必要な品質レベルについて決定を下す必要があります。このような準備は、倉庫の外で行うことができます。

データウェアハウスはデータレイクに置き換えられます

実際には、ベンダーは、データレイクをストレージの代わりとして、または分析インフラストラクチャの重要な要素として位置付けることにより、顧客を誤解させます。データレイクの基盤となるテクノロジーには、データウェアハウスに見られる成熟度と機能の幅がありません。したがって、Gartnerによると、データの管理を担当するリーダーは、湖が同じレベルの開発に達するまで待つ必要があります。

アクセンチュア：ビッグデータシステムを実装した人の92％が結果に満足しています

ビッグデータの主な利点の中で、回答者は次のように述べています。

「新しい収入源を探す」（56％）、
「カスタマーエクスペリエンスの向上」（51％）、
「新製品とサービス」（50％）と
「新しい顧客の流入と古い顧客の忠誠心の維持」（47％）。

新しいテクノロジーを導入するとき、多くの企業は従来の問題に直面しています。 51％の場合、障害はセキュリティであり、47％の場合は予算、41％の場合は必要な人員の不足、35％の場合は既存のシステムとの統合の難しさでした。調査対象企業のほぼすべて（約91％）が、スタッフ不足で問題をすぐに解決し、ビッグデータの専門家を雇うことを計画しています。

企業はビッグデータテクノロジーの将来について楽観的です。 89％は、インターネットと同じくらいビジネスを変えると信じています。回答者の79％は、ビッグデータを扱わない企業は競争上の優位性を失うと述べています。

ただし、回答者は、ビッグデータと正確に見なすべきものについて意見が一致していませんでした。回答者の65％は、これらが「大きなデータファイル」であると信じており、60％はこれが「高度な分析と分析」であり、50％は「データ視覚化ツール」であると確信しています。

マドリッドはビッグデータ管理に1470万ユーロを費やしています

2014年7月、マドリードはビッグデータテクノロジーを使用して都市インフラを管理することが明らかになりました。プロジェクトのコストは1470万ユーロで、実装されるソリューションはビッグデータを分析および管理するためのテクノロジーに基づいています。彼らの助けを借りて、市の行政は各サービスプロバイダーとの仕事を管理し、サービスのレベルに応じてそれに応じて支払います。

私たちは、街路、照明、灌漑、緑地の状態を監視し、領土をきれいにし、除去し、ゴミを処理する行政の請負業者について話している。プロジェクトの過程で、特別に割り当てられた検査官のために都市サービスの300の主要業績評価指標が開発され、それに基づいて毎日1.5千のさまざまなチェックと測定が実行されます。さらに、市はマドリッドiNTeligente（MiNT）と呼ばれる革新的な技術プラットフォームの使用を開始します-SmarterMadrid。

2013

専門家：ビッグデータのファッションのピーク

例外なく、データ管理市場のすべてのベンダーは現在、ビッグデータ管理のテクノロジーを開発しています。この新しい技術トレンドは、開発者と業界アナリストの両方、およびそのようなソリューションの潜在的な消費者である専門家コミュニティによっても活発に議論されています。

Datashiftが発見したように、2013年1月の時点で、「 ビッグデータ「考えられるすべての寸法を超えました。ソーシャルネットワークでのビッグデータの言及数を分析した後、Datashiftは、2012年にこの用語が世界中の約100万人の異なる著者によって作成された投稿で約20億回使用されたと計算しました。これは、1時間あたり260件の投稿に相当し、1時間あたりの言及のピークは3070件です。

ガートナー：毎秒CIOはビッグデータにお金を使う準備ができています

ビッグデータテクノロジーを使用した数年間の実験と2013年の最初の実装の後、そのようなソリューションの適応は大幅に増加すると、Gartnerは予測しています。研究者は世界中のITリーダーを調査し、調査対象の42％がすでにビッグデータテクノロジーに投資しているか、来年中にそのような投資を行うことを計画していることを発見しました（2013年3月現在のデータ）。

企業は処理技術にお金を使うことを余儀なくされています ビッグデータ情報環境は急速に変化しているので、情報処理への新しいアプローチが必要です。多くの企業は、ビッグデータが重要であることをすでに認識しており、ビッグデータを使用することで、従来の情報源とその処理方法では得られないメリットを実現できます。さらに、メディアにおける「ビッグデータ」のトピックの絶え間ない誇張は、関連するテクノロジーへの関心を煽っています。

ガートナーのバイスプレジデントであるフランク・ボイテンダイク氏は、ビッグデータの習得において競合他社に遅れをとっていることを懸念する企業もあるため、企業にトーンダウンするよう促しました。

「心配する必要はありません。ビッグデータ技術に基づいたアイデアを実現する可能性は事実上無限です」と彼は言いました。

ガートナーは、2015年までにグローバル1000企業の20％が「情報インフラストラクチャ」に戦略的に焦点を当てると予測しています。

ビッグデータ処理技術がもたらす新たな機会を見越して、多くの組織がすでにさまざまな種類の情報を収集して保存するプロセスを組織しています。

教育機関や政府機関、および業界の企業にとって、ビジネス変革の最大の可能性は、蓄積されたデータといわゆるダークデータ（文字通り「ダークデータ」）の組み合わせにあります。後者にはメッセージが含まれます Eメール、マルチメディアおよびその他の同様のコンテンツ。ガートナーによると、多種多様な情報源の扱い方を学んだ人は、データ競争に勝つでしょう。

シスコの世論調査：ビッグデータはIT予算の増加に役立ちます

独立したアナリスト企業InsightExpressが18か国で実施したCiscoConnectedWorld Technology Report（2013年春）では、1,800人の大学生と同数の18〜30歳の若い専門家を調査しました。調査は、プロジェクトの実施に対するIT部門の準備のレベルを確認するために実施されました。 ビッグデータ関連する課題、技術的な欠陥、およびそのようなプロジェクトの戦略的価値を理解します。

ほとんどの企業は、データを収集、記録、分析します。ただし、レポートによると、多くの企業はビッグデータに関連してさまざまな複雑なビジネスおよび情報技術の課題に直面しています。たとえば、調査対象者の60％は、ビッグデータソリューションが意思決定プロセスを改善し、競争力を高めることができることを認めていますが、蓄積された情報からすでに真の戦略的利益を得ていると答えたのは28％だけです。

調査対象のCIOの半数以上が、テクノロジー、スタッフ、専門スキルに対する需要が高まるため、ビッグデータプロジェクトが組織のIT予算の増加に役立つと考えています。同時に、回答者の半数以上が、そのようなプロジェクトによって、すでに2012年に自社のIT予算が増加すると予想しています。 57％は、ビッグデータが今後3年間で予算を増やすと確信しています。

回答者の81％が、すべて（または少なくとも一部）のビッグデータプロジェクトでクラウドコンピューティングを使用する必要があると述べています。したがって、クラウドテクノロジーの普及は、ビッグデータソリューションの配布速度とビジネスにおけるこれらのソリューションの価値に影響を与える可能性があります。

企業はほとんどのデータを収集して使用します他の種類構造化と非構造化の両方。調査参加者がデータを受け取るソースは次のとおりです（Cisco Connected World Technology Report）。

CIOのほぼ半数（48％）が、ネットワークの負荷が今後2年間で2倍になると予測しています。（これは、調査対象者の68％がこの見解を持っている中国、およびドイツでは60％に特に当てはまります。）回答者の23％は、ネットワークトラフィックが今後2年間で3倍になると予想しています。同時に、回答者の40％だけが、ネットワークトラフィックの爆発的な増加に対する準備ができていると宣言しました。

調査対象者の27％は、より優れたITポリシーと情報セキュリティ対策が必要であると認めています。

21パーセントはより多くの帯域幅を必要とします。

ビッグデータは、IT部門が付加価値を付け、ビジネスユニットと緊密な関係を築いて、収益を増やし、会社の財政状態を強化するための新しい機会を開きます。ビッグデータプロジェクトは、IT部門をビジネス部門の戦略的パートナーにします。

回答者の73％によると、ビッグデータ戦略を実装するための主要なエンジンとなるのはIT部門です。同時に、回答者は、他の部門もこの戦略の実施に関与すると考えています。まず第一に、これは財務部門（回答者の24％が名前を挙げています）、研究開発（20％）、運用（20％）、エンジニアリング（19％）、およびマーケティング（15％）と販売（15％）に関係しています。 14パーセント）。

ガートナー：ビッグデータを管理するために必要な何百万もの新しい仕事

世界のIT支出は2013年までに37億ドルに達し、2012年のIT支出から3.8％増加します（年末の予測は36億ドルです）。セグメント ビッグデータガートナーのレポートによると、（ビッグデータ）ははるかに速いペースで進化します。

2015年までに、ビッグデータを提供するために440万のITジョブが作成され、そのうち190万がになります。さらに、そのような仕事ごとに3つのIT以外の仕事が追加されるため、米国だけでも、今後4年間で600万人が情報経済のサポートに取り組んでいます。

ガートナーの専門家によると、主な問題は、このための十分な人材が業界にないことです。たとえば、米国の私立および公立の教育システムは、業界に十分な数の有資格者を供給することができません。。したがって、ITで言及された新しい仕事のうち、3人に1人だけが人員を提供されます。

アナリストは、有能なIT人材を育成する役割は、彼らを切実に必要としている企業が直接担うべきであると考えています。そのような従業員は、将来の新しい情報経済へのパスになるからです。

2012

ビッグデータに対する最初の懐疑論

OvumとGartnerのアナリストは、2012年の流行のトピックについて ビッグデータ幻想を手放す時かもしれません。

現時点での「ビッグデータ」という用語は、原則として、増え続ける情報量を指します。動作モードソーシャルメディア、センサーネットワーク、その他のソース、およびデータを処理し、そこから重要なビジネストレンドを明らかにするために使用されるツールの範囲が拡大しています。

OvumのアナリストであるTonyBayerは、次のように述べています。

バイエルは、DataSiftがビッグデータ参照の遡及的分析を実施したと述べました

インターネット上でのユーザーの行動は、長い間謎ではありません。ビッグデータの概念のおかげで、オンラインでの購入からいいねまで、文字通りすべてを追跡できます。その結果、ターゲットオーディエンスについてさらに学び、パーソナライズされたオファーを行うことができます。より正確には、マシンはあなたのためにすべてを行います：それはそれを分析し、そして最良の決定さえします。

あなたはそれがファンタジーだと言いますか？もちろん、このメカニズムは、特にロシアではまだそれほど普及しておらず、完全にはデバッグされていませんが、これに向けた最初のステップは確実に実行されています。

ビッグデータに関しては、収集する量ではなく、使用方法です。一般的に、ビッグデータは普遍的な手法です。この記事では、マーケティングと販売におけるそのアプリケーションを見ていきます。

ビッグデータとは

大規模な輸送会社、オンラインストア、通信プロバイダー、SaaSサービス、銀行-つまり、大規模な顧客ベースを持つ企業は、膨大な量の情報を収集します。

これは、個人データ（名前、電子メール、電話、性別、年齢、地域）だけでなく、IPアドレス、サイト訪問時間、訪問数、サイトでのリクエスト、購入履歴などでもあります。各企業には、その企業だけが利用できる独自の詳細と固有のデータがあります。

たとえば、タクシーサービスは、ユーザーが旅行に費やしたすべてのステップと秒を「知っています」。オンラインバンキングサービス-何を、いつ、いくら支払ったか。 Eショップ-あなたが見た、カートに入れた、またはお気に入りに追加した製品など。

つまり、各企業がCRMシステムに蓄積するのはデータだけではありません。これは、企業が顧客について知ることができるすべてであり、個々のケースでテラバイトの情報で測定することができます。通常のデータベースはそのようなボリュームを処理できません。データが定期的に変更されて到着するという理由だけで-垂直方向（+新しいクライアント）および水平方向（+クライアントに関する追加情報）。

さらに、それらは完全に異なるソースで提示されているため、多様で構造化されていません。たとえば、次のようになります。

ブログとソーシャルネットワーク;
オーディオおよびビデオファイル。
企業データベース;
センサー、測定装置、センサーネットワーク。

これはビッグデータです。物理的なドキュメントよりも抽象的なものであり、したがって、それらを管理する人の力を超えています。機械のアルゴリズムが助けになります。

データマイニングまたはビッグデータの収集方法と処理方法

ビッグデータはどこから来るのですか？

まず、それはあなたのウェブサイトとすべての連絡先データキャプチャポイントです。

次に、カウンターと分析システム（Yandex.Metrika、Google Analytics）。

ビッグデータはどのように処理されますか？ビッグデータ市場の主なソリューションは次のとおりです。

情報を保存および処理し、指標のダイナミクスを分析し、統計レポートで結果を提供するデータベース管理システム（Sap、Oracle、Microsoft、IBMなど）。

オンラインチャネル（Segmento、RTB-Mediaなど）でのターゲットユーザーとターゲット広告のアクションを予測するRTB広告購入管理サービス。
特定のユーザーにとって最も興味深いサイト上の製品を表示する製品推奨サービス（RetailRocket、1C-Bitrix BigData）;
リソースページの最も適切なバージョン（Personyze、Monoloop、Cross）をユーザーに表示するコンテンツパーソナライズサービス。
ターゲットを絞った電子メールを送信するニュースレターのパーソナライズサービス（Vero、Personyzeなど）。

これらのシステムは互いに積極的に連携し、機能を改善および更新します。

ビッグデータテクノロジーの仕組みとデータサイエンスとは

このアプローチの実際的な本質は、意思決定プロセスへの人の関与を最小限に抑えることです。データサイエンスの概念はこれに基づいています（文字通り-「データサイエンス」）。

この概念によれば、ビッグデータは統計モデルによって管理されます。データ内の隠れた関係を見つけ、特定のユーザーの行動を可能な限り正確に予測します（客観性とデータの幅広い選択により）-ユーザーが製品を購入するか、ニュースレターを購読するか、記事に興味があるかどうか。

これは自己学習の継続的なプロセスです。つまり、機械自体がリアルタイムで学習し（機械学習の原理）、ビジネスプロセスを最適化するためのアルゴリズムを作成します。

彼女は独自に決定し、提案します：

何を、どこで、いつユーザーに最大のコンバージョン確率を提供するか。
クロスセルとアップセルを増やす方法。
最も人気のある製品とその理由。
ターゲットオーディエンスのニーズに合わせて製品/サービスを改善する方法。

小売業では、機械は次の決定を下すことができます。

次の店舗を開く場所。
実行するマーケティングキャンペーン。
将来の売上を予測する方法。
聴衆の「コア」を強調する方法。
どのくらいの価格を上げる/下げるか来月;
マーケティング予算を最適化する方法。
来月退社する顧客を特定する方法。

マーケティングでは、これにより、ターゲットオーディエンスをセグメント化し、各セグメントのクリエイティブと個人的なオファーを開発できます。残念ながら、この瞬間このプロセスは部分的にのみ自動化されています。

これがあなたのための例です。

Targetは、妊娠中の女性が話題の質問を入力したり、ソーシャルメディアでニュースを共有したり、その他の方法でオンラインで宣伝したりする前に、妊娠中の女性をターゲットにするという珍しい課題に取り組んできました。

それはどのように機能しましたか？買い物の習慣についての知識が役に立ちました。つまり、ターゲットは、妊娠中の母親が無香料のローション、綿ナプキン、手ぬぐいをたくさん購入していることを調査で発見しました。

もう一つの例。

ロシアの電子書籍サービスBookmateは、ユーザーの本当の興味についてほとんど知りませんでした。彼らは申請書に行きましたが、提案された本は彼らに興味がありませんでした。ソーシャルネットワークからの情報を利用することで状況は改善しました。レコメンデーションビューは2.17倍に増加し、有料ユーザーへのコンバージョンは1.4倍に増加しました。

ブリティッシュ・エアウェイズは、パーソナライズをまったく新しいレベルに引き上げました。 Know Meプログラムの一環として、彼女はGoogle画像検索サービスを使用している顧客の顔を認識します。スタッフは空港ターミナルまたは機内の乗客を認識し、名前で直接挨拶します。

さらに、過去のフライトの乗客の個人データにより、航空会社は過去にフライトを遅らせた人や荷物を紛失した人に個人的に謝罪することができます。

基地に関するこの情報やその他の情報（たとえば、食べ物の好み）は、ブリティッシュ・エアウェイズの客室乗務員が特別な作業用タブレットで入手できます。

eコマースのビッグデータ：ネットロジーの事例

目標は、500を超える製品の範囲で化粧品とケア製品の3つのオンラインストアのマーケティングコミュニケーションを最適化することです。

「ネトロジー」の専門家はこれのために何をしましたか？

まず、人気のあるeコマースシステムであるMagentoとShopifyから、顧客ベースの消費者行動（約10万人の消費者）に関する入手可能なすべてのデータを収集することから始めました。

購入、バスケット、平均チェック、注文時間などに関する情報。
フィードバックメールマガジンの購読者：MailchimpやDotmailerなどのサービスからの手紙の開封とリンクのクリック、およびサイトでのその後の活動（ニュースレター後の製品カード、カテゴリ、購入の表示）に関するデータ。
購入前の商品ビューのデータに基づく常連客のリピート訪問の活動。

これらのデータから、次の指標が得られました。

割引の最適なサイズ。
顧客生涯価値と合計値（LTV）;
繰り返し購入する可能性。

このようにして、独自の好み、習慣、機能のセットを備えた各クライアントの本格的なイメージが得られました。

まあ言ってみれば：

クライアントA.毎月同じヘアシャンプーを購入します。この顧客のためにこの製品に追加のプロモーションを行う理由はありません。同じブランドの追加のコンディショナーまたはマスクを購入するために、1か月後に彼に提供することをお勧めします。

クライアントB.オードトワレと香水を一度購入し、その後は何も購入しませんでした。しかし、彼はオンラインストアからのメールを調べて、装飾化粧品に興味を持っています。顧客Bが他の場所で買い物をしている可能性があります。割引アイシャドウセットを提供することは、購入するための決定的なインセンティブになる可能性があります。

この情報に基づいて、システムは、電子メールとFacebookを介してキャンペーンを開始するためのセグメントを形成しました。これは、ブランドごとに1週間に40から100の自動キャンペーンです。

データ収集中に、研究者はいくつかのトリガーを特定しました。たとえば、特定のユーザーグループは、朝にメールを調べ、夕方に家に戻って見た商品を購入します。追加のチャネルを介して夕方に彼らの製品提供を複製することは理にかなっています。

結果：なんとかリピート販売を3倍にし、手紙の開封率を平均70％増やし、手紙を受け取った人のコンバージョンを83％増やしました。

データの「人間化」：Yandex.Taxiケース

Yandex.Taxiには、すべての旅行に関する固有のデータがあります。それらに基づいて、マーケティングコミュニケーションをより感情的にすることができます。主なアイデアは、顧客と友好的な方法で「コミュニケーション」し、目立たないように自分自身を思い出させることです。物語や登場人物の形での個人統計は、それを実装するのに役立ちました。

メディアファサード

Yandex.Taxiのマーケターは、市内で最も人気のある場所とルートを見つけました。これを行うために、公園、劇場、美術館、記念碑などの最も重要な場所への注文数を数えました。これらのデータはそれほど個人的なものではなく、誰にも不快感を与えるものではありませんが、都市の生活を示しています。

そのような観察は、メディアファサードを介した聴衆との個人的なコミュニケーションのアイデアを実現することを可能にしました。デザインは、チャットでの親しみやすいメッセージの形で設計されました。各都市には独自のフレーズがあります。

会社は彼だけが理解できる人とフレーズを交換しているようです。これは注目と参加であり、Yandex.Taxiは市内でのブランド認知度の向上を期待しているため、彼は喜んでいます。

テキストを編集するとき、次の方法が使用されました。

シティスラング-すべての住民が理解できる地元の言葉。市の市民やフォーラムでそれらを検索し、地域の管理者や地元の歴史家にも確認しました。たとえば、カザンでは、登記所は「チャリス」と呼ばれ、エカテリンブルクの堤防は「ドラマ」と呼ばれています。
言葉遊び。ここではいくつかの例を示します。

タクシーでマドリードに旅行した3,090人。旅行の仕方を知っていますか？（「マドリード」-エカテリンブルクのホテル）。

木星に駆けつけた958人。あなたはただの宇宙です！（「Jupiter」は会社の名前です）。

これはテスト実験でしたが、現在、Yandexはさまざまなオンラインおよびオフラインのソースを含むより包括的なキャンペーンを開発しています。

新年の動画

2017年の終わりに、Yandex.Taxiは、一緒に過ごした時間を顧客に伝え、感謝の気持ちを伝えたいと考えていました。旅行の回数、待機時間、朝の注文などです。

それを面白くするために、私たちは100万回の旅行のうちの1つについての可能性のあるプロットを考え出し、統計からの数字でこのトピックに関するビデオを撮影しました。

次のことが判明しました。

7億6400万分の待機-愛するカップルがタクシーで別れを告げる。

年間5600万回の朝の旅行-母と娘はマチネに行きます。

動物との12万2000回の旅行。

最初の試みの結果、ビデオはブランドが大きな数字を誇示しているように見えることがわかりました。「今年一緒に過ごした時間を見てください」というメッセージをより正確に伝えるために、統計を変更して、ストーリーのキャラクターに焦点を移しました。

数字自体は何の意味もありません。この図が大きいか小さいか、そして彼らがそれで何を見せたかったかを理解するのは難しいです。 Yandexは、データをそれ自体の目的としてではなく、ストーリーを伝える方法として使用しました。

アプリのイースターエッグ

同社はまた、旅行の回数、所要時間、待機時間に応じて、顧客向けのキャラクター「タクシータイプ」を考案しました。定義メカニズムは、これら3つの特性を考慮し、それらからクライアントのイメージを追加して、次のいずれかのカテゴリに割り当てました。

データは、人が70％以上の旅行を行った都市について評価されました。

アルゴリズムは都市の中央値を見つけ、それに関連するメトリックを評価しました-「多くの」または「少ない」旅行、数分の旅行と待機。

1年に4回以上旅行した各ユーザーは、ボタンをクリックすることで、アプリケーションで自分の「タクシーの種類」を見つけることができます。

例えば：

ブラッククーガー：多くの旅行、短い旅行、時間通りに出発することはめったにありません

遠視の放浪者：長い間、たくさん旅行し、時間通りに車に乗りました

視聴した人の20％が結果を選別し、ソーシャルメディアで共有しました。これは、予測の2倍です。

ドライバーの統計

ビッグデータの未来

ビッグデータの実験は続いています。

Yandexは、データサイエンスの概念を教えるだけでなく、自社製品の開発にも積極的に使用している先駆的な企業の1つです。

Yandex.Zenブログプラットフォームを利用してください。さまざまな国で利用できます。トピックやその他のパラメーターで資料を並べ替えたり、特定のカテゴリーのユーザー向けに表示をカスタマイズしたりする必要はありません。誰もが彼にとって興味深い記事を読み、同様の記事の新しい選択を受け取ります。システムは、彼が最も好む可能性が高いものを単に提案します。

事実、機械知能は平均化を目的としていません。その機能により、数十億人のユーザーのそれぞれにパーソナライズされたコンテンツを提供できるため、限られた数のセグメントを作成しようとはしていません。

外国のアナログはalexa.comと呼ぶことができます-これは、世界中で、さまざまな国で別々に最も訪問されたサイトの評価です（国ごとの選択は支払われ、お金がかかります）。

自動データ収集（Yandex.Browserなどのサービスを介して）および統計モデルを使用すると、他の評価に参加していないサイトを含めることができます。

現在の形でも、これにより、さまざまなニッチのリーダーを特定し、他のサービスの助けを借りて、彼らのプロモーション戦略とトラフィックソースをモデル化することができます。

たとえば、5〜10人のユーザーを選択すると、マシンは何千もの類似したユーザーを検出し、それらのユーザーをターゲットに設定します。機械知能の利点は、経験豊富な専門家でさえ、それらについて推測するのではなく、見失う可能性のある要因を考慮に入れることです。

どちらの決定が人によってより適切に行われ、どちらが機械によってより適切であるかを区別することを学び、これら2つのクラスを混同しないでください。アルゴリズムが同じタイプのタスク（ボタンのデザインを選択）にうまく対応できる場合、より創造的なもの（サイトを最初からデザインする）は人だけが行うことができます。
人だけでなくアルゴリズムもトレーニングします。
アルゴリズムは質問に答えるのに優れていますが、アルゴリズム自体は質問をすることができないことに注意してください。可能ですが、時間の問題でもあります。

ちなみに、人間と機械知能の「対立」の問題はますます頻繁に提起されています。この機会に、AndreySebrant対AntonBulanov（最大の民間医療会社であるINVITROのディレクター）の戦いをご覧ください。

セグメンテーションについて、軸を持ったマーケター、燃えている予算、そして「クライアントを連れてくる」ボタンが近い将来現れるかどうか。

一息でそれを見てください。

序文

「ビッグデータ」は、データ分析、予測分析、データマイニング、CRMを専門とするほとんどすべての専門家会議に登場する流行の用語です。この用語は、経済、銀行、製造、マーケティング、電気通信、Web分析、医学など、組織プロセスへのデータフローの速度が絶えず増加している、質的に大量のデータを処理することに関連する領域で使用されます。、など。

情報の急速な蓄積に伴い、データ分析技術も急速に発展しています。数年前は、たとえば、顧客を同じような好みのグループにセグメント化することしかできなかった場合、今では、たとえばインターネット上での特定の検索の動きを分析して、各顧客のモデルをリアルタイムで構築することができます。製品。消費者の興味を分析することができ、構築されたモデルに従って、適切な広告または特定のオファーが表示されます。モデルはリアルタイムで構成および再構築することもできますが、これはほんの数年前には考えられなかったことです。

たとえば、電気通信の分野では、物理的な場所を特定するための技術が開発されています。携帯電話とその所有者、そして、2002年のSF映画マイノリティリポートに記載されている、ショッピングセンターでの広告情報の表示が通りすがりの特定の個人の利益を考慮したアイデアがまもなく実現するようです。

同時に、新技術への熱意が失望につながる場合があります。たとえば、スパースデータ（ スパースデータ）現実への重要な洞察を提供するものは、よりもはるかに価値があります ビッグデータ（ビッグデータ）山を説明しますが、多くの場合、重要な情報はありません。

この記事の目的は、ビッグデータの新しい可能性を明確にして考察し、分析プラットフォームがどのように機能するかを説明することです。 統計学 StatSoftは、ビッグデータを効果的に使用してプロセスを最適化し、問題を解決するのに役立ちます。

ビッグデータの大きさはどれくらいですか？

もちろん、この質問に対する正解は「状況によって異なります…」である必要があります。

現代の議論では、ビッグデータの概念はテラバイトのオーダーのボリュームデータとして説明されています。

実際には（ギガバイトまたはテラバイトについて話している場合）、このようなデータは、「従来の」データベースと標準装備（データベースサーバー）を使用して簡単に保存および管理できます。

ソフトウェア 統計学データアクセス（読み取り）、変換、および予測（およびスコアリング）モデルの構築のアルゴリズムにマルチスレッドテクノロジーを使用しているため、このようなデータサンプルは簡単に分析でき、特別なツールは必要ありません。

現在の一部のStatSoftプロジェクトでは、900万から1200万行のオーダーのサンプルが処理されます。それらにデータウェアハウスで収集および整理された1000個のパラメーター（変数）を掛けて、リスクまたは予測モデルを構築しましょう。この種のファイルのサイズは「わずか」約100ギガバイトになります。これは確かに小さなデータウェアハウスではありませんが、そのサイズは標準のデータベーステクノロジーの機能を超えることはありません。

生産ライン 統計学バッチ分析およびスコアリングモデルの構築用（ STATISTICA Enterprise）、リアルタイムソリューション（ 統計ライブスコア）、およびモデルを作成および管理するための分析ツール（ STATISTICAデータマイナー）マルチコアプロセッサを搭載した複数のサーバー間で簡単に拡張できます。

実際には、これは、運用上の意思決定を行うための分析モデル（たとえば、信用リスク、不正の可能性、機器ノードの信頼性などに関する予測）の十分な速度は、ほとんどの場合、標準ツールを使用して達成できることを意味します。 統計学.

ビッグデータからビッグデータへ

原則として、ビッグデータの議論は、ほんの数テラバイトよりもはるかに大きいデータストア（およびそのようなストアに基づく分析）を中心に行われます。

特に、一部のデータストアは、数千テラバイト、つまり最大ペタバイト（1000テラバイト= 1ペタバイト）にまで成長する可能性があります。

ペタバイトを超えて、データの蓄積はエクサバイトで測定できます。たとえば、2010年の世界中の製造業は、合計2エクサバイトの新しい情報を蓄積したと推定されています（Manyika et al。、2011）。

データが非常に集中的に収集および蓄積される業界があります。

たとえば、発電所などの製造環境では、毎分または毎秒でさえ、数万のパラメータに対してデータの連続ストリームが生成されることがあります。

さらに、過去数年間で、いわゆる「スマートグリッド」技術が導入され、電力会社は1分ごとまたは1秒ごとに個々の家庭の電力消費量を測定できるようになりました。

データを何年も保存する必要があるこの種のアプリケーションでは、蓄積されたデータは非常にビッグデータとして分類されます。

また、商業部門と政府部門の間でビッグデータアプリケーションの数が増えており、ストレージ内のデータの量は数百テラバイトまたはペタバイトになる可能性があります。

最新のテクノロジーにより、人々とその行動を「追跡」することができます違う方法。たとえば、インターネットを閲覧したり、オンラインで買い物をしたり、ウォルマートなどの大規模なチェーン店で買い物をしたりする場合（Wikipediaによると、ウォルマートのデータストレージは2ペタバイト以上の価値があります）、携帯電話-私たちは自分たちの行動の痕跡を残し、それが新しい情報の蓄積につながります。

簡単な電話から、Facebookなどのソーシャルネットワーキングサイトを介した情報のアップロード（Wikipediaによると、情報は毎月300億ユニットで交換されます）、YouTubeなどのサイトでのビデオ共有（Youtubeはダウンロード24と主張）まで、さまざまなコミュニケーション手段毎分何時間ものビデオ。ウィキペディアを参照）毎日大量の新しいデータを生成します。

同様に、現代の医療技術は、医療の提供に関連する大量のデータ（画像、ビデオ、リアルタイム監視）を生成します。

したがって、データボリュームの分類は次のように表すことができます。

大規模なデータセット：1000メガバイト（1ギガバイト）から数百ギガバイト

巨大なデータセット：1000ギガバイト（1テラバイト）から数テラバイト

ビッグデータ：数テラバイトから数百テラバイト

非常に大きなデータ：1,000〜10,000テラバイト= 1〜10ペタバイト

ビッグデータに関連するタスク

ビッグデータに関連するタスクには、次の3つのタイプがあります。

1.保管と管理

数百テラバイトまたはペタバイトのデータは、従来のリレーショナルデータベースで保存および管理するのは簡単ではありません。

2.非構造化情報

すべてのビッグデータのほとんどは構造化されていません。それらの。テキスト、ビデオ、画像などをどのように整理できますか？

3.ビッグデータ分析

非構造化情報を分析する方法は？ビッグデータに基づいて簡単なレポートを作成し、詳細な予測モデルを構築して実装するにはどうすればよいですか？

ビッグデータの保存と管理

ビッグデータは通常、分散ファイルシステムに保存および整理されます。

一般的に、情報は標準的なコンピューターの数台（場合によっては数千台）のハードドライブに保存されます。

いわゆる「マップ」（マップ）は、特定の情報がどこに（どのコンピューターやディスクに）保存されているかを追跡します。

フォールトトレランスと信頼性を確保するために、各情報は通常、数回、たとえば3回保存されます。

したがって、たとえば、大規模な小売チェーン店から個々のトランザクションを収集したとします。詳細な情報各トランザクションについては、異なるサーバーとハードドライブに保存され、「マップ」（マップ）インデックスには、対応するトランザクションに関する情報が正確に保存されます。

標準のハードウェアおよびオープンソースソフトウェアツールを使用して、この分散ファイルシステムを管理します（たとえば、 Hadoop）、ペタバイト規模で信頼性の高いデータストアを実装するのは比較的簡単です。

非構造化情報

分散ファイルシステムで収集される情報のほとんどは、テキスト、画像、写真、ビデオなどの非構造化データで構成されています。

これには長所と短所があります。

利点は、ビッグデータを保存できるため、後の分析や意思決定に関連するデータの量を気にすることなく、「すべてのデータ」を保存できることです。

不利な点は、そのような場合、有用な情報を抽出するために、これらの膨大な量のデータの後続の処理が必要になることです。

これらの操作の一部は単純な場合がありますが（単純な計算など）、分散ファイルシステムで効率的に実行するように特別に設計する必要があるより複雑なアルゴリズムが必要な場合もあります。

あるトップエグゼクティブは、コアビジネスを改善するためにそのデータをどのように使用するのが最善かを考えていなかったため、「ITとデータストレージに大金を費やしたが、まだ報酬を受け取り始めていない」とStatSoftに語ったことがあります。

したがって、データの量は指数関数的に増加する可能性がありますが、情報を抽出してその情報に基づいて行動する能力は制限されており、漸近的に限界に達します。

モデルの構築、更新、および意思決定の自動化のための方法と手順をデータストレージシステムとともに開発して、そのようなシステムが企業にとって有用で有益であることを確認することが重要です。

ビッグデータ分析

これは、非構造化ビッグデータの分析に関する非常に大きな問題です。それを有用な方法で分析する方法です。この問題について書かれているのは、データストレージやビッグデータ管理テクノロジーよりもはるかに少ないです。

考慮すべき問題がいくつかあります。

MapReduce

数百テラバイトまたはペタバイトのデータを分析する場合、分析のためにデータを他の場所に抽出することはできません（たとえば、 STATISTICA Enterprise Analysis Server).

チャネル間でデータを別のサーバーに転送するプロセス（並列処理の場合）は、時間がかかりすぎ、トラフィックが多すぎます。

代わりに、分析計算は、データが保存されている場所の近くで物理的に実行する必要があります。

Map-Reduceアルゴリズムは、分散コンピューティングのモデルです。その動作の原理は次のとおりです。前処理（マップステップ）のために分散ファイルシステムの作業ノード（個々のノード）に入力データを配布し、次に、すでに前処理された畳み込み（組み合わせ）を行います。 -処理されたデータ（ステップの削減）。

したがって、たとえば、最終的な合計を計算するために、アルゴリズムは分散ファイルシステムの各ノードの小計を並行して計算し、次にこれらの中間値を要約します。

予測分析を含む、map-reduceモデルを使用してさまざまな計算を実行する方法について、オンラインで入手できる豊富な情報があります。

単純な統計、ビジネスインテリジェンス（BI）

簡単なBIレポートを作成するために、合計、平均、比率などを計算できる多くのオープンソース製品があります。 map-reduceを使用します。

したがって、レポート用の正確なカウントやその他の簡単な統計を取得するのは非常に簡単です。

予測モデリング、高度な統計

一見、分散ファイルシステムで予測モデルを構築するのは難しいように思われるかもしれませんが、そうではありません。データ分析の準備段階を検討してください。

データの準備。少し前に、StatSoftは、発電所の分単位のパフォーマンスを説明する非常に大規模なデータセットを含む一連の大規模で成功したプロジェクトを実行しました。分析の目的は、発電所の効率を改善し、排出量を削減することでした（Electric Power Research Institute、2009年）。

データセットが非常に大きくなる可能性があるにもかかわらず、データセットに含まれる情報の次元がはるかに小さいことが重要です。

たとえば、データは毎秒または毎分蓄積されますが、多くのパラメータ（ガスと炉の温度、流量、ダンパーの位置など）は長期間にわたって安定しています。つまり、毎秒書き込まれるデータは、基本的に同じ情報の繰り返しです。

したがって、「スマート」なデータ集約を実行し、発電所の効率と排出量に影響を与える動的な変化に関する必要な情報のみを含むモデリングと最適化のためのデータを取得する必要があります。

テキスト分類とデータ前処理。大規模なデータセットにあまり役に立たない情報が含まれる可能性があることをもう一度説明しましょう。

たとえば、StatSoftは、ツイートからのテキストの分析（テキストマイニング）に関連するプロジェクトに関与しており、乗客が航空会社とそのサービスにどの程度満足しているかを反映しています。

関連するツイートは1時間ごと、1日ごとに多数抽出されましたが、そこに表現された感情はかなり単純で単調でした。投稿のほとんどは、「悪い経験」についての苦情と短い一文のメッセージです。さらに、これらの感情の数と「強さ」は、時間の経過とともに、特定の問題（たとえば、荷物の紛失、食べ物の不足、フライトの欠航など）に関して比較的安定しています。

したがって、テキストマイニング技術（ STATISTICAテキストマイナー）結果として得られるデータの量ははるかに少なくなり、既存の構造化データ（実際のチケット販売、またはマイレージ情報）に簡単にマッピングできます。分析により、顧客をグループに分けて、顧客の特徴的な苦情を調査することができます。

分散ファイルシステムでこの種のデータ集約（感情スコアなど）を実行するために利用できるツールは多数あり、この分析プロセスを簡単に実行できます。

モデルの構築

多くの場合、課題は、分散ファイルシステムに保存されているデータの正確なモデルをすばやく構築することです。

分散ファイルシステム（プラットフォームを使用してサポート可能）でのデータの大規模な並列処理に適した、さまざまなデータマイニング/予測分析アルゴリズムのmap-reduce実装があります。 統計学 statsoft）。

ただし、非常に大量のデータを処理したという理由だけで、結果のモデルが実際により正確であると確信していますか？

実際、分散ファイルシステムで小さなデータセグメントのモデルを構築する方がおそらく便利です。

最近のForresterのレポートによると、「2プラス2は3.9に等しく、通常は十分です」（Hopkins＆Evelson、2011年）。

統計的および数学的精度は、たとえば、よくできたものに基づく10個の予測子を含む線形回帰モデルという事実にあります。確率サンプル 100,000の観測から、1億の観測から構築されたモデルと同じくらい正確になります。

モバイルテクノロジーのすべて