ストリーム処理の新興世界におけるデータ

このゲストポストは、Apache Kafkaに焦点を当て、創作者によって設立されたスタートアップのConfluentの共同設立者でありCTOであるNeha Narkhedeから来ました。

現代の世界のデータシステムは独自の島ではなく、データベース、オフラインデータストア、検索システム、ストリーム処理システム間でデータが流れることがよくあります。しかし、長い間、企業のデータ技術はかなり均質であり、データは主に2つの一般的な場所にありました:運用データストアとデータウェアハウス。企業が大量バッチジョブとして実行したデータ収集と処理の大部分は、データベースからダンプされたCSVファイル、一日の終わりに収集されたログファイルなどです。

しかし、ビジネスはリアルタイムで動作し、実行するソフトウェアは追いついています。 1日の終わりにのみデータを処理するのではなく、データが到着してもそれに連続して反応しないでください。この考え方は、ストリーム処理の新興世界を支えています。

リアルタイムの取得;ストリーム処理の最も明白な利点は、多くの分析またはレポート処理をリアルタイムで移動できることです。ストリーム処理アプリケーションは、静的なテーブルやファイルではなく、過去に起こったことから今後起こることになる無限の無限ストリームとしてデータを扱います。データベース用語では、過去に収集されたデータに対してクエリを実行するのではなく、ストリーム処理ではクエリを介してデータが実行されるため、結果は連続的な操作として段階的に生成されます。

ビッグデータ分析、Big Data Analytics、DataRobotはデータサイエンスの欠点を自動化することを目指している、Big Data Analytics、MapR創設者のJohn Schroederが辞任し、交換するCOO

ストリーム処理に関する興奮は、より高速な分析やレポート作成にとどまりません。ストリーム処理は、以前はバッチ形式でしかデータウェアハウスから入手できなかったデータの周りに企業のビジネスロジックとアプリケーションを構築し、1日に1回ではなく連続して行うことが可能です。例えば、小売業者は、リアルタイムで売上を分析し報告することができ、また、受注データに応じて、製品を並べ替え、地域別に価格を調整するコアアプリケーションを構築することができます。

それはストリームですか;しかし、基本的なデータキャプチャがストリーミング形式で行われると、ストリーム処理は可能になります。結局のところ、CSVダンプのバッチをストリームとして処理することはできません。このストリーム処理への移行により、Apache Kafkaの人気が高まりました。カフカの採用は目覚しいものでした。世界のUbers、AirBnBs、Netflixes、Ebays、Yahoosなどのシリコンバレーの技術集団から、小売、金融、ヘルスケア、テレコムまで。世界中の何千もの企業にとって、カフカはデータアーキテクチャのミッションクリティカルな基盤となっています。

この分野での自分の経験はLinkedInで初期の段階で働いていました。 2009年には、私の同僚と私はApache Kafkaを作成し、LinkedInがすべてのデータを収集し、それを処理するために構築されたさまざまな製品やシステムで利用できるようにしました。アイデアは、ユーザーにリアルタイムのエクスペリエンスを提供することでした。結局のところ、ウェブサイトは24時間使用されていたため、1日に1回だけデータを処理し分析する理由はありませんでした。その後、KafkaをLinkedInの生産に投入し、ますます大規模に実行し、残りのLinkedInのストリームデータプラットフォームを構築しました。クリック、検索、電子メール、プロフィールの更新など、企業内で起こっているすべてのことについて、一連のデータが入っていました。最近では、LinkedInのKafkaが1日に1兆回以上の更新を処理しています。

LinkedInでのストリームデータと処理に向けたこの変換は、あらゆる業界のあらゆる組織に関連し、ストリームはどこにでもあります – ファイナンス会社の株式ティッカーデータのストリーム、小売企業のための終わりのない注文と出荷、ユーザーWeb企業のクリック数。すべての組織のデータを自由に流れるストリームとして一元的に利用できるようにすることで、ビジネスロジックをストリーム処理操作として表現することができます。以前はサイロで閉じ込められていたすべてのデータで可能なことに大きな影響を与えました。

オフラインデータウェアハウスに入ったのと同じデータがストリーム処理に使用できるようになりました。一度収集されたすべてのデータは、企業内のさまざまなデータベース、検索インデックス、およびその他のシステムでのストレージまたはアクセスに使用できます。重要なビジネス上の意思決定を推進するためのデータは、一晩中一晩中、継続的に利用できます。異常および脅威の検出、分析、および障害への対応は、それが遅すぎる場合と比べてリアルタイムで実行できます。これは、データセンターの中心に単一のプラットフォームを導入することで可能になり、運用スペースを大幅に簡素化します。

Confluentでは、リアルタイムストリームとストリーム処理を中心としたこの新しいタイプのデータアーキテクチャは、今後数年にわたってユビキタスになると強く信じています。

LinkedInが新しいブログプラットフォームを発表

これはBig OLAPの時代ですか?

DataRobotは、データサイエンスの果実の低さを自動化することを目指しています

MapRの創設者John Schroederが辞任し、COOが辞任