AWS が新しいサービスでデータ管理と分析を簡素化

企業向けのデータ管理と分析の簡素化は、今年の AWS re:Invent カンファレンスの大きなテーマです。Amazon は、抽出、変換、読み込み (ETL) プロセスを緩和し、組織全体のデータのカタログ化と検索のサポートを提供することを目的とした新しいサービスと機能を発表しました。

AWS は、Amazon Redshift との Amazon Aurora ゼロ ETL 統合と、Apache Spark の Amazon Redshift 統合という 2 つの新しい機能をリリースしました。これにより、ETL プロセスが時代遅れになると主張しています。

企業は通常、ETL を使用して、複数のソースからの日付を単一の一貫したデータ ストアに統合し、分析のためにデータ ウェアハウスにロードします。

ただし、ほとんどのデータ エンジニアは、さまざまなソースからデータを変換することは、生データのクリーニング、フィルタリング、再形成、要約などの手順を伴うため、困難で時間のかかる作業になる可能性があると主張しています。

もう 1 つの問題は、分析を実行するためのデータ パイプラインを準備するチームを維持するための追加コストです、と AWS は述べています。

ETLの排除を目指す新機能

対照的に、同社によると、Amazon Aurora のゼロ ETL 統合では、Aurora に書き込まれたトランザクション データがほぼ即座に RedShift にレプリケートされ、分析を実行する準備が整っているため、Aurora と RedShift の間で ETL を実行する必要がなくなります。

「顧客は、複数の Amazon Aurora データベース クラスターから同じ Amazon Redshift インスタンスにデータをレプリケートして、複数のアプリケーションにわたって洞察を得ることができます」と同社は声明で述べ、統合は現在プレビュー段階であると付け加えました。

さらに、Amazon Redshift Integration for Apache Spark は、エンタープライズ開発者が AWS 分析および機械学習サービスを使用して、Amazon Redshift からのデータで Apache Spark アプリケーションを構築および実行するのに役立つと述べています。

開発者が使用する一般的なツールである Apache Spark は、ビッグ データを処理するためのオープン ソースの統合分析エンジンです。

「開発者は、一般的な言語フレームワーク (Java、Python、R、Scala など) を使用して、Apache Spark ベースのアプリケーションから Amazon Redshift データに対するクエリの実行を数秒で開始できます」と同社は述べ、統合が一般に利用可能になったことを付け加えました。

データのカタログ化と検索を支援する Amazon DataZone

クラウド サービス プロバイダーは、Amazon DataZone と呼ばれる新しいデータ管理サービスもプレビューしました。 まだ利用可能になっていない新しいデータ管理サービスは、企業がAWS、オンプレミス、およびサードパーティのソースに保存されたデータをカタログ化し、発見し、共有し、管理するのに役立つと期待されている.

企業内のデータ プロデューサーは、サービスのウェブ ポータルを介してデータ ソース、データ分類法、およびガバナンス ポリシーを定義することにより、データ カタログをセットアップできる、と AWS は述べています。

「Amazon DataZone は、機械学習を使用して各データセットのメタデータ (オリジンやデータ タイプなど) を収集および提案し、顧客の分類法と好みをトレーニングして時間の経過とともに改善することにより、カタログを維持する重労働を取り除きます」と同社は述べています。プレスリリース。

カタログが設定された後、データ コンシューマは Amazon DataZone ウェブ ポータルを使用して、データ資産を検索および発見し、メタデータのコンテキストを調べ、データ セットへのアクセスをリクエストできる、と付け加えました。

データの分析を実行するには、エンタープライズ ユーザーは Amazon DataZone データ プロジェクトを作成する必要があります。これは、ユーザーがさまざまなデータ セットを取り込み、同僚とアクセスを共有し、分析で共同作業できるようにする Web ポータル内の共有スペースです、と AWS は述べています。

「Amazon DataZone は、Amazon Redshift、Amazon Athena、Amazon QuickSight などの AWS 分析サービスと統合されているため、データ コンシューマーはデータ プロジェクトのコンテキストでこれらのサービスにアクセスできます」と同社は述べています。

このサービスは、DataBricks、Snowflake、Tableau などのカスタム ソリューションやパートナーと統合するための API も提供します。

AWS Clean Rooms はデータの共同作業を容易にします

企業がパートナーとのデータの共同作業を支援するために、AWS は AWS Clean Rooms と呼ばれる新しいサービスを開始しました。

現在AWSの顧客のみに制限されているこのサービスは、企業が協力したいパートナーを選択できるAWSマネジメントコンソールを介してアクセスできると同社は述べ、コンソールはデータセットを選択するオプションを提供すると付け加えた。共有し、参加者のアクセス許可を構成します。

クリーン ルームで共有されているデータ セットは暗号化されており、AWS 環境から移動したり、別のプラットフォームにロードしたりする必要はないと AWS は述べ、これらのデータ セットに対してクエリを実行することもできると付け加えました。

著作権 © 2022 IDG Communications, Inc.

Leave a Comment

Your email address will not be published. Required fields are marked *