BigQueryは、さまざまなデータソースや外部ツールと連携し、膨大なデータの格納や整理ができるデータウェアハウスサービスです。
長い時間がかかるクエリを、テラバイトやペタバイトのデータに対して数秒〜数十秒で終わらせることが可能です。
ただし、自社に導入するとなると「具体的にはどんな機能があるのか」「料金は高いのか」「使いやすいのか」など、疑問に持つことは多いのではないでしょうか。
そこでこの記事では、BigQueryを初めて導入しようと思っている担当者の方に向けて、BigQueryの機能や料金、メリット・デメリット、利用する流れ、導入で迷う際の対策などを解説します。
BigQueryとは
BigQueryとは、2011年にリリースされたGoogle Cloudで提供されているデータウェアハウスサービスのことです。
データウェアハウスは、さまざまなデータを集め、時系列に蓄積するシステムを意味しています。
BigQueryの大きな特徴は、テラバイトやペタバイトなどのビッグデータも、超高速で解析できることです。
また、わかりやすいインターフェースで直感的に操作できるので、データエンジニアリングの専門知識がなくても、SQLを扱うことができれば利用できます。扱えます。
BigQueryの主な機能
膨大なデータの分析や蓄積に向いているBigQueryの主な機能は以下のとおりです。
- MLモデルの構築・運用
- クラウド上のデータ分析
- 高速のリアルタイム分析
- データの統合・管理・統制
- 位置情報を利用した分析の拡張
MLモデルの構築・運用
BigQueryでは、MLモデルの構築や運用が可能です。MLモデルとは、機械学習においてデータに対し結果を導き出す仕組みを意味しています。MLは、Machine Learning(機械学習)の略称です。
BigQuery MLで使用できるものは以下のとおりです。
- Google Cloud Console
- bq コマンドライン ツール
- BigQuery REST API
- Jupyter ノートブックやビジネス インテリジェンス プラットフォームなどの外部ツール
また、BigQuery MLでサポートしているモデルは以下のように豊富にあります。
- 線形回帰(予測)
- 2 項ロジスティック回帰(分類)
- 多項ロジスティック回帰(分類)
- K 平均法クラスタリング(データセグメンテーション)
- 行列分解(商品のレコメンデーションシステムの作成)
- 時系列(時系列予測)
- ブーストツリー(XGBoost ベースの分類モデルと回帰モデルの作成)
- ディープ ニューラル ネットワーク(DNN)
- Vertex AI AutoML Tables
- TensorFlow モデルのインポート
- オートエンコーダ
クラウド上のデータ分析
BigQuery Omniの機能を利用すれば、さまざまなクラウド上のデータを分析し、共有することが可能です。
BigQuery Omniではクラウド同士でデータがコピーすることなく、同じリージョンでクエリが実行されるので、分析された情報を素早く取得できます。
また、サーバーレスのアーキテクチャであり、リソースの準備やクラスタシステムの管理は不要です。
クエリのデータフロー
・AWS、Azure上のデータに対してBigQueryからクエリを実行できる
・Google Cloudのアーキテクチャの解説
BigQueryのアーキテクチャでは、コンピューティングとストレージが分離されているため、必要に応じてスケールアウトが可能で、大量のワークロードを処理できます。
高速のリアルタイム分析
BigQuery BI Engineの機能では、ストリーミングデータを取り込み、1秒未満のレスポンスでクエリを実行できます。
メモリ内にBigQuery内のデータを展開し解析処理をおこなうため、BigQuery単体でデータを処理するより高速に結果を得ることが可能です。
またLooker Studioと相性がいいので、スプレッドシートなどでLooker Studioを利用しているユーザーは、移行するとこれまで以上にできることが増えます。
データの統合・管理・統制
BigQueryは、構造化や半構造化、非構造化のデータすべてでクエリが可能です。
BigLakeを使えば、データ型の統合や探索、高度なモデルの構築を実現できます。
Dataplexも併用すると、データレイク、データウェアハウスなどを対象にしたデータを一元的に検出や統制などができ、大規模な分析を強化することが可能です。
位置情報を利用した分析の拡張
BigQueryでは、地理空間を分析できる機能もあります。地理データ型と地理関数を使い、地理空間データを分析して可視化することが可能です。
地理空間分析は、公園の保全管理やオンデマンドバス、農業、教育、防災など、幅広いジャンルで活用されています。
BigQueryの料金体系
BigQueryの料金体系は以下のとおりです。
課金項目 | 料金 | 無料の条件 |
---|---|---|
アクティブストレージ | $0.020/GB | 毎月10GBまで無料 |
長期保存 | $0.010/GB | 毎月10GBまで無料 |
BigQuery Storage API | $1.1/TB | – |
ストリーミング挿入 | $0.010200MB | – |
クエリ(オンデマンド) | $5.00/TB | 毎月1TBまで無料 |
クエリ(月定額) | $2,000/100slots | – |
クエリ(年定額) | $1,700/100slots | – |
※参照:料金 | BigQuery: クラウド データ ウェアハウス | Google Cloud
(※東京(asia-northeast1)の料金を参照)
BigQueryは上記以外の操作について料金が発生しません。
さらに、データを1TB保存しても月額$20.00、月間10TBのクエリを処理しても月額$50.00、毎月最初の1TBのクエリ処理は料金がかからないため、低価格で利用できるデータ解析サービスといえます。
BigQueryの3つのメリット
BigQueryを利用すれば以下のようなメリットを得られます。
- 専門知識がなくても導入しやすい
- 料金は利用した分だけ
- データの分析が高速
専門知識がなくても導入しやすい
BigQueryはデータベースの専門知識がなくても導入しやすいメリットがあります。
通常のデータウェアハウスのデータベースでは、チューニングする必要がありますが、BigQueryの場合、サーバーレスで利用できるのでチューニング作業は不要です。
また、従来のデータベースのクエリでは必須だったインデックスも必要なくなり、データベースの専門知識がない場合でも、規模の大きいデータの分析が可能です。
料金は利用した分だけ
BigQueryの2つ目のメリットは、分析用のデータウェアハウスを作成する目的で各サービスの集計データ(≠ログデータ)を格納してクエリする形であれば、ストレージ料金・クエリ料金ともに毎月相応の無料枠が用意されているため、ある程度無料で利用できるところです。
Excelやスプレッドシートでおこなっている作業をBigQueryに移行する程度であれば、ほとんど費用はかかりません。利用頻度が低くても導入しやすいのがBigQueryの大きなメリットです。
データの分析が高速
BigQueryは、超高速かつ大規模なクエリ処理を実現しています。
データを列単位で読み込むため、行単位で読み込む一般的なデータベースより処理速度が速いです。
BigQueryの2つのデメリット
メリットの多いBigQueryですが、以下のようなデメリットもあります。
- 節約には工夫が必要
- 使いこなすのに時間がかかる可能性
節約には工夫が必要
BigQueryの使い方によっては、費用がかさんでしまう可能性があるため注意しましょう。
BigQueryはクエリで処理するデータ量に応じて課金される仕組みなので、想定以上に費用がかかるケースもあります。
費用を節約するためには、以下のようにクエリ処理の最適化をおこないましょう。
- 対象データを絞る
- 課金上限を設定する
- キャッシュを使う
- テーブルを分割しコスト削減
使いこなすのに時間がかかる可能性
BigQueryのデメリットは、慣れるまでに時間がかかる可能性があることです。
直感的に使いやすい工夫はされているものの、SQLに関する知識がない場合は、なにをしたらよいのかわからない可能性があります。
BigQueryを利用していて困ったときは、Google Cloud上にあるマニュアルを活用しましょう。またChat GPTなどの生成系AIは目的に応じたSQLの作成も得意であるためBigQueryと併用するユーザーも増えています。
BigQueryを利用する流れ
BigQueryを利用するときは、以下の流れで進めましょう。
- Google Cloud Platformに登録
- ログインしてBigQueryを起動
- データをアップロードして分析
Google Cloud Platformに登録
BigQueryに登録するために、Google Cloudと契約する必要があります。
まずは、BigQueryの公式サイトから、「BigQueryの無料トライアル」ボタンをクリックしましょう。
続いて、画面の指示に従い以下の情報を入力します。
- アカウント情報
- IDの確認と連絡先情報
- お支払い情報
入力が完了したら、「続行」をクリックするとGoogle Cloudの登録が完了します。
ログインしてBigQueryを起動
Google Cloudへの登録完了後、画面左上に表示されるナビゲーションから、ビッグデータの項目で「BigQuery」を選択します。
そうするとBigQueryの管理画面が開きます。これでBigQueryを利用するためのアカウント準備は完了です。
データをアップロードして分析
BigQueryでデータを分析するときの流れは以下のとおりです。
- 画面上部の「新しいプロジェクト」をクリックし、名前をつけてプロジェクトを作成
- プロジェクト名の右側にある「アクションを表示」から「データセットを作成」をクリック
- 作成画面からデータセットIDやロケーションタイプなどを設定し、「データセットを作成」をクリック
- データセット名の横にある「アクションを表示」から「テーブルを作成」をクリック
- 作成画面からテーブルの作成元やアップロードするデータなどを設定し、「テーブルを作成」をクリック
- 「プレビュー」を選択し、読み込んだデータの内容を確認
- データを解析するときは「クエリ」ボタンをクリック
- クエリをエディタ画面に入力し「実行」をクリック
上記の手順によって、データの読み込みや分析が可能です。
BigQueryの導入で迷う際の対策
初めてBigQueryを導入する際は、本当に利用すべきサービスなのか迷ってしまう方も少なくありません。
ここでは、BigQueryの導入で迷う際の対策を3つご紹介します。
- 求めている分析結果を得られるか検討
- 他のデータ分析サービスと比較
- デジタルツール導入の支援サービスを利用
求めている分析結果を得られるか検討
BigQueryの公式サイトを確認し、必要な分析が可能なのか確認することが大切です。
会社によって分析結果をどう活用するのかが異なり、活用方法に合った分析サービスを選ぶ必要があります。
そのため、BigQueryではどのような結果を得られるのかや、分析の詳細なデータの提供があるのかを事前に確認しましょう。
まずは、社内でデータ分析の目的を明確にしておくことをおすすめします。
他のデータ分析サービスと比較
BigQueryの導入で迷ったら、別のデータ分析サービスと比べてみることもおすすめです。
BigQueryのみをチェックしただけでは、本当によいサービスなのか判断できません。
複数のサービスを機能や料金、使いやすさなどで総合的に判断してデータ分析サービスを導入しましょう。
デジタルツール導入の支援サービスを利用
デジタルツールの導入をサポートしてくれるサービスに相談すれば、BigQueryが自社に合っているのかすぐに判断できます。
BigQueryを導入すべきか判断に迷ったら、ぜひアンドデジタルにご相談ください。
アンドデジタルは、以下のサポートをワンストップでおこなっている会社です。
- 現状把握・課題分析
- 要件定義
- 最適なソリューション選定
- 導入
- 定着化支援
- 活用支援
- 課題に応じた解決策の立案
アンドデジタルであれば、デジタルツールの導入で終わらず定着や活用するためのサポートもあるため、初めて導入する場合も安心です。
まとめ
多くの企業で導入されているBigQueryは、MLモデルの構築・運用やクラウド上のデータ分析、データの統合・管理・統制などの機能を備えており、超高速かつ大規模なクエリ処理を実現できます。
クエリで処理するデータ量に応じて費用がかかりますが、節約するためにはクエリ処理の最適化をおすすめします。
導入すべきか迷った際は、アンドデジタルに気軽にご相談ください。アンドデジタルは、デジタルツールの導入から活用支援まで、ワンストップでサポートしています。