外部でホストされている Kafka からのメッセージを Cloud Dataflow を使用して処理する

この記事では、Dataflow と KafkaIO を使用してメッセージを処理する場合に考慮すべき重要なネットワーキング関連の問題について説明します。この場合、Kafka は Google Cloud の外部にありますが、Dataflow を使用して Google Cloud の内部でメッセージを処理します。Kafka Apache Beam 変換のリリースにより、Apache Beam と Dataflow の機能を使用して Kafka からのメッセージを処理できるようになりました。次の図に、一般的なシナリオの 1 つを示します。このシナリオでは Dataflow を使用してメッセージを処理しますが、Kafka がホストされる場所はオンプレミスのときもあれば、別のパブリッククラウド、たとえば Amazon Web Services（AWS）のときもあります。

Google Cloud の外部で Kafka メッセージを処理する

ネットワークトポロジ

Google Cloud 上のリソースと Google Cloud 以外のリソースをリンクするには、さまざまな接続オプションがあります。

RFC 1918 ベース
- Dedicated Interconnect
- IPsec 仮想プライベートネットワーク（VPN）
パブリック IP ベース
- 公共のインターネット
- ダイレクトピアリング
- キャリアピアリング

Google Cloud では、予測可能なパフォーマンスと信頼性という点で Dedicated Interconnect が最良のオプションですが、サードパーティが新しい回線をプロビジョニングする必要があるため、セットアップに時間がかかることがあります。VPN ベースのトポロジを使用している場合は、ハイスループット VPN のセットアップを検討してください。Dedicated Interconnect と IPsec VPN の両方式は、Virtual Private Cloud（VPC）の RFC 1918 IP アドレスに直接アクセスできるため、Kafka の構成を簡素化できます。パブリック IP ベースのトポロジでは、必要となるネットワーキング作業がほとんどないため、すぐに使い始めることができます。

どちらのトポロジでも、Dataflow インスタンスと同じサブネットワーク内の、別の Compute Engine インスタンスの Kafka クライアントからメッセージを送受信して、接続を検証することをおすすめします。

ストリームを処理するワークロードでは、レイテンシも重要な考慮事項です。Dataflow が利用可能な Google Cloud リージョンをよく確認して、Kafka クラスタの近くにある Google Cloud リージョンを選択します。ネットワークパフォーマンスを最適化するためのヒントについては、Google Cloud ネットワークのパフォーマンスを向上させるための 5 つのステップをご覧ください。

共有 RFC 1918 アドレス空間

ここでは、次の図に示すネットワークトポロジについて説明します。

共有 RFC 1918 アドレス空間

Dataflow サブネットワークの指定

デフォルトでは、Dataflow はデフォルトの VPC ネットワークでインスタンスを起動します。この動作は、外部でホストされている Kafka クラスタにパブリック IP アドレスで到達できる場合には有効です。プライベートネットワークトポロジで、Cloud Router で明示的に定義されたルートによって Google Cloud 内のサブネットワークが Kafka クラスタに接続されている場合は、Dataflow インスタンスをどこに配置するかを自分で制御できることが必要になります。次のコードサンプルに示すように、Dataflow を使用して network と subnetwork の実行パラメータを構成できます。

mvn compile exec:java \
    -Dexec.mainClass=[YOUR_PIPELINE_JAVA_CLASS] \
    -Dexec.args="--project=[YOUR_GCP_PROJECT]
    --network="[YOUR_DATAFLOW_NETWORK]" \
    --subnetwork="[YOUR_DATAFLOW_SUBNET]" \
    --runner=DataflowRunner"

対応するサブネットワークで、Dataflow がスケールアウトを目的にインスタンスを起動する際に十分な数の IP アドレスを使用できることを確認してください。また、Dataflow インスタンスを起動するために別のネットワークを作成する場合は、プロジェクト内のすべての仮想マシン間の TCP トラフィックを有効にするファイアウォールルールを設定するようにしてください。このファイアウォールルールは、デフォルトのネットワークにはすでに構成されています。

Dataflow と Kafka 間の通信

プライベートネットワークトポロジでは、通常通りに Kafka を構成して、可用性、セキュリティ、耐久性を確保するためのベストプラクティスに従います。

パブリック IP アドレス空間

次の図は、公共のインターネットからアクセスできる、3 つの Kafka ブローカーからなるクラスタを安全にホストするためのアーキテクチャの例を示しています。

パブリック IP アドレス空間

Dataflow の構成

トラフィックは公共のインターネットで送受信されるため、ネットワークやサブネットワークを構成する必要はありません。ただし、プライベートネットワークトポロジの場合は、Dataflow ネットワークから対応する Kafka クラスタのパブリック IP アドレスへのルートが存在する限り、ネットワークとサブネットワークを指定できます。

Kafka の構成

上の図に示すアーキテクチャでは、セキュアソケットレイヤ（SSL）を使用して外部クライアントと Kafka 間のトラフィックを保護し、ブローカー間の通信に平文を使用します。Kafka リスナーが、内部通信と外部通信の両方に使用されるネットワークインターフェースにバインドする場合、リスナーを構成するのは簡単です。ただし、AWS にデプロイする場合などの多くのシナリオでは、外部にアドバタイズされる、クラスタ内の Kafka ブローカーのアドレスは、Kafka が使用する内部ネットワークインターフェースのものとは異なります。このようなシナリオでは、このサンプルの server.properties スニペットに示す advertised.listeners プロパティを使用できます。

# Configure protocol map
listener.security.protocol.map=INTERNAL:PLAINTEXT,EXTERNAL:SSL

# Use plaintext for inter-broker communication
inter.broker.listener.name=INTERNAL

# Specify that Kafka listeners should bind to all local interfaces
listeners=INTERNAL://0.0.0.0:9092,EXTERNAL://0.0.0.0:9093

# Separately, specify externally visible address
advertised.listeners=INTERNAL://kafkabroker-n.mydomain.com:9092,EXTERNAL://kafkabroker-n.mydomain.com:9093

この構成では、外部クライアントはポート 9093 を使用して SSL チャネル経由で接続し、内部クライアントはポート 9092 を使用して平文チャネル経由で接続します。advertised.listeners でアドレスを指定する際は、外部トラフィックでも内部トラフィックでも同じインスタンスに解決される DNS 名（このサンプルの場合は、kafkabroker-n.mydomain.com）を使用してください。パブリック IP アドレスは内部トラフィックでは解決できない可能性があるため、パブリック IP アドレスを使用すると機能しない場合があります。

次のステップ

Cloud Router 入門ガイドで詳細を学習する。
Google Cloud でのルーティングの概要を確認する。
Google Cloud ネットワークのパフォーマンスを向上させる 5 つのステップを読む。
Apache Kafka ブローカー構成を確認する。
Apache Kafka のセキュリティについて学習する。
内部トラフィックと外部トラフィックの分離に関する Kafka 改善案を確認する。
Google Cloud のその他の機能を試す。チュートリアルをご覧ください。

外部でホストされている Kafka からのメッセージを Cloud Dataflow を使用して処理する

ネットワーク トポロジ

共有 RFC 1918 アドレス空間

Dataflow サブネットワークの指定

Dataflow と Kafka 間の通信

パブリック IP アドレス空間

Dataflow の構成

Kafka の構成

次のステップ

ネットワークトポロジ