Spark から Google Cloud Storage にアクセスする

 
Spark から GCS のファイルを開きたかったのでメモ

gcs-connector-hadoop3-latest.jar をダウンロードして使う。

wget https://storage.googleapis.com/hadoop-lib/gcs/gcs-connector-hadoop3-latest.jar
cp gcs-connector-hadoop3-latest.jar $SPARK_HOME/jars

続いて .profile に GCP Service Account JSON Keyfile のパスを追加する。

# vim ~/.profile
export GOOGLE_APPLICATION_CREDENTIALS="${HOME}/gcp.json"

Pyspark でアクセスする。

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("ReadFromGCS") \
    .getOrCreate()

df = spark.read.csv("gs://orenomemo-gcs-test/orders.csv", header=True, inferSchema=True)
df.show()

参考サイト:
Cloud Storage connector | Dataproc Documentation | Google Cloud
hadoop-connectors/gcs/INSTALL.md at master · GoogleCloudDataproc/hadoop-connectors · GitHub