Spark から GCS のファイルを開きたかったのでメモ
gcs-connector-hadoop3-latest.jar をダウンロードして使う。
wget https://storage.googleapis.com/hadoop-lib/gcs/gcs-connector-hadoop3-latest.jar cp gcs-connector-hadoop3-latest.jar $SPARK_HOME/jars
続いて .profile に GCP Service Account JSON Keyfile のパスを追加する。
# vim ~/.profile export GOOGLE_APPLICATION_CREDENTIALS="${HOME}/gcp.json"
Pyspark でアクセスする。
from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("ReadFromGCS") \ .getOrCreate() df = spark.read.csv("gs://orenomemo-gcs-test/orders.csv", header=True, inferSchema=True) df.show()
参考サイト:
Cloud Storage connector | Dataproc Documentation | Google Cloud
hadoop-connectors/gcs/INSTALL.md at master · GoogleCloudDataproc/hadoop-connectors · GitHub