Ubuntu 22.04: Spark をインストール

Spark 使うのでメモ。

毎度俺しか使わないのでホームディレクトリに入れる。
とりあえず Hadoop をインストールしておく。

1. ダウンロード

Apache 公式サイトでバージョンを選んでダウンロードする。

spark-3.4.2-bin-hadoop3.tgz を選んだ。

続いてインストール

tar -zxf spark-3.4.2-bin-hadoop3.tgz
mv spark-3.4.2-bin-hadoop3 ~/spark

.profile に環境変数を追加

# vim ~/.profile
export SPARK_HOME=$HOME/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYSPARK_PYTHON=/usr/bin/python3

追記したら source で読み込む

source ~/.profile

Master と Worker を起動する。

start-master.sh
start-worker.sh spark://localhost:7077

これで起動完了。
あとは、 spark-shell または pyspark コマンドで対話シェルを起動してお手軽に使う。