Spark 使うのでメモ。
毎度俺しか使わないのでホームディレクトリに入れる。
とりあえず Hadoop をインストールしておく。
参考: Ubuntu 22.04: Hadoop をインストール
1. ダウンロード
Apache 公式サイトでバージョンを選んでダウンロードする。
spark-3.4.2-bin-hadoop3.tgz を選んだ。
2. インストール
続いてインストール
1 2 | tar -zxf spark-3.4.2-bin-hadoop3.tgz mv spark-3.4.2-bin-hadoop3 ~ /spark |
.profile に環境変数を追加
1 2 3 4 | # vim ~/.profile export SPARK_HOME=$HOME /spark export PATH=$PATH:$SPARK_HOME /bin :$SPARK_HOME /sbin export PYSPARK_PYTHON= /usr/bin/python3 |
追記したら source で読み込む
1 | source ~/.profile |
3. 起動
Master と Worker を起動する。
start-master.sh
start-worker.sh spark://localhost:7077
これで起動完了。
あとは、 spark-shell または pyspark コマンドで対話シェルを起動してお手軽に使う。