Spark から Azure Data Lake Storage Gen2 のファイルを開きたかったのでメモ Pyspark 実行時に依存ライブラリを指定すればインストールしてくれる。 使ってる Spark […]
続きを読む「Data Engineering」カテゴリーアーカイブ
PostgreSQL: dvdrental を Dimensional Model にする
Dimensional Model のデモ環境が欲しかったのでメモ。 こないだ立てた PostgreSQL のサンプルデータベースがあるので、これをスタースキーマにする。 だいぶ前に Ralph Kimba […]
続きを読むSpark から S3 にアクセスする
Spark から S3 のファイルを開きたかったのでメモ ~/.profile に AWS Access Key と Secret を追加する。 下記の replace_here は正しいキーとシークレット […]
続きを読むSpark から Google Cloud Storage にアクセスする
Spark から GCS のファイルを開きたかったのでメモ gcs-connector-hadoop3-latest.jar をダウンロードして使う。 続いて .profile に GCP Service […]
続きを読むUbuntu 22.04: Spark をインストール
Spark 使うのでメモ。 毎度俺しか使わないのでホームディレクトリに入れる。 とりあえず Hadoop をインストールしておく。 参考: Ubuntu 22.04: Hadoop をインストール 1. ダ […]
続きを読むUbuntu 22.04: Hadoop をインストール
いまさら Hadoop. Spark のローカルストレージとして使うのでメモ。 俺しか使わないのでホームディレクトリに雑にセットアップする。 1. Java を入れる まだインストールしてなければ↓を参考に […]
続きを読むPython で CSV セル内の改行を除去
CSV の中に改行を含むセルがあってそれを除去したかったのでメモ。 改行を含むセルはダブルクオートで囲まれている。 Python3 でこうすれば OK.
続きを読むGCP Professional Data Engineer 資格の有効期限を更新
GCP 認定試験の Data Engineer 資格の有効期限を更新したのでメモ。 毎度 GCP の試験は何点だったか教えてくれないけど合格。 前職の時は日本語で受験したが、今回は英語版試験を受験した。 & […]
続きを読むAWS Database Specialty 試験 (DBS-C01) に合格した
AWS認定試験の DBS-C01 AWS Database Specialty 試験に合格したのでメモ。 スコアは 768 点でギリギリ合格。※合格ラインは 750 点 他の試験と同じく、今回も英語版試験を […]
続きを読むAWS Data Analytics Specialty (DAS-C01) 試験に合格した
AWS認定試験の DAS-C01 AWS Data Analytics Specialty 試験に合格したのでメモ。 スコアは 842 点で合格。※合格ラインは 750 点 英語版試験を受験した。 &nbs […]
続きを読む