Spark始めた初期につまづいたのでメモ。 結果の違いで覚えた。 まずはRDDを作る。 このRDDに対してmap 結果はこれ Array[Array[String]] = Array(Array(Some, People […]
続きを読む「Data Engineering」カテゴリーアーカイブ
Google BigQueryでタブ区切りTSVをインポート&エクスポート
すごいよく使うけどよく忘れるのでメモ TSVのインポート ※ヘッダあり・10行未満のエラーは無視 TSVでエクスポート ※ヘッダなし
続きを読むSpark ScalaでsortByKeyを降順にする
SparkでreduceByKeyしたあとにsortByKeyで降順にソートしたかったのでメモ sortByKey()の引数にfalseを渡す。
続きを読むGoogle Spreadsheetの1枚目シートをBigQueryの外部テーブルにする
社内の同テンプレのスプレッドシートまとめるのこれでやると楽だったのでメモ。 データセットは先に作っておかないと怒られる。 しかしこの方法はシート1枚目しか対応してない仕様。 複数シートも扱うならAppsScriptでBQ […]
続きを読む