UdacityのData Engineering Nanodegree Programの経過報告になります。
前回はこちら
Udacity Data Engineering 進捗状況
日本語でググったりして無理矢理終わらせた
全行程6の内の3番目、「3. Cloud Data Warehouses」の内の、Lesson1「Indroduction to Data Warehouses」が終わりました。
DWHはほとんど経験がなく予備知識もなかったので、かなり苦労しました。英語の動画やテキストだけだと、なかなか理解できないので、日本語でいろいろググったりしていたら時間がかかってしまいました。
ただ、DWHは日本語だとなかなか情報が出てこないですね。DBはいくらでもあるんですが。やはりテクノロジーというよりビジネスの特色が強いからでしょうか。Qiita内で検索すれば、有用な記事がいくつかあったので助かりました。
演習は半分ぐらい飛ばした
演習はSQLでデータを出し入れするだけのものだったので、半分ぐらい飛ばしてしまいました。この後のProjectで、おそらくやるだろうし、いいかなと判断しました。
この演習で与えられているER図は、画像ファイルなので、どこに何のデータがあるか検索できないんですよね。目視で探すしかないのが、かなりつらいです。演習を飛ばした一番の理由はこれだったりします。
学習内容まとめ
DWHについて何となく学んだ
DWHとは的なものからはじまって、データマート周りのアーキテクチャーをざっくり、そのあと、OLAPキューブについてって感じです。
OLAPキューブは動画だけみても、ほとんど理解できませんでした。この辺りは日本語での勉強で補強した感じです。
全体を通してあまり理解できてない感があります。やはりこういうのは実際に手を動かしながら経験を積んでいかないと、身につけられる気があまりしないです。
以下、まとめノートです。
SQL学び直そうと思った
あと今更ですが、SQLの知識がかなり求められるなって感じがします。今の所は、やっているのは複雑なものでもJOINして、GROUP BYなどでフィルターをかけるぐらいなので何とかなりますが、この先もっと複雑なものも書くケースが出てきそうな感じがします。
開発だとデータの出し入れはフレームワークがいい感じでやってくれるので、SQLの概念やSQLでできることを知っていれば、それほど困ることはありません。私もSQLは今までちゃんと勉強したことがなく、なんとなく使っているだけでした。
実際のデータエンジニアの業務では、SQLはがんがん使えないと務まらなさそうなので、この辺りも今更ではありますが、学びなおさなきゃなと思いました。
というわけで、以下の本ポチりました。
次は「Cloud Computing and AWS」
次のLessonはすぐに終わるかも♪
次のLessonは、CloudやAWSについてだそうです。
この辺りは本職なので、すでに知っていることだらけだと思うので、すぐに終わらせることができるのではと思っています。
