Study

【Udacity】データエンジニア勉強中 -データモデリング-【1】

1月からはじめている、UcacityのData Engineering Nanodegree Programの経過報告です。

Udacityのプログラム購入からはじめるまで

今年(2022年)の1月にUdacityのData Engineeringのプログラムを購入しました。

ですが、1月はここ数年で一番忙しいんじゃって思うぐらい仕事が立て込んでいてまったくできませんでした。今月になって少し落ち着いてきたので、ようやく着手できるようになりました。

Udacityはオンラインの学習サイトですが、購入から5ヶ月間しかアクセスできません。このペースだと間違いなく間に合わないので、少し焦っています😰

Udacityでの勉強方法

Udacityの提供コンテンツは、YouTubeの動画とテキストページからなります。

私は自宅のPCでコンテンツをみていますが、学生の講義みたく内容をノートに取っています。やっぱり書きながらのほうが頭に入っていきますし、ノートを取るという行為に少しノスタルジーを楽しんでいます。ノートは手書きではなく、GoodNotesというアプリを使っています。


余談ですが良い時代になりました。学習にこういったツールを利用できる現在の若者が羨ましいです。

ちなみにですが、まとめたノートは以下の様な感じです。

Udacity-DataEngineering2-1

Udacity Data Engineeringのコンテンツ

講座は全部で6のセクションから構成されています。最初のセクションは、Udacityの使い方や、データエンジニアの概要的なものなので実質は5セクションでしょうか。

私は今、セクション2の途中をやっているのですが、今回はセクション1の内容を振り返ってみます。

学習内容 1. Welcome to the Nanodegree Program

Overview

このデータエンジニアコースでこういったことを学習するよって説明があります。

Sparkify(?)という音楽サービスを提供する仮想会社で音楽データやユーザ行動のデータをあつかった5つの仮想プロジェクトをやるとのことです。この1プロジェクトが1セクションになっているようです。

内容は以下の通り。

  1. Data Modeling
    PostgreSQLとCasandraでユーザアクティビティデータをモデル化するとのこと
    (要するにチュートリアル的なDBを作るのでは?と思っています。)
  2. Cloud Data Warehouses
    S3からデータ抽出してRedshiftに格納、いわゆるETLをやるのかと
  3. Spark and Data Lakes
    ETLをSparkでやる
  4. Automate Data Pipeline
    Apach Airflowをつかって何かやるらしいです
  5. Capstone
    自分で何か作れ的なやつ

これらの説明を受けて、

1はエンジニアならほぼ誰でもできそう、
2も業務経験が少しあるので問題なさそう、
3,4はやったことがないので面白そう、
5は何かだるそう

っていうのが個人的な感想です。

データエンジニアとは

データエンジニアの仕事内容、カバーするべき業務領域の説明などの紹介がありました。

Software Engineerとデータアナリストの間に位置する領域で、生データをアナリストが使えるようにするのがミッションのようです。まあ、日本でいうデータ基盤担当のエンジニアって感じですね。

スキルセット的には以下のピンクの領域です。

自分に欠けているものを青線で引いてみました。緑のデータサイエンティストの領域はほぼ全部わかっていないので、線を引くまでもなかったです・・・

総論

とまあ、セクション1はこんな感じです。これからやることとデータエンジニアについてのちょっとした説明で終わりました。

それでもそれなりに時間を使いましたが。。。おそらく日本語だと1時間ぐらいで終わる内容なんでしょうが、英語といこともあり思いのほか、時間がかかってしました。この先、大丈夫なんだろうか・・・

次のセクションのData Modelingから実質的な学習に入っていくので、終わり次第、また振り返りたいと思います。