データエンジニア日記

データエンジニアの雑記

「データエンジニアの始まり」というエントリーを読んで

データエンジニアの始まり(翻訳) - satoshihirose というエントリー(翻訳)を読んで考えたことをメモ。 ちなみに元エントリーは https://medium.freecodecamp.org/the-rise-of-the-data-engineer-91be18f1e603 未だにデータエンジニアとデータサイエンテ…

Docker版のJupyter-notebookとRStudioのdocker-composeの例

(今回はデータエンジニアというより、分析基盤エンジニア的なエントリーです) 自分の担当システムでは解析者用にRStudioとJupyterNotebookをDockerコンテナで提供している。 (原始的にEC2にDockerとdocker-composeをインストールして、その上に都度コンテ…

EC2(EBS)のサイズ拡張が簡単になっていた件

AWS

会社で使っているサーバ(EC2)の容量がFullになっていた。 ここで動いているRStudioServerにブラウザ経由でログインできなくなったことにより発覚。*1 そこでそのEC2にアタッチされているEBSの拡張をしようと思った、、、のだが、 EC2を停止 該当EBSのスナ…

docker-composeメモ

Docker-compose系のコマンドのまとめ docker-composeファイルを置いたディレクトリで操作する。 全サービスのアップ Webサービスなどは-dオプションをつけて docker-compose up -d とする。全てのサービスが立ちあがる。 (正確にはコンテナを【作成】して【…

IAMRoleを使ったアクセスの有効時間が変更可能になった

AWS

元ネタは以下 aws.amazon.com 日本語解説はクラスメソッドさんのところより dev.classmethod.jp むしろ、自分はここで衝撃の事実 【IAMRoleを通してのアクセス許可は1時間だった】 ということを知りました! RedshiftでCOPYやUNLOADコマンドを打つ時にS3への…

あるマシンから別のEC2へポートフォワード(トンネリング)したい場合のsshコマンド

以下のような要望があったとする。 あるEC2(Linux)上のあるポート番号で動いているWebアプリケーションにつなぎたい。(例として9001番ポートとする) セキュリティ上、10022ポートでのSSH接続しか許可されていない。 このEC2へのSSHログインはできる。(ア…

Incrementさんのリモートワークのガイドラインがいい感じだった

zine.qiita.com こちらの真ん中あたりに 「リモートワークのガイドライン」 というのが実際に載っている。これ非常にいいですね。 議論のログを残すようにしましょう。特に、何らかの意思決定や問題解決が行われた場合などには、その過程を書き残しておくこ…

TalendOpenStudioで実現する無料(無償)のETLエコシステム

ETL

全体のアイディア 有償版のTalendはジョブの開発機能だけではなく、複数人で共通開発するための共有リポジトリやジョブ実行ターミナル(定期実行するWebアプリケーションの仕組み)がついている。 *1 僕も以前これを導入して利用したことはあるが、安定して…

自分の会社の分析システム

現在、自分が所属している会社のシステムの概略について書いておく。 使用しているデータベース Netezzaを利用しているがRedshiftにリプレースを進行中 利用ツール IBM SPSS Modeler Jupyter(Python) RSrudio(R) が中心。その他チーム外への簡易な分析プラッ…

Dockerのイメージは実際はどこにある?

タイトルの疑問が沸いたので整理 Linux上では 以下のサイトにばっちり書いてあった。 Dockerのイメージはどこにある? | SOTA /var/lib/docker 以下らしい Macbook上では VMで動いているらしいので、Finderなどのファイルシステム上では見えない。ちなみにVM…

Rundeck系情報まとめ

自分の会社のシステムでは一部Rundeckを採用している。 主に今までcrontabでキックしていたものを管理しやすくするためである。 cronで不満だった点 そのままではジョブが実行中なのか、完了したのか、異常終了したのかが把握しにくい点(別途ログ出しや監視…

brewでawsのcliをインストール

ずっとWindowsを使っていたエンジニアがMacbookを支給されたので、開発環境構築中 以下でインストール可能でした。 brew install awscli インストールしたあとはコマンド保管されるように以下のコマンドを打ちましょう。 (.bash_profileにも追記する事) co…

データエンジニアとは

データエンジニアという仕事についてデータサイエンティストと対比させて書いてみようと思います。 ここでは「データサイエンティスト」がどういった職業なのかは、大まかに知っている前提で話を進めます。 それこそ「データサイエンティスト」とググれば説…

data tech 2017雑感

event.shoeisha.jp 2017年11月2日 御茶ノ水ソラシティカンファレンスセンターにて 基調講演 次を見据え企業が備えておくべきデータ活用基盤とは? ~RDBMS、Hadoopの活用からディープラーニング・AI技術の今後まで~ enterprisezine.jp 次を見据えて企業が…