Skip to content

kidae92/data_engineer_should_know

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

banner

데이터 엔지니어가 알아야 할 모든 것들을 정리합니다. 자료 출처는 각 문서의 하단을 참조하시기 바랍니다.

본 레포 문서는 기술블로그(https://dhkdn9192.github.io) 에서도 보실 수 있습니다.

Table of Contents


1. Data Engineering

데이터 엔지니어가 알아야 할 기술 질문

1-1. Hadoop Ecosystem

1-2. ELK Stack

1-3. Kubernetes and Docker

  • Docker
  • Kubernetes Cluster
    • Pod
    • Replica Set
    • Deployment
    • Service
    • Namespace

1-4. AWS


2. Computer Science

2-1. Operation System

2-2. Database

2-3. Network

2-4. Programming Language

2-5. Data Structure and Algorithm

2-6. common sense

  • MVC Pattern
  • 객체지향의 DTO, DAO, VO 개념 용어
  • Idempotence(멱등성)
  • 테스트 도구와 절차
  • 트래픽/트랜잭션량 측정
  • Singleton 패턴을 사용하는 이유

3. GoF Design Pattern and Architecture Pattern

GoF란 1995년에 출간된 "Design Patterns of Reusable Object-Oriented Software"라는 책의 저자들(Erich Gamma, Richard Helm, Ralph Johnson, John Vlissdes)를 의미한다.


4. Designing Data-Intensive Application

데이터 중심 애플리케이션 설계

  • OLTP와 OLAP

5. Fields of Study

머신러닝, 데이터분석 등 관심있는 연구 분야와 수행 프로젝트 정리

  • Anomaly Detection
  • Churn Prediction
  • NLP
  • Recommender System
  • ideas
    • PySpark 클러스터 환경에서 각 노드별 python package 일괄 관리 툴
    • Apache Nutch의 streaming 버전, Spark 기반의 웹 크롤러

Reference

About

데이터 엔지니어가 알아야 하는 것들

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 99.1%
  • Other 0.9%