Skip to content

Latest commit

 

History

History
20 lines (19 loc) · 1.32 KB

2-2_데이터_전처리_박제인.md

File metadata and controls

20 lines (19 loc) · 1.32 KB

데이터 전처리

머신러닝 모델에 훈련 데이터를 주입하기 전에 가공하는 단계

표준 점수

훈련 세트의 스케일을 바꾸는 대표적인 방법 중 하나, 표준 점수를 얻으려면 특성의 평균을 빼고 표준 편차로 나눈다. 반드시 훈련 세트의 평균과 표준편차로 테스트 세트를 바꿔야 한다.

브로드 캐스팅

크기가 다른 넘파이 배열에서 자동으로 사칙 연산을 모든 행이나 열로 확장하여 수행하는 기능이다.


scikit-learn

  • train_test_split()
    • 훈련 데이터를 훈련 세트와 테스트 세트로 나누는 함수
    • 여러 개의 배열을 전달할 수 있다
    • 테스트 세트로 나눌 비율은 test_size 매개변수에서 지정할 수 있고 기본 값은 0.25이다.
  • kneighbors()
    • k-최근접 이웃 객체의 메서드
    • 입력한 데이터에 가장 가까운 이웃을 찾아 거리와 이웃 샘플의 인덱스 반환
    • return_distance 매개변수를 False로 지정하면 이웃 샘플의 인덱스만 반환하고 거리는 반환하지 않는다.
    • 매개변수의 기본값은 True이다.