머신러닝 모델에 훈련 데이터를 주입하기 전에 가공하는 단계
훈련 세트의 스케일을 바꾸는 대표적인 방법 중 하나, 표준 점수를 얻으려면 특성의 평균을 빼고 표준 편차로 나눈다. 반드시 훈련 세트의 평균과 표준편차로 테스트 세트를 바꿔야 한다.
크기가 다른 넘파이 배열에서 자동으로 사칙 연산을 모든 행이나 열로 확장하여 수행하는 기능이다.
- train_test_split()
- 훈련 데이터를 훈련 세트와 테스트 세트로 나누는 함수
- 여러 개의 배열을 전달할 수 있다
- 테스트 세트로 나눌 비율은 test_size 매개변수에서 지정할 수 있고 기본 값은 0.25이다.
- kneighbors()
- k-최근접 이웃 객체의 메서드
- 입력한 데이터에 가장 가까운 이웃을 찾아 거리와 이웃 샘플의 인덱스 반환
- return_distance 매개변수를 False로 지정하면 이웃 샘플의 인덱스만 반환하고 거리는 반환하지 않는다.
- 매개변수의 기본값은 True이다.