File tree Expand file tree Collapse file tree 1 file changed +25
-3
lines changed Expand file tree Collapse file tree 1 file changed +25
-3
lines changed Original file line number Diff line number Diff line change 11---
22layout : post
3- title : " 타이타닉 생존자 예측 "
3+ title : " 사이킷런 fit_transform, fit, transform "
44
55categories :
66 - learning log
1010toc : true
1111toc_sticky : true
1212
13- date : 2025-02-24 12:52:00 +0900
13+ date : 2025-02-27 12:52:00 +0900
1414---
1515
16- # 사이킷런으로 수행하는 타이타닉 생존자 예측
16+ ## sklearn에서의 fit과 transform
17+ - fit : 학습하다(기억하다)
18+ - transform : 변환하다(적용하다)
19+
20+
21+ #### 잘못된 학습 방법 (fit_transform을 훈련,테스트셋에 적용)
22+
23+ ⚠ 문제점
24+
25+ 훈련 데이터와 테스트 데이터에서 각각 fit()을 실행
26+ - → 훈련 데이터에서 구한 중앙값 ≠ 테스트 데이터에서 구한 중앙값
27+ - → 서로 다른 기준으로 결측값이 채워져서 일관성이 깨짐ㄴ
28+ ``` python
29+ X_train = imputer.fit_transform(housing_train_num) # 훈련 데이터에서 fit & transform
30+ X_test = imputer.fit_transform(housing_test_num) # 테스트 데이터에서 fit & transform
31+ ```
32+
33+ #### 제대로된 학습 방법 (fit과 transform을 따로 적용)
34+ ``` python
35+ imputer.fit(housing_train_num) # 훈련 데이터에서 fit() 실행 (중앙값 학습)
36+ X_train = imputer.transform(housing_train_num) # 학습한 중앙값으로 변환
37+ X_test = imputer.transform(housing_test_num) # 같은 중앙값을 테스트 데이터에도 적용
38+ ```
You can’t perform that action at this time.
0 commit comments