Skip to content

Commit bb34910

Browse files
committed
Update 2025-02-24-타이타닉 생존자 예측.md
1 parent f1bf3a2 commit bb34910

File tree

1 file changed

+25
-3
lines changed

1 file changed

+25
-3
lines changed
Lines changed: 25 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -1,6 +1,6 @@
11
---
22
layout : post
3-
title : "타이타닉 생존자 예측"
3+
title : "사이킷런 fit_transform, fit, transform"
44

55
categories:
66
- learning log
@@ -10,7 +10,29 @@ tags:
1010
toc: true
1111
toc_sticky: true
1212

13-
date: 2025-02-24 12:52:00 +0900
13+
date: 2025-02-27 12:52:00 +0900
1414
---
1515

16-
# 사이킷런으로 수행하는 타이타닉 생존자 예측
16+
## sklearn에서의 fit과 transform
17+
- fit : 학습하다(기억하다)
18+
- transform : 변환하다(적용하다)
19+
20+
21+
#### 잘못된 학습 방법 (fit_transform을 훈련,테스트셋에 적용)
22+
23+
⚠ 문제점
24+
25+
훈련 데이터와 테스트 데이터에서 각각 fit()을 실행
26+
- → 훈련 데이터에서 구한 중앙값 ≠ 테스트 데이터에서 구한 중앙값
27+
- → 서로 다른 기준으로 결측값이 채워져서 일관성이 깨짐ㄴ
28+
```python
29+
X_train = imputer.fit_transform(housing_train_num) # 훈련 데이터에서 fit & transform
30+
X_test = imputer.fit_transform(housing_test_num) # 테스트 데이터에서 fit & transform
31+
```
32+
33+
#### 제대로된 학습 방법 (fit과 transform을 따로 적용)
34+
```python
35+
imputer.fit(housing_train_num) # 훈련 데이터에서 fit() 실행 (중앙값 학습)
36+
X_train = imputer.transform(housing_train_num) # 학습한 중앙값으로 변환
37+
X_test = imputer.transform(housing_test_num) # 같은 중앙값을 테스트 데이터에도 적용
38+
```

0 commit comments

Comments
 (0)