Update 2025-01-23-[Pandas] 07. 데이터가공 날짜.md

minju0611 · minju0611 · commit beac54561589 · 2025-01-27T03:04:05.000+09:00
diff --git a/_posts/2025-01-23-[Pandas] 07. 데이터가공 날짜.md b/_posts/2025-01-23-[Pandas] 07. 데이터가공 날짜.md
@@ -141,4 +141,100 @@ df['rolling_avg'] = df['value'].rolling(window=3).mean()
 | 5     | 2023-01-06 | 60    | [40, 50, 60]      | (40+50+60)/3 = 50.0 |
 | 6     | 2023-01-07 | 70    | [50, 60, 70]      | (50+60+70)/3 = 60.0 |
 
-ㄴ
+## 행 이동
+#### 각 행의 Temp 데이터를 한 칸씩 아래로 이동
+```python
+df['Time Shift1'] = df['Temp'].shift(1)
+
+# 이동한 결과 값을 빼서 어제와의 온도 변화 % 구하기
+df['pct change'] = (df['Time Shift1'] - df["Temp"]) / df['Temp']
+```
+
+# apply, map, 문자열
+
+titanic_train.csv 사용
+
+## apply
+- 사용자 정의 함수를 **데이터에 적용**할 때 사용
+- **레코드(행)**단위로 사용자 정의 함수 적용
+  - apply에 들어가는 함수는 반드시 **리턴**이 있어야 한다.
+
+#### 두 개의 다른 컬럼 값 비교
+- Pclass가 1이고, SibSp가 1이면 1, 아니면 0
+
+```python
+def pclass_sibsp(row): # 행 단위 계산
+  if row["Pclass"] == 1 and row["SibSp"] == 1:
+    return 1
+  else:
+    return 0
+
+  df1.["Pclass_sibsp_filter"] = df1.apply(pclass_sibsp, axis=1) # 열 방향으로 함수 적용
+```
+-lamda 함수와 삼항연산자를 사용해서 만들기
+
+```python
+df1["pclass_sibsp_lambda"] = df1.apply(
+  lambda row : 1 if row["Pclass"] == 1 and row["SibSp"] == 1 else 0, axis = 1
+)
+```
+#### 한 개의 컬럼
+- 성인인지 아닌지 
+  
+```python
+import numpy as np # nan값 리턴 때문에
+
+def adult(age):
+  if age >= 19:
+    return 1
+  elif age < 19:
+    return 0
+  else: 
+    return np.nan
+
+df1["adult_yn"] = df1["Age"].apply(adult) # 시리즈 하나에서만 비교기 때문에 axis = 0
+```
+- lambda 함수와 삼항연산자를 사용해서 만들기
+
+```python
+df1["adult_yn"] = df1["Age"].apply(lambda row : 1 if age >= 19 else 0 if age < 19 else np.nan)
+```
+## map
+- apply : 기능 실행 / map : mapping(맞춰준다, 1대1 변환 느낌)
+- 값을 특정 값으로 치환할 때 사용
+- logic적인 부분이 들어가면 map을 쓰지 못 함
+
+#### map -> dict
+```python
+gender_map = {
+  "male" : "남자",
+  "female" : "여자"
+}
+df1["Sex_kr"] = df1["Sex"].map(gender_map)
+```
+## 문자열 시리즈 다루기
+- 문자열 형태의 시리즈에서만 가능!!!
+ 
+메소드|설명|
+|---|---|
+|`.str.contains(문자열)`|문자열을 포함하고 있는지 유무|
+|`.str.replace(기존문자열, 대치문자열)`|문자열 대치|
+|`.str.split(문자열, expand=True/False, n=개수)`|특정 문자열을 기준으로 쪼개기|
+|`.str.lower()`|소문자로 바꾸기|
+|`.str.upper()`|대문자로 바꾸기|
+
+#### 이름에 'Miss'가 들어간 사람만 찾기 
+```python
+# 문자열을 담고 있는 series 반환
+df2["Name"].str.contains("Miss")
+```
+- mask 활용
+```python
+miss_mask = df2["Name"].str.contains("Miss")
+df2.loc[miss_mask]
+```
+#### 시리즈 값의 ","를 바꾸기
+```python
+df2["Name"] = df2["Name"].str.replace(",", "⭐️")
+```
+