ggg

minju0611 · minju0611 · commit 4529b10fe5d5 · 2025-01-27T04:04:28.000+09:00
diff --git a/_posts/2025-01-18-10.[Pandas] 10. 데이터 집계_분포와 통계량.md b/_posts/2025-01-18-10.[Pandas] 10. 데이터 집계_분포와 통계량.md
@@ -13,11 +13,11 @@ toc_sticky: true
 date: 2025-01-18 15:52:00 +0900
 ---
 
-***  데이터 리소스는 titanic_train.csv를 사용합니다.***
+**데이터 리소스는 titanic_train.csv를 사용합니다.**
 
 # 10. 데이터 집계_분포와 통계량
 
-## 집계란?
+### 집계란?
 - 모아서 계산한다.
 - 집계의 결과는 **무조건 1개**
 - 각 그룹별 N(N개의 레코드 수)를 집계하면 1개(통계값,대표값)이 나옴.
@@ -56,5 +56,30 @@ df.min(numeric_only=True)
 df.quantile(0.9, numeric_only = True) # 100개로 정렬 했을 때 90번째에 있는 값?
 ```
 
-## 변수의 상관관계 확인하기
+### 변수의 상관관계 확인하기 (찍먹)
+- 상관관계 분석 : 두 변수의 관련성을 구하는 것
+- 두 변수 간의 연관된 **"정도"**이지, **"인과관계"**를 설명하진 않는다. (인과관계를 설명하는 것은 **확률!!!**)
+- 상관계수 = 두 변수가 함께 변하는 정도(공분산) / 두 변수가 각각 변하는 정도(각 변수의 분산의 곱- 정규화)
+
+```python
+df.corr(numeric_only = True) # 숫자 값만 계산한다는 것
+```
+
+```python
+import seaborn as sns
+import matplotlib.pyplot as plt
+
+sns.heatmap(
+  df.corr(numeric_only = True),
+  annot=True # 표 위에 숫자 쓸까?-?
+)
+plt.show()
+```
+
+# 11. 데이터 집계
+
+titanic_train.csv 사용
+
+
+
 
diff --git a/_posts/2025-01-23-[Pandas] 07. 데이터가공 날짜.md b/_posts/2025-01-23-[Pandas] 07. 데이터가공 날짜.md
@@ -238,3 +238,65 @@ df2.loc[miss_mask]
 df2["Name"] = df2["Name"].str.replace(",", "⭐️")
 ```
 
+# 09. 데이터 결합 
+
+korean-idol_csv 사용
+
+## Concat
+### 1. row 기준 합치기
+- 행 인덱스 기준으로 합치기
+```python
+df1_concat = pd.concat([df1, df1_copy], axis = 0) # 아래쪽 방향으로 결합
+df1_concat.reset_index(drop=True) # 인덱스 리셋
+```
+### 2. Column 기준 합치기
+- concat에서 axis = 1로 설정
+
+```python
+df2_concat = pd.concat([df1, df2], axis = 1) # axis = 1 : 행 인덱스끼리 맞는 걸로 열방향으로 결합
+```
+```python
+df3 = df2.drop([3,5]) # 일부러 3,5 인덱스 행을 드랍시키고 결합해보자.
+pd.concat([df1, df3], axis=1 ) # 값이 결합 될 수 없는 곳엔 Nan값이 채워짐.
+```
+## Merge
+- `concat` : `row`나 `column` 기준으로 단순하게 이어 붙이기
+- `merge` : 특정한 고유 키(`unique id`) 값을 기준으로 **병합**
+
+#### pd.merge(left, right, on='기준 컬럼', how='left')
+- `left`, `right` : 병합할 두 DataFrame
+- `on` : 병합의 기준이 되는 컬럼의 이름, **기준이 된 데이터 프레임은 데이터의 삭제가 일어나지 않는다!!**
+- `how` : `left, right, inner, outer` 4가지 병합방식 설정
+
+### left, right
+- 기준이 왼쪽, 기준이 오른쪽
+
+```python
+pd.merge(
+  df1,
+  df2_right,
+  on = '이름',
+  how = 'left' # left에 위치한 df1이 기준이 된다. 기준이 된 데이터프레임은 데이터의 삭제가 일어나지 않음..!!!!!
+)
+
+pd.merge(
+    df1,
+    df2_right,
+    on = "이름",
+    how = 'right' # 기준이 오른쪽이 됨
+) 
+```
+### inner
+- `inner` : 두 데이터 프레임에 **모두** 키값이 존재하는 경우 병합
+
+```python
+pd.merge(df1_left, df2_right, on='이름', how="inner") # 왼,오 데이터프레임에 모두 키값(이름)이 존재하는 것만 병합!
+```
+
+### outer
+- `outer` : 하나의 데이터 프레임에 키값이 존재하는 경우 모두 병합
+  - 없는 값은 NaN값으로 대입
+
+```python
+pd.merge(df1_left, df2_right, on="이름", how="outer") # 한 쪽만 키값(이름)이 있어도 생성되고, 없는 값은 Nan값 처리
+```