-
[Binary classification : Tabular data] / 3rd level / ์ง๋ํ์ตKnowledge for Data Analysis/ํต๊ณ ๊ณต๋ถ 2021. 8. 3. 20:49
Kaggle Study
Binary Classification: Tabular data
3rd level. Home Credit Default Risk
- Introduction: Home Credit Default Risk Competition
- Introduction to Manual Feature Engineering
- Stacking Test-Sklearn, XGBoost, CatBoost, LightGBM
- LightGBM 7th place solution
๐กTabular Data๋?
: ํ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ๋ฅผ ์๋ฏธํ๋ฉฐ, ๋ฐ์ดํฐ์ ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ํํ๋ผ๊ณ ๋ณผ ์ ์๋ค.
1๏ธโฃ ๋ฌธ์ ์ค๋ช
- ๋ถ์ ๋ชฉํ: ๊ณผ๊ฑฐ ๋์ถ ์ ์ฒญ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ์ฌ ์ ์ฒญ์๊ฐ ๋ฏธ๋์ ๋์ถ์ ์ํํ ์ ์๋์ง ์์ธกํ๋ค.
- ํ์ต ๋ฐฉ๋ฒ: ์ง๋ ํ์ต์ ๋ถ๋ฅ ๋ฌธ์
- ๋ถ๋ฅ ๋ฐฉ๋ฒ: 0(๋์ถ ์ํ ๊ฐ๋ฅ), 1(๋์ถ ์ํ ์ด๋ ค์)
2๏ธโฃ ๋ฐ์ดํฐ ์ค๋ช
- ์ฌ์ฉ ๋ฐ์ดํฐ: application_train/application_test
- ๋ฐ์ดํฐ ์๋ณ์ ์ปฌ๋ผ: SK_ID_CURR (๊ณ ๊ฐ๋ง๋ค ๊ฐ์ง๋ ๊ณ ์ ID๋ผ๊ณ ์๊ฐํ๋ฉด ๋จ)
- ๋ฐ์ดํฐ ์ ๋ต ์ปฌ๋ผ: TARGET (0: ๋์ถ ์ํํ์ 1: ์ํ ๋ชปํจ)
*๋์ถ ์ํ: ๋์ถ๋ฐ์ ์๊ธ๊ณผ ์ด์๋ฅผ ๊ฐ๋ ๋ฐฉ์
์ง๋ํ์ต๊ณผ ๋น์ง๋ ํ์ต
๐ก์ง๋ ํ์ต(Supervised Learning)๊ณผ ๋น์ง๋ ํ์ต(Unsupervised Learning)์ด๋?
1๏ธโฃ ์ง๋ ํ์ต
- ์ ๋ต์ ์๋ ค์ฃผ๊ณ ๋ถ์์ ์งํํ๋ค.
- ์์ธก์ด๋ ๋ถ๋ฅ๋ฅผ ํตํด ์ผ๋ง๋ ์ ๋ต์ ์ ๋ง์ท๋์ง๋ฅผ ํ์ธํ ์ ์๋ค.
- ์์ธก: Linear Regression
- ๋ถ๋ฅ: Decision Tree, Logistic Regression
2๏ธโฃ ๋น์ง๋ ํ์ต
- ์ ๋ต์ด ์ฃผ์ด์ง์ง ์๋๋ค.
- ์ ์ฌํ ๋ฐ์ดํฐ๋ค์ด ๊ตฐ์ง์ผ๋ก ๋๋ ์ง๊ฒ ๋ง๋ค์ด์ค๋ค.
- ๊ตฐ์งํ: K-Means Clustering, Text Mining