전체 글
-
[데이터 과학을 위한 통계] 탐색적 데이터 분석/EDA 과정Knowledge for Data Analysis/통계 공부 2021. 9. 6. 22:58
[ 탐색적 데이터 분석: EDA ] 교재: 데이터 과학을 위한 통계(2판) 우리는 사물 인터넷(IoT, Internet of things) 세상에 살고 있다. 그 안에서 텍스트, 이미지, 비디오 등 수많은 소스로부터 비정형(=가공되지 않은) 데이터를 얻고 있다. 데이터 분석을 위해서는 정형 데이터로 변환 을 해야하고 분포를 확인 하는 과정이 매우 중요하다. 📍EDA(Exploratory Data Analysis, 탐색적 데이터 분석) 데이터를 이해하기 위해서 그래프, 통계자료를 이용하여 자료를 직관적으로 해석하는 과정이다. EDA 과정을 보기 전에, 정형 데이터와 테이블 데이터에 대해서 먼저 정리하자. ▪️정형 데이터의 종류 (1) 수치형 데이터 연속형 - 풍속, 시간 같은 연속적인 숫자 이산형 - 사건..
-
[TOEIC Speaking/토스] 토익스피킹 시험장 분위기에 대한 모든 것✍️Certificate/기타 자격증 2021. 8. 31. 14:03
[TOEIC Speaking: 시험장의 모든 것] 토익스피킹 시험 2번을 보면서 느낀점과 TIP에 대해서 알려주려 한다. 토익스피킹 시험을 준비하는 사람들에게 많은 도움이 되길 바란다! 1️⃣ 시험장 ▪️내가 선택한 시험장: YBM 종로 CBT 센터 ▪️선택한 이유 - 집에서 가장 가까움 - 해당 시험장은 응시자 간에 칸막이가 잘 되어 있다는 얘기가 있었음 ▪️실제 후기 - 개인적으로 이 고사장을 매우 추천한다!! (⭐️⭐️⭐️⭐️⭐️) - 실제로 칸막이가 잘 되어 있어서 옆사람에게 신경이 쓰이지 않음 - 녹음 장비가 좋아서 비교적 깔끔하게 목소리 녹음이 되었음 ▪️시험장 고를 때 좋은 TIP - 위의 고사장이 아니더라도 "칸막이"가 있는 고사장을 선택하길 추천한다. 칸막이가 없으면 주위 사람들이 신경쓰..
-
[TOEIC Speaking/토스]토익스피킹 10일만에 Level6 (150점) 달성한 5단계 공부법✍️Certificate/기타 자격증 2021. 8. 30. 17:36
[ TOEIC Speaking: Level 6-7 달성하기 ] 취업을 할때 TOEIC SPEAKING / OPIC 성적을 요구하는 경우가 많다. 두 가지 시험을 모두 쳐본 나로서는 TOEIC SPEAKING이 훨~~씬 쉬웠다. 나는 약 10일간 시험을 준비했고, 그 결과 Level6 (150점) 를 얻을 수 있었다. 나처럼 토익스피킹 공부를 처음 하는 사람들을 위해서 조금이나마 도움이 되기 위해 이 글을 쓴다. ※ 참고로, 나는 일반 취준생으로 정말 솔직하게 느꼈던 점만을 얘기한다. (아무런 광고 및 혜택 없음) ❓나에 대한 정보 - 토익 800 초중반 - 이공계 (이공계는 보통 토익스피킹 Level 6 / 오픽 IM 정도를 선호함) ❓이 글은 누구에게 도움이 되는가 - 토익스피킹 공부 방향을 잡고 싶은..
-
[Binary classification : Tabular data] / 3rd level / ROC-AUCKnowledge for Data Analysis/통계 공부 2021. 8. 4. 13:24
[Binary classification : Tabular data] 이 문제에서 모델의 성능을 확인하기 위해 📈ROC-AUC 지표를 확인하고 있다. ROC-AUC를 이해하기 위해 필요한 개념들을 알아보자. 1️⃣ Positive, Negative의 기준은 어떻게 세우나? 일반적으로 예측해야 하는 것을 Positive 레이블로 설정한다. *악성 종양이나 아니냐? → 악성 종양을 예측하는 것이 중요하다. → (Positive) 악성 종양 / (Negative) 악성이 아닌 종양 *대출 상환 가능한지? → 대출 상환을 못하는 사람을 찾는 것이 중요하다. → (Positive) 대출 상환 못하는 경우 / (Negative) 대출 상환 가능한 경우 2️⃣ TP, TN, FP, FN이란? 🗣해석 방법 : (앞)예..
-
[Binary classification : Tabular data] / 3rd level / 지도학습Knowledge for Data Analysis/통계 공부 2021. 8. 3. 20:49
Kaggle Study Binary Classification: Tabular data 3rd level. Home Credit Default Risk Introduction: Home Credit Default Risk Competition Introduction to Manual Feature Engineering Stacking Test-Sklearn, XGBoost, CatBoost, LightGBM LightGBM 7th place solution 💡Tabular Data란? : 표로 구성된 데이터를 의미하며, 데이터의 가장 일반적인 형태라고 볼 수 있다. 1️⃣ 문제 설명 분석 목표: 과거 대출 신청 데이터를 분석하여 신청자가 미래에 대출을 상환할 수 있는지 예측한다. 학습 방법: 지도 학습의..