Knowledge for Data Analysis
-
[데이터 과학을 위한 통계] 탐색적 데이터 분석/EDA 과정Knowledge for Data Analysis/통계 공부 2021. 9. 6. 22:58
[ 탐색적 데이터 분석: EDA ] 교재: 데이터 과학을 위한 통계(2판) 우리는 사물 인터넷(IoT, Internet of things) 세상에 살고 있다. 그 안에서 텍스트, 이미지, 비디오 등 수많은 소스로부터 비정형(=가공되지 않은) 데이터를 얻고 있다. 데이터 분석을 위해서는 정형 데이터로 변환 을 해야하고 분포를 확인 하는 과정이 매우 중요하다. 📍EDA(Exploratory Data Analysis, 탐색적 데이터 분석) 데이터를 이해하기 위해서 그래프, 통계자료를 이용하여 자료를 직관적으로 해석하는 과정이다. EDA 과정을 보기 전에, 정형 데이터와 테이블 데이터에 대해서 먼저 정리하자. ▪️정형 데이터의 종류 (1) 수치형 데이터 연속형 - 풍속, 시간 같은 연속적인 숫자 이산형 - 사건..
-
[Binary classification : Tabular data] / 3rd level / ROC-AUCKnowledge for Data Analysis/통계 공부 2021. 8. 4. 13:24
[Binary classification : Tabular data] 이 문제에서 모델의 성능을 확인하기 위해 📈ROC-AUC 지표를 확인하고 있다. ROC-AUC를 이해하기 위해 필요한 개념들을 알아보자. 1️⃣ Positive, Negative의 기준은 어떻게 세우나? 일반적으로 예측해야 하는 것을 Positive 레이블로 설정한다. *악성 종양이나 아니냐? → 악성 종양을 예측하는 것이 중요하다. → (Positive) 악성 종양 / (Negative) 악성이 아닌 종양 *대출 상환 가능한지? → 대출 상환을 못하는 사람을 찾는 것이 중요하다. → (Positive) 대출 상환 못하는 경우 / (Negative) 대출 상환 가능한 경우 2️⃣ TP, TN, FP, FN이란? 🗣해석 방법 : (앞)예..
-
[Binary classification : Tabular data] / 3rd level / 지도학습Knowledge for Data Analysis/통계 공부 2021. 8. 3. 20:49
Kaggle Study Binary Classification: Tabular data 3rd level. Home Credit Default Risk Introduction: Home Credit Default Risk Competition Introduction to Manual Feature Engineering Stacking Test-Sklearn, XGBoost, CatBoost, LightGBM LightGBM 7th place solution 💡Tabular Data란? : 표로 구성된 데이터를 의미하며, 데이터의 가장 일반적인 형태라고 볼 수 있다. 1️⃣ 문제 설명 분석 목표: 과거 대출 신청 데이터를 분석하여 신청자가 미래에 대출을 상환할 수 있는지 예측한다. 학습 방법: 지도 학습의..
-
[Kaggle Study Curriculum] 캐글 스터디 커리큘럼Knowledge for Data Analysis/통계 공부 2021. 8. 3. 14:46
👍 최근 가장 많은 관심을 받고 있는 분야는 AI/데이터분석 직무일 것이다. 요즘 다수의 기업에서 데이터분석 직무가 새로 생기고 있거나, 예전에 비해 직무에 대한 전문성을 많이 요구하고 있다. 👩💻 21년 상반기 취업을 준비하면서 대부분의 데이터 직무에서 코딩 테스트 시험이 추가된 것을 볼 수 있었다. 그 중 KB국민은행의 코딩 테스트에 합격을 했었는데, 일반 코딩과 SQL 문제가 각각 2개씩 나왔었다. 확실히 예전에 비해 코딩에 대한 직무적 역량이 요구 됨을 느낄 수 있었다. 하반기 취업에서는 일반 코딩 테스트 와 데이터 분석 코딩 테스트 를 준비할 계획이다. 🗓 현재 진행하고 있는 데이터 분석 스터디에서는 아래의 커리큘럼을 참고하고 있다. 그럼, 커리큘럼에 맞춰 시작해보자. 스터디 커리큘럼 📍Bin..
-
텍스트 정규화-어간 추출과 표제어 추출Knowledge for Data Analysis/딥 러닝을 이용한 자연어 처리 입문 2020. 8. 2. 18:41
텍스트 전처리를 위한 정규화 표기가 다른 단어들의 통합 / 대, 소문자 통합 / 불필요한 단어 제거 / 정규 표현식 이번 시간에는 표기가 다른 단어들을 통합하는 방법인 어간 추출(stemming)과 표제어 추출(lemmatization) 에 대해서 배울 것이다. https://wikidocs.net/21707 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net