교육/코칭스터디<Data Science Projects 2024>
-
3. 탐색한 데이터로 모델 성능 개선교육/코칭스터디<Data Science Projects 2024> 2024. 1. 27. 21:28
3.1 탐색한 데이터를 바탕으로 모델의 성능 개선하기 3.1.1 연속 수치 데이터를 범주형 변수로 변경하기 수치의 범위가 넓으면 수치형 변수의 조건이 너무 세분화되어 tree가 깊어짐 샘플의 수가 적으면 오버피팅(과적합)이 발생할 가능성 증가 =>수치형 데이터를 범주화하여 성능 개선 임신 횟수가 7회가 넘어가면 발병수가 높음, 이를 범주화 df["Pregnancies_high"]=df["pregnancies"]=6 #Pregnancies와 Outcome을 뺀 다른 feature들을 리스트 형태로 만듦 feature_names=train.columns.tolist() feature_names.remove("Pregnancies") feature_names.remove("Outcome") #Outcome을 ..
-
2. EDA를 통해 데이터 탐색하기교육/코칭스터디<Data Science Projects 2024> 2024. 1. 22. 14:27
2.1.1 당뇨병 데이터셋 미리보기 데이터 구성 Pregnancies : 임신 횟수 Glucose : 2시간 동안의 경구 포도당 내성 검사에서 혈장 포도당 농도 BloodPressure : 이완기 혈압 (mm Hg) SkinThickness : 삼두근 피부 주름 두께 (mm), 체지방을 추정하는데 사용되는 값 Insulin : 2시간 혈청 인슐린 (mu U / ml) BMI : 체질량 지수 (체중kg / 키(m)^2) DiabetesPedigreeFunction : 당뇨병 혈통 기능 Age : 나이 Outcome : 768개 중에 268개의 결과 클래스 변수(0 또는 1)는 1이고 나머지는 0입니다. #라이브러리 로드 import pandas as pd import numpy as np import se..
-
1. 분류모델 기초교육/코칭스터디<Data Science Projects 2024> 2024. 1. 13. 16:12
1. 분류모델 기초 1.1 사이킷런과 머신러닝 1.1.1 사이킷런 소개 사이킷런? 대표적인 파이썬 머신러닝 라이브러리 https://scikit-learn.org/stable/ scikit-learn: machine learning in Python — scikit-learn 1.3.2 documentation Model selection Comparing, validating and choosing parameters and models. Applications: Improved accuracy via parameter tuning Algorithms: grid search, cross validation, metrics, and more... scikit-learn.org 1.1.2 사이킷런 활용 흐..