#도수계산
df['a'].value_counts()
#a열의 도수 출력
#평균계산
np.mean(array)
#표준편차
stdev(array)
#히스토그램
plt.hist(array)
#bins라는 옵션을 줘서 계급의 개수 설정가능
02. 데이터 전 처리하기
#명목형 자료 수치형으로 매핑해서 변환
DataFrame.replace({A:B, C:D,...})
#예시
titanic.replace({'male':0,'female':1})
#명목형 자료 더미 형식으로 변환
pd.get_dummies(DataFrame[[변수명]])
#특정변수(columns)삭제
DataFrame.drop(columns=[변수명])
#결측값 샘플 제거
DataFrame.dropna()
#train, test 데이터 분리
X_train, X_test, y_train, y_test =
train_test_split(feature 데이터, label 데이터, test_size= 0~1 값, random_state=랜덤시드값)
03. 지도학습 - 회귀
#단순선형회귀
#1.데이터 전 처리
#scikit-learn 을 사용하면 Loss 함수를 최솟값으로 만드는 β0, β1을 쉽게 구할 수 있음
#X,y샘플 개수같아야함
#2.학습하기
#모델 객체를 불러와 초기화
lrmodel = LinearRegression()
#학습
lrmodel.fit(train_X, train_Y)
#β0,β1값 구하기
beta_0 = lrmodel.intercept_
beta_1 = lrmodel.coef_[0]
#3.예측하기
#예측
pred_X = lrmodel.predict(X)