혼공단

[혼공단 11기] 혼공머신 3주차

kyj0015 2024. 1. 18. 13:44

<기본 미션>

Ch.04(04-1) 2번 문제 풀고, 풀이 과정 설명하기

2. 로지스틱 회귀가 이진 분류에서 확률을 출력하기 위해 사용하는 함수는 무엇인가요?

(1) 시그모이드 함수이다. 시그모이드 함수는 선형 방정식의 결과를 0과 1 사이로 만들어준다. 소프트맥스 함수는 다중 클래스 분류에서 확률의 총 합이 1이 되도록 만드는 함수이다. 로그 함수와 지수 함수는 숫자를 계산하기 쉽게 만드려고 쓰는 함수다. 

 

 

 

 

 

<선택 미션>

Ch.04(04-2) 과대적합/과소적합 손코딩 코랩 화면 캡처하기

그래프가 작아서 제대로 보이지 않지만 epoch가 100이 넘어가면 test accuracy가 조금씩 감소한다고 한다. 반면에 train accuracy는 계속 증가하니 overfitting이라 할 수 있다. 그리고 epoch 80전으로는 train과 test 모두 정확도가 낮아 underfitting같다.

 

 

 

 

 

<메모>

lr.coef_ -> coeficient의 약자로 방정식의 계수를 말한다.

lr.intercept_ -> bias와 같다.

Linear regression은 특성 스케일의 영향을 안 받는다고 한다. knn같이 거리를 바탕으로 예측하는 모델은 특성의 스케일에 따라 영향을 크게 받는다.  하지만 linear regression 같은 모델은 가중치를 학습하여 예측하는 모델이라 특성 스케일의 영향을 적게 받는다고 한다(아예 관련이 없는건 아닌듯) 특성이 엄청 커도 가중치가 0과 같이 작은 수가 되면 영향이 거의 없기 때문이다. 

 

힌지 손실과 서포트벡터 머신

서포트벡터 머신이란? 분류 모델 중에 하나로 클래스를 잘 분류할 수 있도록 마진이 최선이 되는 선을 찾는다. linear regression 모델은 정답과 예측값 사이의 오차가 최소가 되도록 학습시키지만, 서포트 벡터 머신은 경계선과 샘플의 마진이 최대가 되도록 학습시킨다. 서포트 벡터 머신의 과적합에 강하고 특성 스케일에 민감하지 않다고 한다. 

힌지 손실이란? 서포트 벡터 머신에서 사용하는 손실 함수 중 하나라고 한다. 자세히는 안 찾아봄