대외활동/ABC 지역주도형 청년 취업역량강화 ESG 지원산업
[ABC 2200920] 지도 학습 알고리즘 - 일반화, 과대적합, 과소적합
갓생사는 공순이가 되고싶은 콩순이
2022. 10. 1. 11:44
반응형
일반화
- 일반화 성능이 최대가 되는 모델이 최적임
- 지도 학습에서는 훈련 데이터로 학습한 모델이 훈련 데이터와 특성이 같다면 처음 보는 새로운 데이터가 주어져도 정확히 예측할 것이라 기대함
- 모델이 처음 보는 데이터에 대해 정확하게 예측할 수 있으면 → 훈련 세트에서 테스트 세트로 일반화(generalization) 되었다고 함
- 보통 훈련 세트에 대해 정확히 예측하도록 모델을 구축 → 훈련 세트와 테스트 세트가 매우 비슷하다면 그 모델이 테스트 세트에서도 정확히 예측하리라 기대할 수 있음
- 문제 정의 : 요트를 구매한 고객과 구매 의사가 없는 고객의 데이터를 이용해 누가 요트를 살지 예측. 관심 없는 고객들을 성가시게 하지 않고 실제 구매할 것 같은 고객에게만 홍보 메일을 보내는 것이 목표
- "45세 이상이고 자녀가 셋 미만이며 이혼하지 않은 고객은 요트를 살 것입니다."
과대적합
- 가진 정보를 모두 사용해서 너무 복잡한 모델을 만드는 것
- Overfitting
과소적합
- 너무 간단해서 모델이 선택되는 것
- Underfitting
모델 복잡도와 데이터셋 크기의 관계
- 모델을 복잡하게 할수록 훈련 데이터에 대해서는 더 정확히 예측할 수 있음 but 너무 복잡해지면 훈련 세트의 각 데이터 포인트에 너무 민감해져 새로운 데이터에 잘 일반화되지 못함 → 과대적합
- 우리가 찾으려는 모델은 일반화 성능이 최대가 되는 최적접에 있는 모델
- 모델의 복잡도는 훈련 데이터셋에 담김 입력 데이터의 다양성과 관련이 있음 → 데이터셋에 다양한 데이터 포인트가 많을수록 과대적합 없이 더 복잡한 모델을 만들 수 있음
- 보통 데이터 포인트를 더 많이 모으는 것이 다양성을 키워주므로 큰 데이터셋은 더 복잡한 모델을 만들 수 있게 해줌
- But 같은 데이터 포인트를 중복하거나 매우 비슷한 데이터를 모으는 것은 도움이 되지 않음
- 데이터를 더 많이 수집하고 적절하게 더 복잡한 모델을 만들면 지도 학습 문제에서 종종 놀라운 결과를 얻을 수 있음
- 위의 그림은 이래서 여기까지만 훈련시켰다는 것을 증명하기 위한 복잡도
- 결국 우리가 찾으려고 하는 일반화 성능이 최대가 되는 곳이 최적점이다
- 예측이 쉬워지려면 데이터 feature의 특성을 이해하고 골라주는 것이 중요하다
- 데이터가 골고루 있는 것도 예측이 쉬워지는 방법 중 하나임
- 주로 완벽하게 학습한 데이터 말고 예측이 틀렸던 데이터들을 더 수집해 주는 것이 중요하다
LIST