1️⃣ 로지스틱 회귀분석
1. 로지스틱 회귀분석(Logistic Regression)
- 지도학습, 선형 회귀모델 기반의 이진/다중 분류모형
- 독립변수는 연속형 자료 , 종속변수는 범주형 자료
- 이진분류 : 유방암 예측(Wisconsin breast cancer data)
- 다중분류 : 스팸 메일 분류, handwritten digits data
2. 특징
- 클래스 소속 확률(odds)을 이용하여 분류
- 활성함수 : Sigmoid 함수 이용
2️⃣ scikit-learn 실습
1. 패키지 불러오기
from sklearn.linear_model import LogisticRegreesion
2. 하이퍼파라미터
logreg = LogisticRegression(C = 1e5,
solver = 'lbfgs',
multi_class = 'multinomial')
① C
- default는 1, 작을수록 모델이 단순해지고, 값이 커질수록 모델이 복잡해짐
- 로그스케일(0.01, 0.1, 1, 10, 100 등) 단위로 최적치 탐색 권고
② solver
- 데이터양에 따른 연산 속도와 관련됨.
- “liblinear”, “newton-cg”, “lbfgs”, “sag” and “saga"
- solver = 'sag' -> 평균경사하강법(Stochastic Average Gradient Descent)을 적용하여 빠른 속도 가능
- solver = "lbfgs" -> 준 뉴턴(quasi-Newton) 방법에 속하는 Broyden-Fletcher-Goldfarb-Shanno 알고리즘 8과 근사한 최적화 알고리즘. 작은 데이터 집합에 사용하는 것이 좋지만 큰 데이터 집합의 경우 성능이 저하
③ multi_class
- 2개 이상을 예측할 때 옵션 설정
'Machine Learning' 카테고리의 다른 글
How does data sparsity affect your models? (0) | 2023.02.03 |
---|---|
[Interpolation] Interpolation (python) (0) | 2022.11.15 |