Machine Learning

[분류] 1. 로지스틱 회귀분석

여름삐 2022. 8. 10. 00:57

1️⃣ 로지스틱 회귀분석

1. 로지스틱 회귀분석(Logistic Regression)

  • 지도학습, 선형 회귀모델 기반의 이진/다중  분류모형 
  • 독립변수는 연속형 자료 , 종속변수는 범주형 자료 
  • 이진분류 : 유방암 예측(Wisconsin breast cancer data)
  • 다중분류 : 스팸 메일 분류, handwritten digits data

 

2. 특징

  • 클래스 소속 확률(odds)을 이용하여 분류
  • 활성함수 : Sigmoid 함수 이용

 

2️⃣ scikit-learn 실습

1. 패키지 불러오기

from sklearn.linear_model import LogisticRegreesion

 

2. 하이퍼파라미터

logreg = LogisticRegression(C = 1e5,
                            solver = 'lbfgs',
                            multi_class = 'multinomial')

① 

  • default는 1, 작을수록 모델이 단순해지고, 값이 커질수록 모델이 복잡해짐
  • 로그스케일(0.01, 0.1, 1, 10, 100 등) 단위로  최적치 탐색 권고 

 solver 

  • 데이터양에 따른 연산 속도와 관련됨.
  • “liblinear”, “newton-cg”, “lbfgs”, “sag” and “saga"
  •  solver = 'sag'  -> 평균경사하강법(Stochastic Average Gradient Descent)을 적용하여 빠른 속도 가능
  •  solver = "lbfgs"  -> 준 뉴턴(quasi-Newton) 방법에 속하는 Broyden-Fletcher-Goldfarb-Shanno 알고리즘 8과 근사한 최적화 알고리즘. 작은 데이터 집합에 사용하는 것이 좋지만 큰 데이터 집합의 경우 성능이 저하

 multi_class 

  • 2개 이상을 예측할 때 옵션 설정

 

'Machine Learning' 카테고리의 다른 글

How does data sparsity affect your models?  (0) 2023.02.03
[Interpolation] Interpolation (python)  (0) 2022.11.15