[인공지능 알아가기] 머신러닝 알고리즘 KNN 회귀 - 회귀의 정의와 역사, SciKitLearn으로 KNN 회귀하는법

IT 알아가기

[인공지능 알아가기] 머신러닝 알고리즘 KNN 회귀 - 회귀의 정의와 역사, SciKitLearn으로 KNN 회귀하는법

잡식냥이 2025. 2. 17. 16:51

저번에는 머신러닝 모델을 구현하는 기초적인 흐름에 대해서 공부를 하면서, 특히 머신러닝 알고리즘 중 가장 간단하고 쉬운 KNN 분류 알고리즘을 중심으로 정리를 해보았다. 이번에는 KNN 회귀 알고리즘에 대해서 공부를 해보았다.

회귀 Regression

지도학습 알고리즘은 크게 분류와 회귀로 나뉜다.

앞에서 다룬 분류는 샘플을 몇 개의 클래스 중 하나로 분류하는 문제이다. 예를 들어, 특징들을 주고 이 것이 고양이인지 개인지 분류하는 문제가 여기에 해당한다. 하지만 회귀는 임의의 어떤 숫자를 예측하는 문제이다. 예를 들어, 면적과 방 개수 등의 특징을 주면 이 집의 가격을 예측하는 문제가 여기에 해당한다.

회귀라는 말은 '통계'에 조금이라도 다가가면 반드시 한번은 건드리는 말인 듯하여 정말 많이 들어는 보았지만 정확히 무슨 개념인지는 잘 모르고 지내왔었다. 이번 기회에 나무위키 읽듯 한번 알아보았다.

회귀의 역사

회귀는 영국의 통계학자 프랜시스 골턴(Galton)이 19세기 후반에 처음 사용했다. 부모의 키와 자녀의 키 간의 관계를 연구하며, 자녀의 키가 부모보다 평균에 더 가까워지는 경향이 있음을 발견하였고, 이를"평균으로의 회귀"라고 부르기 시작했다. 이 연구는 추후에 회구 분석(Regression Analysis)라는 통계 기법으로 발전했다.

20세기 초, 골턴의 연구를 바탕으로 칼 피어슨(Carl Pearson)이 상관관계(Correlation) 개념을 수학적으로 정리를 하고, Fisher는 최소제곱법(Least Squares Method)를 발전시켜서 회귀 모델을 보다 정교하게 만들었다. 이 시기부터 회귀분석은 통계학과 경제학에서 중요한 도구로 자리잡게 되었다. *여기서 Pearson 상관계수(r)인 두 변수간의 관계성 계수, LSM과 ANOVA 기법이 등장했다.

20세기 중반부터 후반까지는 회귀 모델이 여러가지 형태로 확장되기 시작했다. 기본적인 모델로 선형회귀(Linear Regression)이 자리 잡았고, 확장된 다항 회귀(Polynomial Regression), 로지스틱 회귀(Logistic Regression)이 등장하게 되었다. 이 때부터는 경제학뿐만 아니라 심리학, 생물학, 사회과학 분야에서 예측모델로 활용되기 시작했다.

21세기에는 컴퓨터의 발전으로 회귀 모델을 더 복잡한 데이터에 활용할 수 있게 되었다. 이에 다중회귀(Multiple Regression), 릿지 회귀(Ridge Regression), 라쏘회귀(Lasso Regression), 서포트 벡터 회귀(SVR) 등이 등장하였다고 한다. 뿐만 아니라 회귀는 머신러닝과 딥러닝의 핵심요소로 자리 잡아, 랜덤포레스트 회귀, 신경망 회귀(딥러닝), 강화학습 등 다양한 데이터 기반 예측 모델의 기반이 되고 있다.

즉 현재의 '회귀'는 입력값과 출력값의 관계, 다시말해 데이터의 패턴을 학습하여, 연속적인 숫자 값을 예측하는 통계학적 / 머신러닝 모델이라고 할 수 있다.

KNN과 회귀

회귀가 결국 데이터의 패턴을 학습하여, 숫자 값을 예측하는 것이라고 한다면, KNN 기법에서는 어떻게 회귀를 적용할 수 있을까? 다음과 같은 과정을 생각해보자.

(1) 예측하려는 새로운 샘플에서 가장 가까운 샘플 k개를 선택한다

(2) 샘플들의 타깃 값을 확인하여, 수치들의 평균을 구한다.

예를 들어, 아파트의 크기와 매매가 데이터들을 학습시킨 KNN 모델에서 38평 아파트의 매매가를 구하고 싶은 상황이라면, 38평과 가까운 학습데이터의 샘플 k개, 이를테면 37평, 37.5평, 38.3평의 매매가를 확인하고 그 값들을 평균낸 값으로 답을 내는게 KNN 회귀이다.

ScikitLearn과 KNN Regression

지금부터는 KNN Regression을 SciKitLearn으로 수행하는 방법에 대해서 알아보겠다. 이전에 포스팅한 SciKitLearn의 KNN Classification과 비교해서 진행했다. 해당 내용은 이전 포스팅에서 확인할 수 있다!

[인공지능 알아가기] 머신러닝 알고리즘 KNN (K-최근접 이웃, K-Nearest Neighbors) (1) KNN 분류 모델

이번에는 머신러닝의 기본 개념과 데이터셋 구축 그리고 전처리하는 방법 등 머신러닝 모델을 구현하는 기초적인 흐름에 대해서 공부를 해보았다! 특히 머신러닝 알고리즘 중 가장 간단하고 쉬

nyangwisdom.tistory.com

(1) 데이터셋 마련

x : 고양이의 키 Array => 2차원으로 reshape해야함.

y : 고양이의 몸무게 Array

2차원으로 Array를 왜 바꿔야하는가? 그냥 사이킷런 프레임에서 훈련세트는 2차원 배열로 넣어야하기 때문이다!

*2차원으로 Array를 reshape하는 방법 (numpy의 기능)

만약 array = [1, 2, 3, 4] 라는 배열이 있다면, 이 array는 요소가 4개인 1차원 array이다.

print(array.shape)를 해보면 (4, )이 나올 것이다. 이는 요소가 4개이며 1차원이라는 뜻이다.

이 array를 2차원으로 바꾸고 싶다면 두가지 방법이 있다.

array.reshape(4,1) 기능으로, 직접 array.shape를 (4, 1) 형태로 바꿀 수 있다. 이는 요소가 4개인 2차원 array라는 뜻으로, [[1], [2], [3], [4]] 이런식으로 생겼을 것이다.

혹은 array.reshape(-1,1) 처럼 쓸 수도 있다. 이는 2차원 형태로 만들고, -1은 알아서 요소들을 채운다는 뜻이다.

cf) KNN Classification

X : (고양이와 개의 키, 고양이와 개의 몸무게)의 2차원 Array

y : 고양이인지 개인지 분류

(2) 테스트 데이터셋으로 나누기

from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(x, y, random_state = N)

* 여기서 x는 2차원 array로 reshape된 고양이 키 데이터

cf) KNN Classification

from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(X, y, stratify=y, random_state = N)

*2차원의 특성(feature) array를 X로 넣고, classification을 y로 넣는다는 점, 그리고 y로 stratify를 한다는 점에서 차이를 보인다.

(3) KNeighborsRegressor 훈련, scoring

from sklearn.neighbors import KNeighborsRegressor
knr = KNeighborsRegressor()

# KNN 훈련시키기
knr.fit(train_input, train_target)

# 이 모델의 Score 확인하기 : 결정계수
print(knr.score(test_input, test_target))

KNeighborsClassifier와 동일하게 fit(X, y)와 score() 메서드로 모델을 훈련시키고 정확도를 확인할 수 있다.

그러나 다른 점도 있다! Classifier에서 score는 Accuracy(정확도)로 얼마나 정답을 맞췄는지의 여부였다. 반면 Regressor는 연속적인 숫자에서 한가지 임의의 값을 예측하는 것이기에 정확한 정답을 맞추는 것이 불가능하다. 그렇기 때문에 Regressor는 "결정계수(coefficient of determination, R² )"를 통해서 모델의 성능을 평가한다.

그러나 결정계수가 가지고 있는 한계도 분명 존재한다. (후술하였다) 따라서 다른 방식인 Mean Absolute Error(MAE)로 회귀 모델의 성능을 추정할 수도 있다. 이는 타깃과 예측의 절댓값 오차를 평균하여 반환한 값으로 보다 직관적으로 성능을 알 수 있다.

from sklearn.metrics import mean_absolute_error

# 테스트 세트에 대한 예측
test_prediction = knr.predict(test_input)

# 테스트 세트에 대한 MAE
mae = mean_absolute_error(test_target, test_prediction)

회귀모델의 성능 평가 방식 : 결정계수, MAE

결정계수란 무엇인가 ( R²)

결정계수란 회귀 모델이 데이터를 얼마나 잘 설명하는지를 나타내는 지표로, 1에 가까울 수록 예측이 더 정확한 모델이라고 할 수 있다. 분자는 예측값과 실제값의 차이로 오차를 담고 있다. 분모는 데이터를 단순히 평균값으로만 예측했을 때 오차는 얼마나 될지를 나타내어, 원래 데이터 자체의 변동성을 담고 있다.

처음에는 분자가 들어간 이유를 알겠는데, 분모는 왜 들어간지 이해가 안갔었다. 그래서 더 알아봤는데 만약에 데이터 자체의 변동성이 크다면 모델이 조금 못 맞춰도 괜찮을 수 있으나, 데이터 자체의 변동이 적다면 더 정교해야하기 때문에 들어간 것이라고 한다.

1에 가까우려면 저 분수에서 분자가 거의 0에 수렴해야한다. 즉, 실제값과 예측값이 거의 일치해야한다는 것을 의미하고 이는 모델의 성능이 괜찮다는 의미를 반영한다.

반면 0에 가까우려면 분자와 분모가 비슷해야한다. 이는 모델의 예측값이 타깃의 평균정도를 예측하는 수준일 것이고, 예측의 의미가 별로 없다.

혹은 분자가 분모보다 큰 경우에는 음수값이 나올 것이다. 이는 오히려 평균값보다 못한 모델로 예측이 완전 엉터리라고 할 수 있다.

→ 완벽한 회귀 모델 (모든 데이터가 정확히 예측됨)
R² =0 → 모델이 아무런 설명력을 가지지 못함 (단순 평균으로 예측하는 것과 동일)
R² 이 음수이면 → 모델이 데이터를 전혀 설명하지 못하고 있음 (예측이 무의미함)
R²이 보통 0.8-0.99면 매우 좋은 성능 / 0.5-0.79면 보통 수준 / 0.2-0.49면 낮은 수준 / 0-0.19면 거의 쓸모없는 수준이라고 한다.

하지만 결정계수는 비선형 관계에서는 정확도가 낮을 수 있다. 다시말해 곡선 형태 등에서는 R² 값이 낮더라도 좋은 모델일 가능성이 있다. 또한 독립변수(Feature)가 많아질수록 R² 값이 자동으로 증가되는 경향이 있어서, 다중회귀모델인 경우에는 조정된 결정계수(Adjusted R²)를 사용하기도 한다.

MAE Mean Absolute Error란 무엇인가?

MAE (Mean Absolute Error, 평균 절대 오차)는 회귀 모델의 예측값과 실제값 사이의 평균적인 오차 크기를 측정하는 지표이다. 즉, 예측값이 실제값과 얼마나 차이가 나는지를 평균적으로 나타내는 값이라고 할 수 있다.

MAE 값이 작을수록 → 모델의 예측이 실제값과 더 가까워서 성능이 좋음
MAE 값이 클수록 → 모델의 예측이 실제값과 많이 차이가 나므로 성능이 나쁨

단위가 예측값과 동일하여 직관적이고 해석이 쉬우며, Outlier가 많아도 절대값을 사용하기 때문에 덜 민감하다고 한다.

KNN 회귀 모델의 과대적합(Overfitting)과 과소적합(Underfitting), 그리고 해결책

저번 포스팅에서 언급한 k값에 따른 과대적합과 과소적합 가능성 부분을 다시 가져와봤다!

K값이 너무 작으면 (K=1, 2) : 데이터셋 내 이상치(Outlier)가 존재할 수 있는데, 한 두개에 따라 결과를 결정하기 때문에 이 값에 영향을 크게 받게 될 수 있다. 또한 데이터 하나하나에 너무 의존하게 되어 일반화하기가 어려울 수 있다. 무엇보다 과적합(Overfitting)이 발생할 수 있는데, 이는 훈련데이터에만 최적화되어서 새로운 데이터에서 테스트하면 성능이 떨어지는 현상을 의미한다. 다시 말해 강박적이고 과하다! 과대적합

반대로, K값이 너무 크면 (K=20, 50) : 데이터가 평균화(Averaging)되어서 개별 데이터의 특징이 희석될 수 있다. 모델이 너무 단순해져서 (Underfitting) 역시 일반화하기 어려워질 수 있다. 이런 경우 훈련세트보다 테스트 세트의 점수가 높거나, 두 점수가 모두 너무 낮게 나오게 된다. 다시말해 너무 둥글고 뭉뚱그려져서 기능을 잃는다! 과소적합

만약 훈련세트의 score과 테스트세트의 score를 비교하니, 과소적합이 예상되면 어떻게 할까? 이런 경우 모델이 너무 단순하다고 생각하고 복잡하게 만들면 된다. KNN 모델에서는 단순히 K값을 낮추면된다.

# 기본값인 k=5에서 3으로 변경
knr.n_neighbors = 3

참고: 혼자공부하는 머신러닝+딥러닝 (한빛미디어, 박해선)

728x90

'IT 알아가기' 카테고리의 다른 글

[생산성] 인생 목표 설정하고 노션으로 관리까지! (무료 만다라트 템플릿 공유) : 웰니스/만다라트/노션 만다라트 갤러리 생성 방법 (2)	2025.02.19
[인공지능 알아가기] 선형회귀 - 사이킷런, 다항회귀 (0)	2025.02.19
[인공지능 알아가기] 머신러닝 알고리즘 KNN (K-최근접 이웃, K-Nearest Neighbors) (1) KNN 분류 모델 (0)	2025.02.17
[코딩 기초] 파이썬 - 리스트(list)와 배열(array) & 대표적인 배열 라이브러리, Numpy에 대해서! (0)	2025.02.11
[코딩 기초] 프로그래밍 언어 - 객체 지향 프로그래밍 1편. 클래스, 객체, 메서드, 속성 등에 대하여 (0)	2025.02.11

현재글[인공지능 알아가기] 머신러닝 알고리즘 KNN 회귀 - 회귀의 정의와 역사, SciKitLearn으로 KNN 회귀하는법

잡식냥이😼

잡식성 주인장의 잡다한 지식 모음

피크민블룸, 피크민, 데코피크민, 파이썬, 구글 애드센스, 인공지능, 티스토리, ado, 피크민 블룸, 아도, 배터리 0프로, 머신러닝, 달주기게임, 배터리 없을 때, 웹브라우저, ollama, 사이킷런, 한국사능력검정시험, 티스토리 수익화, 딥러닝,

Today :
Yesterday :

잡식냥이😼

[인공지능 알아가기] 머신러닝 알고리즘 KNN 회귀 - 회귀의 정의와 역사, SciKitLearn으로 KNN 회귀하는법