[인공지능 알아가기] 머신러닝 알고리즘 KNN (K-최근접 이웃, K-Nearest Neighbors) (1) KNN 분류 모델

IT 알아가기

[인공지능 알아가기] 머신러닝 알고리즘 KNN (K-최근접 이웃, K-Nearest Neighbors) (1) KNN 분류 모델

잡식냥이 2025. 2. 17. 11:34

이번에는 머신러닝의 기본 개념과 데이터셋 구축 그리고 전처리하는 방법 등 머신러닝 모델을 구현하는 기초적인 흐름에 대해서 공부를 해보았다! 특히 머신러닝 알고리즘 중 가장 간단하고 쉬운 KNN 분류 알고리즘을 중심으로 모델 구현 메서드에 대해서 정리를 해보았다.

환경

우선 KNN을 하기 위해서 필요한 환경설정이다! 별거 없다!!

파이썬 가능한 환경 : CoLab, Jupyter Lab 등등
패키지: ScikitLearn, Numpy, Matplotlib => 코랩에 이미 있음

머신러닝의 주요 키워드 정리

특성 (Feature): 데이터를 표현하는 하나의 성질. ex) 생선의 길이 / 무게
훈련 (Training): 머신러닝 알고리즘이 데이터에서 규칙을 찾는 과정 ex) fit() 메서드 of scikitlearn 패키지
정확도 (Accuracy): 정확한 답을 얼마나 맞췄는지를 백분률로 나타낸 값으로, 사이킷런에서는 0-1 사이의 값으로 출력됨. => 정확도 = (정확히 맞힌 개수) / (전체 데이터 개수). 아무래도 정답을 기준으로 하기 때문에 "지도학습"에서 평가하는 기준이 된다.
입력 (Input) : 특성들로 구성된 입력 데이터들이다.
타깃 (Target) : 정답지 데이터라고 할 수 있다. 클래스들로 구성되어 있다. ex) 강아지 / 고양이
훈련데이터 (Training Data): 훈련하는데 사용하는 데이터로 지도학습은 Input, Target 모두 필요하나 비지도학습은 Input만 사용함.
테스트 세트(Test set): 평가에 사용하는 데이터로, 보통은 준비된 데이터 중에서 일부 20-30%를 떼어내어 사용함. 데이터가 대규모인 경우는 1%를 사용하기도 함.
훈련세트(Train set): 훈련에 사용하는 데이터. 테스트세트와 별도로 준비되어야한다.
샘플(Sample) : 특성들이 담긴 리스트인 하나의 데이터를 샘플이라고 부름.
모델(Model) : 머신러닝 알고리즘을 구현한 프로그램이나, 프로그램이 아니더라도 알고리즘(수식...)을 구체화한 것을 모델이라고 부른다.

머신러닝의 알고리즘: 지도학습과 비지도학습, 그리고 강화학습

머신러닝 알고리즘의 종류: 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning)
지도학습은 정답인 Target이 있으므로 알고리즘은 정답을 맞히는 것을 학습함.
비지도학습은 정답이 없어서 맞히는 것이 아니라, 데이터를 잘 파악하거나 변형하는데 사용함. Input만 있으면 됨.
강화학습 : 타깃이 아니라 알고리즘이 행동한 결과로 얻은 보상을 사용해서 학습함.

머신러닝의 구체적인 알고리즘(모델)의 종류에 대해서 더 알고 싶으면 이전 포스팅을 참고해도 좋을 것 같다!

[인공지능 알아가기] 머신러닝 알고리즘의 종류

머신러닝 알고리즘의 종류 정리 📚머신러닝 알고리즘은 크게 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning), 딥러닝(Deep Learning)으로 나눌 수 있습니다. 각

nyangwisdom.tistory.com

오늘 공부해볼 KNN은 지도학습의 가장 단순한 알고리즘 중 하나이다!

KNN, K-최근접 이웃 이란?

KNN은 기본적으로 '다수결의 원칙'에 기반한 알고리즘이다. 새로운 데이터가 등장했을 때, 이 데이터를 분류하기 위해 주변의 "가장 가까운" 데이터 포인트들을 살펴보고 가장 많이 등장하는 클래스(범주)로 분류한다.

예를 들어, 이메일이 스팸인지 아닌지를 분류해야 한다면, 새로운 이메일이 기존의 스팸 메일과 얼마나 가까운지 살펴보고 가까운 것 중 스팸이 더 많으면 스팸으로 처리하게 된다.

KNN의 기본적인 특징에 대해서 정리하자면,

데이터 준비: KNN은 특별한 훈련 과정이 없고, 입력 데이터를 단순히 저장하는 것이 전부이다. 특성값이 저장된 훈련데이터와 타깃데이터가 필요하다. 타깃을 두가지로 구분하는 경우(Binary), 0, 1로 타깃을 설정하는 과정이 필요하다.
거리 계산: 새로운 데이터가 들어오면, 기존 데이터와의 직선 거리(유클리드 거리)를 계산한다. 이 외에도 격자 기반 거리인 맨해튼 거리로도 계산할 수 있다.
가장 가까운 이웃 선택: 거리 계산 후 가장 가까운 K개의 이웃을 찾으며, 이때의 'K'는 직접 설정할 수 있으며, n_neighbors 매개변수로 조정할 수 있다. 기본값은 5로 지정되어 있다.
다수결 투표: 선택된 이웃들 중 가장 많이 등장하는 클래스로 새로운 데이터를 분류한다.

KNN의 장점과 단점에 대해서 정리하자면,

(+) 간단하고 직관적인 이론 : 가까운 거리에 어떤 값이 있는지만 알면 된다.

(+) 비모수 모델 : 데이터 분포가 "정규분포"다 아니다 등 분포에 대한 가정 없이 직접 실제 데이터를 반영해서 유연하다.

(-) 데이터가 많은 경우에 속도가 느림 : 모든 데이터를 저장해야하므로 메모리도 많고, 연산량도 많다.

(-) K값에 따라서 결과 편차가 큼 : K가 너무 작으면 작은 노이즈에 민감하고, 너무 크면 분류 정확도가 낮아진다.

K값에 따라서 어떻게 결과가 달라지고 어떤 K값이 적당한지 정리하자면,

K값이 너무 작으면 (K=1, 2) : 데이터셋 내 이상치(Outlier)가 존재할 수 있는데, 한 두개에 따라 결과를 결정하기 때문에 이 값에 영향을 크게 받게 될 수 있다. 또한 데이터 하나하나에 너무 의존하게 되어 일반화하기가 어려울 수 있다. 무엇보다 과적합(Overfitting)이 발생할 수 있는데, 이는 훈련데이터에만 최적화되어서 새로운 데이터에서 테스트하면 성능이 떨어지는 현상을 의미한다. 다시 말해 강박적이고 과하다!

반대로, K값이 너무 크면 (K=20, 50) : 데이터가 평균화(Averaging)되어서 개별 데이터의 특징이 희석될 수 있다. 모델이 너무 단순해져서 (Underfitting) 역시 일반화하기 어려워질 수 있다. 다시말해 너무 둥글고 뭉뚱그려져서 기능을 잃는다!

K값이 짝수인 경우 : 만약 k=2여서 가장 가까운 2개의 값만 참고하는데, 결과값이 1대 1로 동률(Tie)이 나오면 결정이 어려워질 수 있다. 따라서 K값은 홀수로 설정하는 것이 좋다.

그렇다면 적절한 K값을 설정하려면 어떻게 해야하는가?

(1) 일반적으로 데이터 개수(N)의 제곱근( √N)을 참고한다. (ex. N=1000, K=30~40)

(2) 교차 검증(Cross Validation)을 통해 최적의 K값을 찾기도 한다. 여러개의 K값을 시도하며 모델 성능(정확도 등)을 평가한다. 이런 경우 데이터셋에 따라서 최적의 K값이 달라질 수 있기 때문에 실험을 할 필요가 있다.

KNN의 활용 분야에 대해서 정리하자면,

스펨메일 분류, 사용자 유사도를 보고 콘텐츠를 추천하는 시스템, 의료데이터 분석 등에서 자주 활용된다.

SciKit Learn

사이킷런은 파이썬의 라이브러리인 머신러닝 패키지로, 전통적인 머신러닝 알고리즘이 제공되어 가장 인기있는 라이브러리 중 하나이다. 머신러닝 프레임워크에 대해서 더 궁금하면 이전 포스팅을 참고하면 좋을 것 같다!

[인공지능 알아가기] 머신러닝과 딥러닝의 종류와 대표적인 프레임워크

INTRO. 인공지능 붐이 오다.최근 부상한 줄 알았던 인공지능은 생각보다 긴 80년 정도의 역사를 가지고 있다. 주식 마냥 붐이 왔다가 폭락하고 다시 붐이 왔다가 폭락하는 현상을 반복하다 지금 드

nyangwisdom.tistory.com

SciKitLearn의 KNN Classifier 관련 주요 코드들을 공부해보았다!

KNeighborsClassifier 클래스

역할: k-최근접 이웃 알고리즘을 구현
주요 파라미터:
- p: 거리 계산 방식
  - p=1 → 맨해튼(Manhattan) 거리
  - p=2 → 유클리디안(Euclidean) 거리 (기본값)
- n_jobs: 사용할 CPU 코어 수 지정 (기본값은 1)
  - n_jobs=-1 → 모든 코어 사용해 연산 속도 향상
- n_neighbors: 참조할 이웃의 개수 지정 (기본값은 5)

from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier(n_neighbors=3, p=2, n_jobs=1)

주요 메서드

fit(X, y) : 주어진 학습 데이터(X: 2차원 특성 리스트, y: 정답 리스트)를 사용하여 모델을 훈련
predict() : 학습된 모델을 바탕으로 새로운 데이터의 예측값 반환
score() : 예측 결과와 실제 정답을 비교하여 모델의 정확도(성능)를 평가. 내부적으로 predict()를 호출하여 예측을 수행 후, 올바르게 예측된 샘플의 비율을 반환. Accuracy를 평가하기 위한 method인데, 이외에도 KNN 모델 평가 방식에는 F1 score 방식도 있다고는 하니 나중에 알아보도록 하겠다.
kneighbors(): 주어진 샘플에서 가장 가까운 이웃들을 찾음
- distances: 각 이웃까지의 거리
- indexes: 해당 이웃의 인덱스

distances, indexes = kn.kneighbors([[25,150]])
print(train_target[indexes])
print(distances)

결론적으로 KNN 분류 모델은 KNeighborsclassifier를 사용하면, fit()으로 모델을 학습시키고, predict()로 얘측하며, score()로 모델의 성능을 평가할 수 있다.

데이터셋 만드는 법

학습용 데이터셋과 타깃 데이터셋을 만드는 방법에 대한 정리이다!

1. 특성(Feature) 데이터 구성 : 특성의 리스트를 세로 방향으로 늘어뜨린 2차원 리스트 (= 리스트의 리스트)를 만들어야함.

2. 학습용과 테스트용 세트를 따로 구성: Train set, Test set을 별도로 만들어야함

3. 샘플링 편향 (Sampling Bias) 방지를 위한 Stratify 매개변수 활용 : Train set에는 샘플이 고르게 들어가도록 넣어야하며, 특정 종류의 샘플이 과도하게 많은 편향을 가지고 있다면 score가 이상하게 나온다. 단순하게 무작위로 섞는다고 샘플이 골고루 섞이지 않을 수 있기 때문에, stratify 매개변수를 활용해서 클래스 비율에 맞게 데이터를 나누어야함.

from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(X, y, stratify=y, random_state=28)

사이킷런의 model_selection 모듈 아래에 있는 train_test_split() 메서드를 import 하고 stratify로 test 세트와 train 세트의 클래스간 비율 맞춤. random state는 랜덤시드로 결과의 일관성을 원하면 같은 숫자를 계속 지정하면 된다.

이렇게 단순히 나누는 것만 해도 되면 좋겠지만 자주 나오는 "전처리"라는 개념을 이해하고 적용해야 제대로된 모델이 만들어질 수 있다.

데이터셋 전처리하는 방법

전처리가 필요한 이유?

KNN은 거리 기반으로 가장 근접한 샘플들을 고르는 알고리즘인데, 거리가 X축과 Y축의 Scale이 다르면 올바르게 예측할 수 없다. 이런 경우에 특성값을 일정한 기준으로 맞춰줘야 하고 이 과정을 "데이터 전처리(Data Preprocessing)"라고 한다. 결국 머신러닝 모델에 훈련 데이터를 주입하기 전에 가공하는 과정인 것이다.

표준점수 Standard Score (Z-score)

전처리는 표준점수로 많이 시행한다. 각 특성값이 평균에서 표준편차의 몇 배만큼 떨어져있는지로 거리를 계산하는 것으로, 이렇게 거리를 측정하면 동일한 조건에서 비교가 가능하다.

numpy 라이브러리의 np.mean()와 np.std() 함수를 활용하면 평균과 표준편차를 구할 수 있다.

mean = np.mean(train_input, axis =0)
std = np.std(train_input, axis=0)
train_scaled = (train_input - mean) / std

*여기서 axis=0은 train_input이 2차원 데이터라면, 열을 기준으로 계산하면 axis=0이고 행을 기준으로 계산하면 axis=1이라는 뜻이다.

참고: 혼자공부하는 머신러닝+딥러닝 (한빛미디어, 박해선)

728x90