도미와 빙어 지도학습 실습

파이썬 실습

도미와 빙어 지도학습 실습

PGNV 2021. 4. 29. 09:24

#도미 데이터
bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0]
bream_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0]

도미 35마리의 데이터입니다.

import matplotlib.pyplot as plt

plt.scatter(bream_length, bream_weight) #도미데이터 시각화
plt.xlabel('length') #xlabel 이름설정
plt.ylabel('weight') #ylabel 이름설정
plt.show()

도미35마리를 2차원 그래프에 점으로 나타냈습니다.

x축은 길이, y축은 무게입니다.

2개의 특성(길이, 무게)을 사용해 그린 그래프를 2차원 그래프라고 합니다.

산점도 그래프의 점이 일직선에 가까운 형태로 나타내는걸 선형적(linear)이라고 합니다

#빙어 데이터
smelt_length = [9.8, 10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
smelt_weight = [6.7, 7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

빙어 14마리 데이터입니다

plt.scatter(bream_length, bream_weight) #도미 데이터 시각화
plt.scatter(smelt_length, smelt_weight) #빙어 데이터 시각화
plt.xlabel('length') #xlabel 이름설정
plt.ylabel('weight') #ylabel 이름설정
plt.show()

친절하게 2개의 색깔로 구분해서 나타냅니다

주황색이 빙어의 산점도이고, 파란색이 도미의 산점도 입니다.

이제 K-최근접 이웃(K-Nearest Neighbors)알고리즘을 사용해 도미와 빙어의 데이터를 구분하겠습니다.

length = bream_length + smelt_length #도미와 빙어 길이 합함
weight = bream_weight + smelt_weight #도미와 빙어 무게 합함

일단 두리스트를 하나로 합쳐줍니다.

print(length)
#출력 [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0,
# 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0,
# 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0,
# 12.2, 12.4, 13.0, 14.3, 15.0]
print(weight)
#출력 [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0,
# 500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 700.0,
# 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0, 6.7, 7.5, 7.0, 9.7,
# 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

이번에 사용하려는 머신러닝 패키지는 사이킷런(scikit-learn)입니다.

이 패키지를 사용 하려면 세로방향으로 늘린 2차원 리스트를 만들어야 합니다.

zip함수와 for문으로 2차원 리스트로 만듭니다

fish_data = [[l, w] for l, w in zip (length, weight)] #도미와 빙어 데이터 모움
#출력 [[25.4, 242.0], [26.3, 290.0], [26.5, 340.0], [29.0, 363.0], [29.0, 430.0],
#[29.7, 450.0], [29.7, 500.0], [30.0, 390.0], [30.0, 450.0], [30.7, 500.0], [31.0, 475.0],
#[31.0, 500.0], [31.5, 500.0], [32.0, 340.0], [32.0, 600.0], [32.0, 600.0], [33.0, 700.0],
#[33.0, 700.0], [33.5, 610.0], [33.5, 650.0], [34.0, 575.0], [34.0, 685.0], [34.5, 620.0],
#[35.0, 680.0], [35.0, 700.0], [35.0, 725.0], [35.0, 720.0], [36.0, 714.0], [36.0, 850.0],
#[37.0, 1000.0], [38.5, 920.0], [38.5, 955.0], [39.5, 925.0], [41.0, 975.0], [41.0, 950.0],
#[9.8, 6.7], [10.5, 7.5], [10.6, 7.0], [11.0, 9.7], [11.2, 9.8], [11.3, 8.7], [11.8, 10.0],
#[11.8, 9.9], [12.0, 9.8], [12.2, 12.2], [12.4, 13.4], [13.0, 12.2], [14.3, 19.7],[15.0, 19.9]]

zip함수와 for문으로 2차원 리스트로 만듭니다

fish_target = [1] * 35 + [0] * 14 #정답 데이터 1: 도미(35마리) , 0: 빙어(14마리)

정답데이터를 만들어줍니다

print(fish_terget)
#출력 
#[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
# 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier() #임포트한 KNeighborsClassifie 클래스의 객체만들기
kn.fit(fish_data, fish_target) #사이킷런의 fit()메서드로 주어진 데이터를 알고리즘 훈련
kn.score(fish_data, fish_target) #score메서드를 이용해서 모델을 평가합니다.
#출력 1.0 정확도 100퍼라는 뜻

사이킷런(scikit-learn)패키지에서 k-최근접 이웃 알고리즘을 구현한 클래스인 KNeighborsClassifier를 임포트합니다.

import matplotlib.pyplot as plt

plt.scatter(length, weight)
plt.scatter(30, 600, marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

위에 보이는 주황색 삼각형은 새로운 데이터입니다.

삼각형 주변에 도미 데이터가 많아서 실제로도 도미라고 판단하는지 확인해봅시다

kn.predict([[30, 600]])
#출력 array([1])

array1이라고 나오는데 아까 정답데이터에 #정답 데이터 1: 도미(35마리) , 0: 빙어(14마리)

도미라고 제대로 예측되네요

이 모델의 정확도가 100%입니다.

훈련에 사용한 데이터로 모델을 평가했으니까 정확도가 100퍼입니다.

모델을 평가 할 때는 훈련할 때 사용하지 않은 데이터로 평가 해야합니다

fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 
                10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0, 6.7, 
                7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

위에 데이터를 사이킷런 패키지를 사용하기 위해 다시 세로방향으로 늘린 2차원 리스트로 만들어 주겠습니다

fist_data = [[l, w] for l, w in zip(fish_length, fish_weight)] 
#zip함수와 for문으로 2차원 리스트로 만듭니다
fish_taget = [1]*35 + [0]*14
#정답 데이터 1: 도미 35마리 0 : 빙어 14마리

전체 데이터 49개의 샘플이 있습니다.

사용하는 특성은 길이(length)와 무게(wright) 2개입니다.

여기서 처음 35개를 훈련세트로, 14개를 테스트 세트로 사용합니다

from sklearn.neighbors import KNeighborsClassifier 
#KNeighborsClassifier클래스를 임포트
kn = KNeighborsClassifier()
#모델 객체 만들기

print(fish_data[4]) #5번째 샘플 출력
#출력
[29.0 430.0]

인덱스는 0부터 시작함 따라서 5번째는 4임

이번에 사용해볼건 슬라이싱(slicing)이라는 연산자를 사용해서

첫번째부터 다섯 번째까지 샘플을 선택해보겠습니다.

print(fish_data[0:5])
#출력 [[25.4, 242.0], [26.3, 290.0], [26.5, 340.0], [29.0, 363.0], [29.0, 430.0]]

슬라이싱은 마지막 인덱스 원소를 포함하지 않습니다.

다른방법으로 첫번째부터 다섯 번째까지 샘플을 선택해보겠습니다.

print(fish_data[:5])
#출력 [[25.4, 242.0], [26.3, 290.0], [26.5, 340.0], [29.0, 363.0], [29.0, 430.0]]

0:5와 같이 처음부터 시작되는 경우는 0을 생략하고 쓸 수 있습니다.

print(fish_data[44:49])
#출력 [[12.2, 12.2], [12.4, 13.4], [13.0, 12.2], [14.3, 19.7], [15.0, 19.9]]
print(fish_data[44:])
#출력 [[12.2, 12.2], [12.4, 13.4], [13.0, 12.2], [14.3, 19.7], [15.0, 19.9]]

비슷한 방법으로 두 번째 인덱스를 생략할 수 있습니다.

마지막에서 5개의 샘플을 출력할때 마지막이 49란 가정하에 44:49라고 쓰지 않고 44: 만 입력해도 됩니다

train_input = fish_data[:35]    #0~34까지 훈련 세트 
train_target = fish_target[:35] #0~34까지 훈련 세트
test_input = fish_data[35:]     #35~48까지 테스트 세트
test_target = fish_target[35:]  #35~48까지 테스트 세트

훈련세트와 테스트세트를 선택해줍니다

kn = kn.fit(train_input, train_target) #모델 훈련
kn.score(test_input, test_target)      #모델 평가
#출력 0.0

훈련세트로 fit()메서드를 호출해 모델을 훈련하고,

테스트 세트로 score()메서드를 호출해 평가합니다.

정확도 1.0 (100%)를 자랑하던 모델이 갑자기 정확도 0.0 (0%)가 되어버렸습니다

왜일까요?

생각해보면 이유는 간단합니다.

훈련세트로 선택한 0~34는 도미밖에 없고,

테스트세트로 선택한 35~48는 빙어 밖에 없어서 입니다.

이런것을 샘플링 편향 (sampling bias)라고 부릅니다.

훈련세트와 테스트세트를 설정할려면 도미와 빙어를 골고루 섞이게 해줘야합니다.

이걸 해결하기 위해서 Numpy를 사용하도록 하겠습니다

import numpy as np #넘파이 라이브러리를 임포트합니다.

파이썬 리스트를 넘파이 배열로 바꾸는 법은 넘파이array()함수에 파이썬 리스트를 전달하면 됩니다.

input_arr = np.array(fish_data)    #데이터를 넘파이배열로 변경
target_arr = np.array(fish_target) #정답을 넘파이배열로 변경
print(input_arr)
'''
출력
[[  25.4  242. ]
 [  26.3  290. ]
 [  26.5  340. ]
 [  29.   363. ]
 [  29.   430. ]
 [  29.7  450. ]
 [  29.7  500. ]
 [  30.   390. ]
 [  30.   450. ]
 [  30.7  500. ]
 [  31.   475. ]
 [  31.   500. ]
 [  31.5  500. ]
 [  32.   340. ]
 [  32.   600. ]
 [  32.   600. ]
 [  33.   700. ]
 [  33.   700. ]
 [  33.5  610. ]
 [  33.5  650. ]
 [  34.   575. ]
 [  34.   685. ]
 [  34.5  620. ]
 [  35.   680. ]
 [  35.   700. ]
 [  35.   725. ]
 [  35.   720. ]
 [  36.   714. ]
 [  36.   850. ]
 [  37.  1000. ]
 [  38.5  920. ]
 [  38.5  955. ]
 [  39.5  925. ]
 [  41.   975. ]
 [  41.   950. ]
 [   9.8    6.7]
 [  10.5    7.5]
 [  10.6    7. ]
 [  11.     9.7]
 [  11.2    9.8]
 [  11.3    8.7]
 [  11.8   10. ]
 [  11.8    9.9]
 [  12.     9.8]
 [  12.2   12.2]
 [  12.4   13.4]
 [  13.    12.2]
 [  14.3   19.7]
 [  15.    19.9]]
 '''

print(input_arr.shape) #행과 열출력
#출력 (49, 2)

49개의 행, 2개의 열 쉽게 확인가능

이번에는 랜덤하게 샘플을 선택해 훈련세트와 테스트세트로 만듭니다.

배열을 섞은 후에 나누는 방식 대신에 무작위로 샘플을 고르는 방법을 사용하겠습니다.

한가지 주의 할점은 input_arr와 target_arr에서 같은 위치는 함께 선택되어야 한다는 점입니다.

input_arr의 두 번째 값은 훈련 세트로 가고, target_arr의 두 번째 값은 테스트 세트로 가면 안됩니다.

인덱스를 섞은 다음 input_arr와 target_arr에서 샘플을 선택하면 무작위로 훈련 세트를 나누는 셈이 됩니다.

넘파이 arange()함수를 사용하면 0에서부터 48까지 1씩 증가하는 인덱스를 간단히 만들 수 있습니다.

그다음 인덱스를 랜덤하게 섞습니다.

np.random.seed(42)
index=np.arange(49)
np.random.shuffle(index)
print(index)


#35개의 훈련 세트 만들기
train_input = input_arr[index[:35]]
train_target = target_arr[index[:35]]


#14개의 테스트 세트 만들기
test_input = input_arr[index[35:]]
test_target = target_arr[index[35:]]

numpy는 슬라이싱 외에도 배열 인덱싱(array indexing)이란 기능을 제공합니다.

배열 인덱싱은 1개의 인덱스가 아닌 여러 개의 인덱스로 한 번에 여러 개의 원소를 출력가능합니다

import matplotlib.pyplot as plt
plt.scatter(train_input[:, 0], train_input[:, 1])
plt.scatter(test_input[:, 0], test_input[:, 1])
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

훈련 세트오 테스트 세트에 도미와 빙어가 잘 섞여 있는지 산점도를 그려봅니다.

kn = kn.fit(train_input, train_target)
kn.score(test_input, test_target)
#1.0 정확도 100퍼

'파이썬 실습' 카테고리의 다른 글

텍스트 파일 가공하기 (friends101.txt 가공) (0)	2021.05.11
보스턴 주택 가격 예측 네트워크 코드 분석 (0)	2021.05.06

현재글도미와 빙어 지도학습 실습

코딩초보자의 프로그래밍도전! Programming New Visitor

프로그래밍, 빅 엔디안(Big endian), 리틀 엔디안(Little endian), 싸피 웹컴킷 후기, 합격후기, Google Developers Machine Learning Bootcamp 2021, 모바일반, Database Modelling, java, 파이썬, 데이터 베이스 모델링, python, 싸피 7기, 구글 개발자 머신러닝 부트캠프, 7기 싸피, 구글 부트캠프, 자바, 싸피 경쟁률, Machine Learning Bootcamp, SSAFY,

Today :
Yesterday :

PGNV 계단