sklearn의 Toy Data 불러오기

sklearn의 Toy Data 불러오기

2018, Dec 23    

사이킷 런을 사용하여 예제를 풀 때 많이 사용하는 데이터로는

  • Boston housing price
  • Digits
  • Iris

이렇게 3가지가 있습니다. 거의 수학의 정석에서 집합이라고 할 수 있을까요?

  • 먼저 라이브러리를 불러 오겠습니다.
from sklearn import datasets
import matplotlib.pyplot as plt 


Boston Housing Price 데이터 불러오기

# 보스턴 집값 데이터를 불러옵니다.
boston = datasets.load_boston()

# feature matrix를 만듭니다.
X = boston.data

# target vector를 만듭니다.
y = boston.target

# feature의 첫번째 값을 확인해 봅니다.
X[0]

>> array([  6.32000000e-03,   1.80000000e+01,   2.31000000e+00,
         0.00000000e+00,   5.38000000e-01,   6.57500000e+00,
         6.52000000e+01,   4.09000000e+00,   1.00000000e+00,
         2.96000000e+02,   1.53000000e+01,   3.96900000e+02,
         4.98000000e+00])


값을 출력해 봅니다.

 [ "{:.2f}".format(x) for x in X[0]]
 >>> ['0.006320',
 '18.000000',
 '2.310000',
 '0.000000',
 '0.538000',
 '6.575000',
 '65.200000',
 '4.090000',
 '1.000000',
 '296.000000',
 '15.300000',
 '396.900000',
 '4.980000']


숫자 데이터 불러오기

# 숫자 데이터 불러오기
digits = datasets.load_digits()

# feature matrix
X = digits.data

# target vector
y = digits.target

# 첫 번째 값 확인
X[0]

>> array([  0.,   0.,   5.,  13.,   9.,   1.,   0.,   0.,   0.,   0.,  13.,
        15.,  10.,  15.,   5.,   0.,   0.,   3.,  15.,   2.,   0.,  11.,
         8.,   0.,   0.,   4.,  12.,   0.,   0.,   8.,   8.,   0.,   0.,
         5.,   8.,   0.,   0.,   9.,   8.,   0.,   0.,   4.,  11.,   0.,
         1.,  12.,   7.,   0.,   0.,   2.,  14.,   5.,  10.,  12.,   0.,
         0.,   0.,   0.,   6.,  13.,  10.,   0.,   0.,   0.])


  • 첫 번째 이미지를 matplotlib을 이용하여 확인해 보겠습니다.
plt.gray() 
plt.matshow(digits.images[0]) 
plt.show()


1


Iris 데이터 불러오기

앞에서 한 방법과 동일하게 데이터를 불러오면 됩니다.

# iris 데이터 불러오기
iris = datasets.load_iris()

# feature matrix
X = iris.data

# target vector
y = iris.target

# 첫 번째 값 확인
X[0]
>> array([ 5.1,  3.5,  1.4,  0.2])

도움이 되셨으면 광고 한번 클릭 부탁드립니다. 꾸벅