scikit-learnのサンプルデータ

1.ライブラリーの種類

 Toy Datasets(トイ データセット)
   すぐに使えるサイズの小さいデータが7種類

 Real World Datasets(実世界データセット)
   ダウンロードし使うサイズの大きいデータが7種類

2.トイ データセット

 以下に7種類のデータセット

2.1ボストン市の地区別住宅価格データセット

 データセット名 boston

アメリカのボストン市における地域別の住宅の価格をデータセットにしたものです。機械学習を試す時にはよく使われるデータセット
13 個の特徴から、その地域の「家賃」を予測する

予測する対象 MEDV
説明 「住宅価格」の中央値
   この数値が目的変数

2.2アヤメの品種データセット

 データセット名 iris

アヤメには、setosa, versicolor, virginica という 3 種類の品種があり、これらをデータセットにしたもの
4 個の特徴から、「どの種類のアヤメなのか」を分類する

予測する対象 品種
説明 setosa, versicolor, virginica のどれに当てはまるか?

2.3糖尿病患者の診療データセット

 データセット名 diabetes

糖尿病患者 442 人の「検査数値」と
1 年後の「進行状況」のデータセット
10 個の特徴から、その人の 1 年後の「進行状況」を予測する

予測する対象 糖尿病の進行状況
説明 target値を表示する

2.4数字の手書き文字データセット

 データセット名 digits

64 (8×8) 個の画素に、10 種類の手書き数字(0 ~ 9)を書いたデータセット

2.5生理学的特徴と運動能力の関係についてのデータセット

データセット名 linnerud

20 人の成人男性がフィットネスクラブで測定した 3 つの生理学的特徴(体重、胴囲、脈拍)と、3つの運動能力(懸垂の回数、腹筋の回数、跳躍)の関係を示したデータセット
3 個の特徴から、その”地域orエリア”の「懸垂の回数」「腹筋の回数」「跳躍」を予測する

特徴の名前 Chins
説明 懸垂の回数

特徴の名前 Situps
説明 腹筋の回数

特徴の名前 Jumps
説明 跳躍の回数

2.6ワイン認識データセット

 データセット名 wine

11 種類のワインの成分とワインの専門家によるワインの品質評価を含んだデータセット
13 個の特徴を学習し、どの種類のワインなのかを分類する

予測する対象 class_0
説明 1 つ目のワインの種類
個数 59 サンプル
   データ内では「 0 」のラベル

予測する対象 class_1
説明 2 つ目のワインの種類
個数 71 サンプル
   データ内では「 1 」のラベル

予測する対象 class_2
説明 3 つ目のワインの種類
個数 48 サンプル
   データ内では「 2」のラベル

2.7乳ガンのデータセット

 データセット名 breast_cancer

569 人分の乳ガンの診断データセット
各サンプルは 30 種類の腫瘍の特徴量と腫瘍が良性か悪性かの診断結果を含んでいる




30 個の特徴から、その人が悪性か良性かを分類する

予測する対象 malignant
説明 悪性
   データ内では「 0 」

予測する対象 benign
説明 良性
   データ内では「 1 」

3.実世界データセット

 40 人の各 10 種類の顔画像データセット
   顔写真からどの人なのかを当てよう!

 20 の話題に関する 18000 のニュース記事データセット
   何の話題について書かれているか分類しよう!

 5749 人分の有名人の顔写真データセット
   顔写真からどの人なのかを当てよう!

 森林の木の種類データセット
   土地の情報を元に、生えてる木の種類を当てよう!

 カテゴリ別のニュースデータセット
   このニュースは何のトピックについて書かれているか分類しよう!

 ネットワークの侵入検知データセット
   ネットワーク通信が攻撃的かどうかを当てよう!

 カリフォルニアの住宅価格データセット
   家賃を予測しよう!