1.ライブラリーの種類
Toy Datasets(トイ データセット)
すぐに使えるサイズの小さいデータが7種類
Real World Datasets(実世界データセット)
ダウンロードし使うサイズの大きいデータが7種類
2.トイ データセット
以下に7種類のデータセット
2.1ボストン市の地区別住宅価格データセット
データセット名 boston
アメリカのボストン市における地域別の住宅の価格をデータセットにしたものです。機械学習を試す時にはよく使われるデータセット | |
13 個の特徴から、その地域の「家賃」を予測する 予測する対象 MEDV 説明 「住宅価格」の中央値 この数値が目的変数 |
2.2アヤメの品種データセット
データセット名 iris
アヤメには、setosa, versicolor, virginica という 3 種類の品種があり、これらをデータセットにしたもの | |
4 個の特徴から、「どの種類のアヤメなのか」を分類する 予測する対象 品種 説明 setosa, versicolor, virginica のどれに当てはまるか? |
2.3糖尿病患者の診療データセット
データセット名 diabetes
2.4数字の手書き文字データセット
データセット名 digits
2.5生理学的特徴と運動能力の関係についてのデータセット
データセット名 linnerud
20 人の成人男性がフィットネスクラブで測定した 3 つの生理学的特徴(体重、胴囲、脈拍)と、3つの運動能力(懸垂の回数、腹筋の回数、跳躍)の関係を示したデータセット | |
3 個の特徴から、その”地域orエリア”の「懸垂の回数」「腹筋の回数」「跳躍」を予測する 特徴の名前 Chins 説明 懸垂の回数 特徴の名前 Situps 説明 腹筋の回数 特徴の名前 Jumps 説明 跳躍の回数 |
2.6ワイン認識データセット
データセット名 wine
2.7乳ガンのデータセット
データセット名 breast_cancer
569 人分の乳ガンの診断データセット 各サンプルは 30 種類の腫瘍の特徴量と腫瘍が良性か悪性かの診断結果を含んでいる | |
30 個の特徴から、その人が悪性か良性かを分類する 予測する対象 malignant 説明 悪性 データ内では「 0 」 予測する対象 benign 説明 良性 データ内では「 1 」 |
3.実世界データセット
40 人の各 10 種類の顔画像データセット
顔写真からどの人なのかを当てよう!
20 の話題に関する 18000 のニュース記事データセット
何の話題について書かれているか分類しよう!
5749 人分の有名人の顔写真データセット
顔写真からどの人なのかを当てよう!
森林の木の種類データセット
土地の情報を元に、生えてる木の種類を当てよう!
カテゴリ別のニュースデータセット
このニュースは何のトピックについて書かれているか分類しよう!
ネットワークの侵入検知データセット
ネットワーク通信が攻撃的かどうかを当てよう!
カリフォルニアの住宅価格データセット
家賃を予測しよう!