熊猫样本数据集

当使用 R 时,使用以下命令加载“实践”数据集是很方便的

data(iris)

或者

data(mtcars)

熊猫也有类似的东西吗?我知道我可以使用任何其他方法加载,只是好奇是否有任何内置的东西。

91725 次浏览

rpy2模块就是为此而设计的:

from rpy2.robjects import r, pandas2ri
pandas2ri.activate()


r['iris'].head()

产量

   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
1           5.1          3.5           1.4          0.2  setosa
2           4.9          3.0           1.4          0.2  setosa
3           4.7          3.2           1.3          0.2  setosa
4           4.6          3.1           1.5          0.2  setosa
5           5.0          3.6           1.4          0.2  setosa

到熊猫0.19,你可以使用熊猫自己的 rpy界面:

import pandas.rpy.common as rcom
iris = rcom.load_data('iris')
print(iris.head())

产量

   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
1           5.1          3.5           1.4          0.2  setosa
2           4.9          3.0           1.4          0.2  setosa
3           4.7          3.2           1.3          0.2  setosa
4           4.6          3.1           1.5          0.2  setosa
5           5.0          3.6           1.4          0.2  setosa

rpy2还提供了一种方式 R对象转换为 Python 对象:

import pandas as pd
import rpy2.robjects as ro
import rpy2.robjects.conversion as conversion
from rpy2.robjects import pandas2ri
pandas2ri.activate()


R = ro.r


df = conversion.ri2py(R['mtcars'])
print(df.head())

产量

    mpg  cyl  disp   hp  drat     wt   qsec  vs  am  gear  carb
0  21.0    6   160  110  3.90  2.620  16.46   0   1     4     4
1  21.0    6   160  110  3.90  2.875  17.02   0   1     4     4
2  22.8    4   108   93  3.85  2.320  18.61   1   1     4     1
3  21.4    6   258  110  3.08  3.215  19.44   1   0     3     1
4  18.7    8   360  175  3.15  3.440  17.02   0   0     3     2

任何公开的。Csv 文件可以使用其 URL 极快地加载到熊猫中。下面是一个使用最初来自 UCI 归档的 Iris 数据集的示例。

import pandas as pd


file_name = "https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv"
df = pd.read_csv(file_name)
df.head()

这里的输出是刚刚从给定 URL 加载的. csv 文件头。

>>> df.head()
sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

同样一个令人难忘的短 URL 是 https://j​.mp/iriscsv。这个简短的 URL 只有在键入的情况下才能工作,而复制粘贴的情况下则不能工作。

自从我最初编写这个答案以来,我已经用许多现在可用于在 Python 中访问示例数据集的方法对它进行了更新。就我个人而言,我倾向于坚持我自己的方案 已经使用(通常是海运或熊猫)。如果你需要离线访问, 安装与被子的数据集似乎是唯一的选择。

海洋生物

卓越的绘图软件包 seaborn有几个内置的示例数据集。

import seaborn as sns


iris = sns.load_dataset('iris')
iris.head()
   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

熊猫

如果您不想导入 seaborn,但仍然想访问 < a href = “ https://github.com/mwaskom/seabon-data”rel = “ norefrer”> 其示例 数据集 ,您可以使用@andrewwowens 的方法对海运样本进行处理 数据:

iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

请注意,包含分类列的示例数据集的 < a href = “ https://github.com/mwaskom/seabon/blob/10bdb18f47bb5fc0a30d34954ff6f174b4cf5881/seborn/utils.py # L396”rel = “ noReferrer”> 列 类型被 sns.load_dataset() 修改,结果可能不一样 虹膜和提示样本数据集 可在熊猫 github 回购 给你

R 样本数据集

由于任何数据集都可以通过 pd.read_csv()读取,因此可以访问所有数据集 通过从 < a href = “ https://vincentarelbundock.github.io/R 数据集/数据集 s.html”rel = “ noReferrer”> 这个 R 数据集复制 URL,R 的示例数据集 存储库 .

加载 R 示例数据集的其他方法包括 statsmodel

import statsmodels.api as sm


iris = sm.datasets.get_rdataset('iris').data

PyDataset

from pydataset import data


iris = data('iris')

Scikit-learn

scikit-learn以数字数组而不是熊猫数据的形式返回样本数据 相框。

from sklearn.datasets import load_iris


iris = load_iris()
# `iris.data` holds the numerical values
# `iris.feature_names` holds the numerical column names
# `iris.target` holds the categorical (species) values (as ints)
# `iris.target_names` holds the unique categorical names

被子

Quilt 是一个数据集管理器,用于方便 它包括许多常见的样本数据集,例如 来自 < a href = “ https://archive. ics.uci.edu/ml/index.php”rel = “ norefrer”> uciml 样本的几个 Ref = “ https://docs.quiltdata.com/get-start/fast-start”rel = “ norefrer”> fast start Page 显示如何安装 导入虹膜数据集:

# In your terminal
$ pip install quilt
$ quilt install uciml/iris

安装数据集后,可以在本地访问它,因此如果您想脱机处理数据,这是最佳选择。

import quilt.data.uciml.iris as ir


iris = ir.tables.iris()
   sepal_length  sepal_width  petal_length  petal_width        class
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa
3           4.6          3.1           1.5          0.2  Iris-setosa
4           5.0          3.6           1.4          0.2  Iris-setosa

Quilt 还支持数据集版本控制,包括一个 < a href = “ https://quiltdata.com/package/uciml/iris/”rel = “ norefrer”> short 每个数据集的描述

内置的熊猫测试 DataFrame 非常方便。

Make MixedDataFrame () :

In [22]: import pandas as pd


In [23]: pd.util.testing.makeMixedDataFrame()
Out[23]:
A    B     C          D
0  0.0  0.0  foo1 2009-01-01
1  1.0  1.0  foo2 2009-01-02
2  2.0  0.0  foo3 2009-01-05
3  3.0  1.0  foo4 2009-01-06
4  4.0  0.0  foo5 2009-01-07

其他测试数据框架选项:

MakeDataFrame () :

In [24]: pd.util.testing.makeDataFrame().head()
Out[24]:
A         B         C         D
acKoIvMLwE  0.121895 -0.781388  0.416125 -0.105779
jc6UQeOO1K -0.542400  2.210908 -0.536521 -1.316355
GlzjJESv7a  0.921131 -0.927859  0.995377  0.005149
CMhwowHXdW  1.724349  0.604531 -1.453514 -0.289416
ATr2ww0ctj  0.156038  0.597015  0.977537 -1.498532

Make MissingDataframe () :

In [27]: pd.util.testing.makeMissingDataframe().head()
Out[27]:
A         B         C         D
qyXLpmp1Zg -1.034246  1.050093       NaN       NaN
v7eFDnbQko  0.581576  1.334046 -0.576104 -0.579940
fGiibeTEjx -1.166468 -1.146750 -0.711950 -0.205822
Q8ETSRa6uY  0.461845 -2.112087  0.167380 -0.466719
7XBSChaOyL -1.159962 -1.079996  1.585406 -1.411159

MakeTimeDataFrame () :

In [28]: pd.util.testing.makeTimeDataFrame().head()
Out[28]:
A         B         C         D
2000-01-03 -0.641226  0.912964  0.308781  0.551329
2000-01-04  0.364452 -0.722959  0.322865  0.426233
2000-01-05  1.042171  0.005285  0.156562  0.978620
2000-01-06  0.749606 -0.128987 -0.312927  0.481170
2000-01-07  0.945844 -0.854273  0.935350  1.165401

我在 这个 Github 回购中提供了一些公共数据集。你可以通过 pd.read_csv(url_to_file.csv)加载它们

Iris

iris = pd.read_csv("https://raw.githubusercontent.com/practiceprobs/datasets/main/iris/iris.csv")
iris.head()
sepal_length  sepal_width  petal_length  petal_width      species
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa
3           4.6          3.1           1.5          0.2  Iris-setosa
4           5.0          3.6           1.4          0.2  Iris-setosa

Mnist

mnist = pd.read_csv("https://raw.githubusercontent.com/practiceprobs/datasets/main/MNIST/mnist.csv")
mnist.head()
label  1x1  1x2  1x3  1x4  1x5  ...  28x23  28x24  28x25  28x26  28x27  28x28
0      7    0    0    0    0    0  ...      0      0      0      0      0      0
1      2    0    0    0    0    0  ...      0      0      0      0      0      0
2      1    0    0    0    0    0  ...      0      0      0      0      0      0
3      0    0    0    0    0    0  ...      0      0      0      0      0      0
4      4    0    0    0    0    0  ...      0      0      0      0      0      0
[5 rows x 785 columns]

Netflix 的片头

netflix = pd.read_csv("https://raw.githubusercontent.com/practiceprobs/datasets/main/netflix-titles/netflix-titles.csv")
netflix.head()
show_id  ...                                        description
0      s1  ...  As her father nears the end of his life, filmm...
1      s2  ...  After crossing paths at a party, a Cape Town t...
2      s3  ...  To protect his family from a powerful drug lor...
3      s4  ...  Feuds, flirtations and toilet talk go down amo...
4      s5  ...  In a city of coaching centers known to train I...
[5 rows x 12 columns]