这是关于pandas的简短介绍,主要面向新用户。可以参阅Cookbook了解更复杂的使用方法。
习惯上,我们做以下导入
1 2 3 |
In [1]: import pandas as pd In [2]: import numpy as np In [3]: import matplotlib.pyplot as plt |
创建对象
使用传递的值列表序列创建序列, 让pandas创建默认整数索引
1 2 3 4 5 6 7 8 9 10 |
In [4]: s = pd.Series([1,3,5,np.nan,6,8]) In [5]: s Out[5]: 0 1 1 3 2 5 3 NaN 4 6 5 8 dtype: float64 |
使用传递的numpy数组创建数据帧,并使用日期索引和标记列.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
In [6]: dates = pd.date_range('20130101',periods=6) In [7]: dates Out[7]: <class 'pandas.tseries.index.DatetimeIndex'> [2013-01-01, ..., 2013-01-06] Length: 6, Freq: D, Timezone: None In [8]: df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) In [9]: df Out[9]: A B C D 2013-01-01 0.469112 -0.282863 -1.509059 -1.135632 2013-01-02 1.212112 -0.173215 0.119209 -1.044236 2013-01-03 -0.861849 -2.104569 -0.494929 1.071804 2013-01-04 0.721555 -0.706771 -1.039575 0.271860 2013-01-05 -0.424972 0.567020 0.276232 -1.087401 2013-01-06 -0.673690 0.113648 -1.478427 0.524988 |
使用传递的可转换序列的字典对象创建数据帧.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
In [10]: df2 = pd.DataFrame({ 'A' : 1., ....: 'B' : pd.Timestamp('20130102'), ....: 'C' : pd.Series(1,index=list(range(4)),dtype='float32'), ....: 'D' : np.array([3] * 4,dtype='int32'), ....: 'E' : pd.Categorical(["test","train",s="crayon-s">'E' : pd.Categorical(["test","train",yon Syntax Highlighter v2.7.1.1 -->
创建对象使用传递的值列表序列创建序列, 让pandas创建默认整数索引
使用传递的numpy数组创建数据帧,并使用日期索引和标记列.
使用传递的可转换序列的字典对象创建数据帧.
|