X

Pandas让Python变得更好

Pandas使用Python进行数据处理

除了Smucker的Goober开玩笑之外,Pandas仅仅通过内置Python就能使Python成为Data Science更可行的语言。 这并不是说Python没有许多可以模仿这种效果的出色软件包,因为Python拥有数量众多的用于机器学习和数据处理的软件包。 Pandas使得相对困难的事情,或者在其他语言中更加痛苦的事情,在Python中变得异常容易。

IPython的

支持Pandas的最大事情是-Pandas本身。 该软件包来自第一方,旨在合并数据科学的主要内容,例如IPython Notebooks和Numpy。 将它们组合在一起的方式很有道理,但我不只是告诉您,我还将向您展示使用其他语言的软件包的感觉,这是我的最爱:

Julia

有趣的是,我们用来创建数据框架的软件包是DataFrames.jl。 当然,我们现在将使用逗号分隔值文件(CSV文件)。 所以第一步就是读取我们的数据……但是我们该怎么做呢? 在更改日志中,简要提到了一种称为read_table的方法,但是在大多数情况下,这似乎已被弃用。

“省略了12列打印”

好吧,一切都很好,但是为什么呢? 出于某种奇怪的原因,他们选择根据列的特定长度,在Iframe外部渲染数据帧,并省略列。 那么我们如何显示所有列? 显示所有列非常容易,只需在show方法中添加bool类型参数即可,如下所示:

相信我,R的数据框架也不如Pandas好,在大多数情况下,使用R和Julia的人倾向于PyCall Pandas,而不是使用各自语言的数据框架包。

脾气暴躁的

重要的是要记住,由于这是一种编程语言,因此香草Python和线性代数实际上并没有您想象的那样好。 我认为这仅仅是因为Python比”线性代数”具有更高的水平,而且当然不应该期望它成为许多公司现在深陷其中的统计语言。当然,我的df.dropna()示例是非常轻巧的,但可以保证在某些时候与Numpy的紧密集成将使您的生活比以前更加轻松!

Pandas本身

除了Pandas与其他Python软件包的出色集成和方法论之外,Pandas还具有许多好处,它们所做的所有出色的开源工作都提供了这些好处。 每一次转弯,分度,连接,融化,旋转,甚至交叉制表都可以与Pandas一起完成。 这些任务确实可以使用其他程序包提供一整小时的工作,但是使用Pandas可以轻松,即时地完成任务。

借助replace()函数之类的简单工具,可以更轻松地使用Pandas,该工具可用于替换NaN或只是奇怪的数据。 Pandas做了很多工作,做了一点工作,这就是它如此受欢迎和令人印象深刻的原因。 但是Pandas还有其他一些巨大的好处。

字符串访问器

是的,传说是正确的:

数据框是荣耀的字典。

但是,并非所有字典都是一样的。 首先,在我所知道的语言中,熊猫的条件屏蔽是迄今为止最好的。

如您所见,典型的字符串命名方案在Julia中不起作用。 取而代之的是,Julia使用的符号是通过在变量名前加一个冒号而创建的。 因此,让我们尝试使用符号代替: