Pandas让Python变得更好

toutiao

7年之前

Pandas使用Python进行数据处理

除了Smucker的Goober开玩笑之外，Pandas仅仅通过内置Python就能使Python成为Data Science更可行的语言。这并不是说Python没有许多可以模仿这种效果的出色软件包，因为Python拥有数量众多的用于机器学习和数据处理的软件包。 Pandas使得相对困难的事情，或者在其他语言中更加痛苦的事情，在Python中变得异常容易。

IPython的

支持Pandas的最大事情是-Pandas本身。该软件包来自第一方，旨在合并数据科学的主要内容，例如IPython Notebooks和Numpy。将它们组合在一起的方式很有道理，但我不只是告诉您，我还将向您展示使用其他语言的软件包的感觉，这是我的最爱：

Julia

有趣的是，我们用来创建数据框架的软件包是DataFrames.jl。当然，我们现在将使用逗号分隔值文件（CSV文件）。所以第一步就是读取我们的数据……但是我们该怎么做呢？在更改日志中，简要提到了一种称为read_table的方法，但是在大多数情况下，这似乎已被弃用。

“省略了12列打印”

好吧，一切都很好，但是为什么呢？出于某种奇怪的原因，他们选择根据列的特定长度，在Iframe外部渲染数据帧，并省略列。那么我们如何显示所有列？显示所有列非常容易，只需在show方法中添加bool类型参数即可，如下所示：

相信我，R的数据框架也不如Pandas好，在大多数情况下，使用R和Julia的人倾向于PyCall Pandas，而不是使用各自语言的数据框架包。

脾气暴躁的

重要的是要记住，由于这是一种编程语言，因此香草Python和线性代数实际上并没有您想象的那样好。我认为这仅仅是因为Python比”线性代数”具有更高的水平，而且当然不应该期望它成为许多公司现在深陷其中的统计语言。当然，我的df.dropna（）示例是非常轻巧的，但可以保证在某些时候与Numpy的紧密集成将使您的生活比以前更加轻松！

Pandas本身

除了Pandas与其他Python软件包的出色集成和方法论之外，Pandas还具有许多好处，它们所做的所有出色的开源工作都提供了这些好处。每一次转弯，分度，连接，融化，旋转，甚至交叉制表都可以与Pandas一起完成。这些任务确实可以使用其他程序包提供一整小时的工作，但是使用Pandas可以轻松，即时地完成任务。

借助replace（）函数之类的简单工具，可以更轻松地使用Pandas，该工具可用于替换NaN或只是奇怪的数据。 Pandas做了很多工作，做了一点工作，这就是它如此受欢迎和令人印象深刻的原因。但是Pandas还有其他一些巨大的好处。

字符串访问器

是的，传说是正确的：

数据框是荣耀的字典。

但是，并非所有字典都是一样的。首先，在我所知道的语言中，熊猫的条件屏蔽是迄今为止最好的。

如您所见，典型的字符串命名方案在Julia中不起作用。取而代之的是，Julia使用的符号是通过在变量名前加一个冒号而创建的。因此，让我们尝试使用符号代替：

王俊凯班级聚餐，班花浓眉大眼颜值太高，网友：担心小凯被抢走 »

« 从富豪妻子到兜里只剩2000，从云端跌落到泥潭的她值得羡慕么