利用Python进行数据分析 - Wes McKinney

利用Python进行数据分析

Wes McKinney

出版时间

2013-11-18

ISBN

9787111436737

评分

★★★★★

标签

编程

书籍介绍

【名人推荐】

“科学计算和数据分析社区已经等待这本书很多年了:大量具体的实践建议,以及大量综合应用方法。本书在未来几年里肯定会成为Python领域中技术计算的权威指南。”

——Fernando Pérez 加州大学伯克利分校 研究科学家, IPython的创始人之一

【内容简介】

还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程?本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题。

由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。

•将IPython这个交互式Shell作为你的首要开发环境。

•学习NumPy(Numerical Python)的基础和高级知识。

•从pandas库的数据分析工具开始。

•利用高性能工具对数据进行加载、清理、转换、合并以及重塑。

•利用matplotlib创建散点图以及静态或交互式的可视化结果。

•利用pandas的groupby功能对数据集进行切片、切块和汇总操作。

•处理各种各样的时间序列数据。

•通过详细的案例学习如何解决Web分析、社会科学、金融学以及经•济学等领域的问题。

AI导读
核心看点
  • pandas作者亲授,权威指南
  • 涵盖NumPy、pandas等核心库
  • 从数据清洗到可视化的全流程
适合谁读
  • 初学Python的数据分析人员
  • 需处理结构化数据的程序员
  • 希望掌握科学计算工具的读者
读前提醒
  • 建议搭配Anaconda环境运行代码
  • 此书更适合作为工具书随时查阅
  • 需具备基础Python语法知识
读者共识
  • 公认的Pandas库最佳入门教材
  • 实战性强,但部分代码需更新
  • 适合边读边敲代码,重在实践

本导读基于书籍简介、目录、原文摘录、短评和书评生成,不等同于全文精读。

精彩摘录
  • "数组切片是原始数据的视图。这意味着数据不会被复制,视图上的任何修改都会直接反映到源数组上。"
  • "records = [json.loads(line) for line in open(path)]"
  • "The probability density function for lognorm is: lognorm.pdf(x, s) = 1 / (s*x*sqrt(2*pi)) * exp(-1/2*(log(x)/s)**2) for x > 0, s > 0. lognorm takes s as a shape parameter. The probability density above is defined in the “standardized” form. To shift and/or scale the distribution use the loc and scal"
  • "def get_top_amounts(group, key, n=5): totals = group.groupby(key)['contb_receipt_amt'].sum() # Order totals by key in descending order return totals.order(ascending=False)[-n:]"
  • "return totals.order(ascending=False)[:n]"
  • "TypeError: pivot_table() got an unexpected keyword argument 'rows'"
  • "从0开始,步长1和-1出现的概率相等。通过内置的random模块以纯python的方式实现1000步的随机漫步: In [1]: import random In [2]: position=0 In [3]: walk=[position] In [4]: steps=1000 In [5]: for i in xrange(steps): ...: step=1 if random.randint(0,1) else -1 ...: position += step ...: walk.append(position) ...: 我用np.random模块一次性随机产生1000个“掷硬币的"
  • "dateutil可以解析几乎所有人类能够理解的日期表示形式。(很遗憾,中文不行)"
作者简介
Wes McKinney 资深数据分析专家,对各种Python库(包括NumPy、pandas、matplotlib以及IPython等)等都有深入研究,并在大量的实践中积累了丰富的经验。撰写了大量与Python数据分析相关的经典文章,被各大技术社区争相转载,是Python和开源技术社区公认的权威人物之一。开发了用于数据分析的著名开源Python库——pandas,广获用户好评。在创建Lambda Foundry(一家致力于企业数据分析的公司)之前,他曾是AQR Capital Management的定量分析师。
目录
目录
前言 1
第1章 准备工作 5
本书主要内容 5
为什么要使用Python进行数据分析 6

显示全部
用户评论
向译者致敬,如果所有人在译书时都能亲自敲一遍代码再多点探索精神,中国的计算机启蒙书市场就不会一片灾难了。其实每个python第三方库的原始开发者都能出来现身说法一下,应该比随便什么人出本说明书就讲讲用法好得多,更何况能基于python标准库开发第三方库,功底也定然深厚,这本身也是书质量过关的保证,这点从numpy高级用法一章和附录A很容易感受到(我这种自学草民表示认识被刷新),有的时候why比how重要。现在看来pandas的初衷是做金融数据分析吧,时间数据的处理相当厉害。
pandas库的操作指南,结合ipython;不过数据分析的坑太大了,其重点不再编程语言上,我还是老老实实学python后端吧
作者是pandas作者,之前在AQR工作的
这本很好,比较全,也很好入门。
工具书,所以不好用 实际场景下都是直接去查谷歌 来得更快,因为书里只涉及到了基础的一些东西,工作场景下问题多了去了
从想读,到读完,陆陆续续花了2年时间,中间放下了很久。最近因为接触到相关知识,有了一定基础,基本上是花了2天时间粗略翻完。是一本不错的入门工具书。
Pandas numpy重跟了遍
不错的工具书
其实是一本 pandas 入门示例书
Pandas, numpy, matplotlib三个库的百科工具书。美中不足的是,对各个功能只介绍了最简单的用法,没能注明复杂用法或进阶指南,所以遇到问题根据目录翻到相应章节往往能找到适用的功能,但也止于隔靴搔痒,需要进一步探索documentation/stackoverflow
下载
收藏