利用Python进行数据分析

Name: 利用Python进行数据分析
Availability: InStock
Rating: 8.6 (1648 reviews)
ISBN: 9787111436737

Wes McKinney

出版社

机械工业出版社

出版时间

2013-11-18

ISBN

9787111436737

评分

★★★★★

标签

编程

书籍介绍

【名人推荐】

“科学计算和数据分析社区已经等待这本书很多年了：大量具体的实践建议，以及大量综合应用方法。本书在未来几年里肯定会成为Python领域中技术计算的权威指南。”

——Fernando Pérez　加州大学伯克利分校研究科学家， IPython的创始人之一

【内容简介】

还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程？本书含有大量的实践案例，你将学会如何利用各种Python库（包括NumPy、pandas、matplotlib以及IPython等）高效地解决各式各样的数据分析问题。

由于作者Wes McKinney是pandas库的主要作者，所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。

•将IPython这个交互式Shell作为你的首要开发环境。

•学习NumPy（Numerical Python）的基础和高级知识。

•从pandas库的数据分析工具开始。

•利用高性能工具对数据进行加载、清理、转换、合并以及重塑。

•利用matplotlib创建散点图以及静态或交互式的可视化结果。

•利用pandas的groupby功能对数据集进行切片、切块和汇总操作。

•处理各种各样的时间序列数据。

•通过详细的案例学习如何解决Web分析、社会科学、金融学以及经•济学等领域的问题。

AI导读

核心看点

pandas作者亲授，权威指南
涵盖NumPy、pandas等核心库
从数据清洗到可视化的全流程

适合谁读

初学Python的数据分析人员
需处理结构化数据的程序员
希望掌握科学计算工具的读者

读前提醒

建议搭配Anaconda环境运行代码
此书更适合作为工具书随时查阅
需具备基础Python语法知识

读者共识

公认的Pandas库最佳入门教材
实战性强，但部分代码需更新
适合边读边敲代码，重在实践

本导读基于书籍简介、目录、原文摘录、短评和书评生成，不等同于全文精读。

精彩摘录

"数组切片是原始数据的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。"
"records = [json.loads(line) for line in open(path)]"
"The probability density function for lognorm is: lognorm.pdf(x, s) = 1 / (s*x*sqrt(2*pi)) * exp(-1/2*(log(x)/s)**2) for x > 0, s > 0. lognorm takes s as a shape parameter. The probability density above is defined in the “standardized” form. To shift and/or scale the distribution use the loc and scal"
"def get_top_amounts(group, key, n=5): totals = group.groupby(key)['contb_receipt_amt'].sum() # Order totals by key in descending order return totals.order(ascending=False)[-n:]"
"return totals.order(ascending=False)[:n]"
"TypeError: pivot_table() got an unexpected keyword argument 'rows'"
"从0开始，步长1和-1出现的概率相等。通过内置的random模块以纯python的方式实现1000步的随机漫步： In [1]: import random In [2]: position=0 In [3]: walk=[position] In [4]: steps=1000 In [5]: for i in xrange(steps): ...: step=1 if random.randint(0,1) else -1 ...: position += step ...: walk.append(position) ...: 我用np.random模块一次性随机产生1000个“掷硬币的"
"dateutil可以解析几乎所有人类能够理解的日期表示形式。（很遗憾，中文不行）"

作者简介

Wes McKinney 资深数据分析专家，对各种Python库（包括NumPy、pandas、matplotlib以及IPython等）等都有深入研究，并在大量的实践中积累了丰富的经验。撰写了大量与Python数据分析相关的经典文章，被各大技术社区争相转载，是Python和开源技术社区公认的权威人物之一。开发了用于数据分析的著名开源Python库——pandas，广获用户好评。在创建Lambda Foundry（一家致力于企业数据分析的公司）之前，他曾是AQR Capital Management的定量分析师。

前言 1

第1章准备工作 5

本书主要内容 5

为什么要使用Python进行数据分析 6

显示全部

用户评论

向译者致敬，如果所有人在译书时都能亲自敲一遍代码再多点探索精神，中国的计算机启蒙书市场就不会一片灾难了。其实每个python第三方库的原始开发者都能出来现身说法一下，应该比随便什么人出本说明书就讲讲用法好得多，更何况能基于python标准库开发第三方库，功底也定然深厚，这本身也是书质量过关的保证，这点从numpy高级用法一章和附录A很容易感受到（我这种自学草民表示认识被刷新），有的时候why比how重要。现在看来pandas的初衷是做金融数据分析吧，时间数据的处理相当厉害。

pandas库的操作指南，结合ipython；不过数据分析的坑太大了，其重点不再编程语言上，我还是老老实实学python后端吧

作者是pandas作者，之前在AQR工作的

这本很好，比较全，也很好入门。

工具书，所以不好用实际场景下都是直接去查谷歌来得更快，因为书里只涉及到了基础的一些东西，工作场景下问题多了去了

从想读，到读完，陆陆续续花了2年时间，中间放下了很久。最近因为接触到相关知识，有了一定基础，基本上是花了2天时间粗略翻完。是一本不错的入门工具书。

Pandas numpy重跟了遍

不错的工具书

其实是一本 pandas 入门示例书

Pandas, numpy, matplotlib三个库的百科工具书。美中不足的是，对各个功能只介绍了最简单的用法，没能注明复杂用法或进阶指南，所以遇到问题根据目录翻到相应章节往往能找到适用的功能，但也止于隔靴搔痒，需要进一步探索documentation/stackoverflow

你可能会关注的书籍