Python数据科学手册

Name: Python数据科学手册
Availability: InStock
Rating: 9.3 (483 reviews)
ISBN: 9787115475893

[美] Jake VanderPlas

出版社

人民邮电出版社

出版时间

2018-01-19

ISBN

9787115475893

评分

★★★★★

标签

编程

书籍介绍

本书是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章，每章介绍一到两个Python数据科学中的重点工具包。首先从IPython和Jupyter开始，它们提供了数据科学家需要的计算环境；第2章讲解能提供ndarray对象的NumPy，它可以用Python高效地存储和操作大型数组；第3章主要涉及提供DataFrame对象的Pandas，它可以用Python高效地存储和操作带标签的/列式数据；第4章的主角是Matplotlib，它为Python提供了许多数据可视化功能；第5章以Scikit-Learn为主，这个程序库为最重要的机器学习算法提供了高效整洁的Python版实现。

本书适合有编程背景，并打算将开源Python工具用作分析、操作、可视化以及学习数据的数据科学研究人员。

AI导读

核心看点

系统讲解IPython、NumPy、Pandas、Matplotlib及Scikit-Learn五大核心工具包
代码示例开源可执行，配套Notebook方便读者直接运行验证，实战性强
侧重原理与实践结合，知识点衔接紧密，适合作为数据科学进阶参考手册

适合谁读

具备一定编程基础，希望系统掌握Python数据科学工具链的研究人员
已入门Python，寻求从基础语法向数据分析与机器学习进阶的开发者
需要高效查阅NumPy、Pandas等库用法及最佳实践的数据分析师

读前提醒

本书非零基础入门书，建议先掌握Python基础语法再阅读，否则易遇障碍
推荐结合GitHub开源Notebook同步学习，直接运行代码以加深理解
可视作工具书查阅，遇到具体功能需求时针对性阅读相关章节效率更高

读者共识

内容精炼且结构清晰，相比其他书籍更侧重原理，适合查漏补缺与进阶
配套代码开源且可执行，极大降低了学习门槛，是数据科学经典读物
虽评分极高，但部分读者认为机器学习部分较简略，需结合其他资料

本导读基于书籍简介、目录、原文摘录、短评和书评生成，不等同于全文精读。

精彩摘录

"Looking through the Python 3.4 source code, we find that the integer (long) type definition effectively looks like this (once the C macros are expanded):"
"Here PyObject_HEAD is the part of the structure containing the reference count, type code, and other pieces mentioned before. Notice the difference here: a C integer is essentially a label for a position in memory whose bytes encode an integer value. A Python integer is a pointer to a position in me"
"速度很快，而且不需要选择超参数，所以通常很适合作为初步分类手段，在借助更复杂的模型进行优化之前使用。"

作者简介

Jake VanderPlas，Python科学栈深度用户和开发者，尤其擅长Python科学计算和数据可视化，是altair等可视化程序库的创建人，并为Scikit-Learn、IPython等Python程序库做了大量贡献。现任美国华盛顿大学eScience学院物理科学研究院院长。

译者序 xiii

前言 xv

第1 章　IPython：超越Python 1

1.1　shell还是Notebook 1

1.1.1　启动IPython shell 2

显示全部

用户评论

Well-organized 凡是碰到的概念都提前声明了

很好 notebook在github上开源可执行。竟然还包括如何实现书中所有图的代码。

除了版本低了，还是看2版吧。

这本书涉及到了数据分析常用的东西，跟实际操作接轨了。可以用做平时工作时的一个辅助，查询忘记了的东西。

实话告诉我，pandas那张是不是删了点什么....merge函数开始，on参数那里上来就说最好的办法是...前面问题你好歹告诉我啊！后面的例子举的真的很莫名其妙啊。不过是很好的工具书了，祝我渡劫python课。

这本书的厚度很适合作为数据工程的指标，1/2的pd+plt，1/3的mL，相比李庆辉(2021)这本书的策略更直白，能上eval和query的全上。其他部分写的中等偏上，PLT没有写成图层语法是一个缺憾，机器学习作为方法罗列疏密得当，差评在于没写成FP的形式。数据科学真的更适合FP，因为大部分的操作都是【纯】的。

比那本鼹鼠（？）书更详细机器学习的篇幅很多可视化也有一整章介绍，不过我选择R（？）

说实话，我感觉和看官方文档差异不大...可能就一些实操案例比较好吧，但是这种资源现在网上太多了

一刷完，属于Python进阶，决定先看Python crash course，再刷numpy、pandas，特别是pandas。

翻看除了机器学习的前四章，举的例子总体不错，作为手册突出查阅的共时性而非学习的历时性还是合适的。然而手册只是说明书，只能留下工具可以做什么的大概印象，因此看的时候主要也是看了结果而非实现方式。具体该做什么或者该怎么做，还是得等到在实践中结合目的因，才能慢慢体会。

你可能会关注的书籍

Python数据科学手册第2版（Python Data Science Handbook 影印版）
（美）杰克·万托布拉斯

人民邮电出版社的其他书籍查看全部

下载