Python数据科学手册 - [美] Jake VanderPlas

Python数据科学手册

[美] Jake VanderPlas

出版时间

2018-01-19

ISBN

9787115475893

评分

★★★★★

标签

编程

书籍介绍

本书是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章,每章介绍一到两个Python数据科学中的重点工具包。首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境;第2章讲解能提供ndarray对象的NumPy,它可以用Python高效地存储和操作大型数组;第3章主要涉及提供DataFrame对象的Pandas,它可以用Python高效地存储和操作带标签的/列式数据;第4章的主角是Matplotlib,它为Python提供了许多数据可视化功能;第5章以Scikit-Learn为主,这个程序库为最重要的机器学习算法提供了高效整洁的Python版实现。

本书适合有编程背景,并打算将开源Python工具用作分析、操作、可视化以及学习数据的数据科学研究人员。

AI导读
核心看点
  • 系统讲解IPython、NumPy、Pandas、Matplotlib及Scikit-Learn五大核心工具包
  • 代码示例开源可执行,配套Notebook方便读者直接运行验证,实战性强
  • 侧重原理与实践结合,知识点衔接紧密,适合作为数据科学进阶参考手册
适合谁读
  • 具备一定编程基础,希望系统掌握Python数据科学工具链的研究人员
  • 已入门Python,寻求从基础语法向数据分析与机器学习进阶的开发者
  • 需要高效查阅NumPy、Pandas等库用法及最佳实践的数据分析师
读前提醒
  • 本书非零基础入门书,建议先掌握Python基础语法再阅读,否则易遇障碍
  • 推荐结合GitHub开源Notebook同步学习,直接运行代码以加深理解
  • 可视作工具书查阅,遇到具体功能需求时针对性阅读相关章节效率更高
读者共识
  • 内容精炼且结构清晰,相比其他书籍更侧重原理,适合查漏补缺与进阶
  • 配套代码开源且可执行,极大降低了学习门槛,是数据科学经典读物
  • 虽评分极高,但部分读者认为机器学习部分较简略,需结合其他资料

本导读基于书籍简介、目录、原文摘录、短评和书评生成,不等同于全文精读。

精彩摘录
  • "Looking through the Python 3.4 source code, we find that the integer (long) type definition effectively looks like this (once the C macros are expanded):"
  • "Here PyObject_HEAD is the part of the structure containing the reference count, type code, and other pieces mentioned before. Notice the difference here: a C integer is essentially a label for a position in memory whose bytes encode an integer value. A Python integer is a pointer to a position in me"
  • "速度很快,而且不需要选择超参数, 所以通常很适合作为初步分类手段, 在借助更复杂的模型进行优化之前使用。"
作者简介
Jake VanderPlas,Python科学栈深度用户和开发者,尤其擅长Python科学计算和数据可视化,是altair等可视化程序库的创建人,并为Scikit-Learn、IPython等Python程序库做了大量贡献。现任美国华盛顿大学eScience学院物理科学研究院院长。
目录
译者序 xiii
前言 xv
第1 章 IPython:超越Python 1
1.1 shell还是Notebook 1
1.1.1 启动IPython shell 2

显示全部
用户评论
Well-organized 凡是碰到的概念都提前声明了
很好 notebook在github上开源可执行。竟然还包括如何实现书中所有图的代码。
除了版本低了,还是看2版吧。
这本书涉及到了数据分析常用的东西,跟实际操作接轨了。可以用做平时工作时的一个辅助,查询忘记了的东西。
实话告诉我,pandas那张是不是删了点什么....merge函数开始,on参数那里上来就说最好的办法是...前面问题你好歹告诉我啊!后面的例子举的真的很莫名其妙啊。不过是很好的工具书了,祝我渡劫python课。
这本书的厚度很适合作为数据工程的指标,1/2的pd+plt,1/3的mL,相比李庆辉(2021)这本书的策略更直白,能上eval和query的全上。其他部分写的中等偏上,PLT没有写成图层语法是一个缺憾,机器学习作为方法罗列疏密得当,差评在于没写成FP的形式。数据科学真的更适合FP,因为大部分的操作都是【纯】的。
比那本鼹鼠(?)书更详细 机器学习的篇幅很多 可视化也有一整章介绍,不过我选择R(?)
说实话,我感觉和看官方文档差异不大...可能就一些实操案例比较好吧,但是这种资源现在网上太多了
一刷完,属于Python进阶,决定先看Python crash course,再刷numpy、pandas,特别是pandas。
翻看除了机器学习的前四章,举的例子总体不错,作为手册突出查阅的共时性而非学习的历时性还是合适的。然而手册只是说明书,只能留下工具可以做什么的大概印象,因此看的时候主要也是看了结果而非实现方式。具体该做什么或者该怎么做,还是得等到在实践中结合目的因,才能慢慢体会。
下载
收藏