书籍介绍
网络爬虫是当今获取数据不可或缺的重要手段。本书讲解了Python爬虫的基础知识和必备技能,帮助零基础的读者快速入门并熟练使用爬虫。
全书共8章。第1章讲解Python开发环境的安装与配置以及Python的基础语法知识。第2章讲解如何运用Requests库和Selenium库获取网页源代码。第3章讲解如何运用正则表达式和BeautifulSoup库解析和提取数据。第4章深入讲解Selenium库在商业实战中的进阶应用。第5章讲解爬虫数据的处理与可视化。第6章讲解爬虫数据结构化神器pandas库,以及如何通过Python在MySQL数据库中读写数据。第7章讲解如何运用多线程和多进程技术提高爬虫效率。第8章讲解如何运用IP代理应对网站的反爬机制。
本书对于编程新手来说非常友好,从Python基础到爬虫原理再到实战应用,循序渐进地帮助读者打好基础。对于有一定Python爬虫基础的读者,本书也针对实战中常见的疑点和难点提供了解决技巧。
王宇韬
华能贵诚信托金融科技实验室发起人,宾夕法尼亚大学硕士,上海交通大学学士,曾在剑桥大学交流学习,两年内通过CFA3级、FRM2级、AQF。在华能贵诚信托自主研发了舆情监控系统、资金雷达、流程自动化AI系统、机器视频面试系统等;专注于科技在金融领域的应用,编著有《Python金融大数据挖掘与分析全流程详解》和《Python大数据分析与机器学习商业案例实战》。
吴子湛
毕业于合肥工业大学计算机学院,就职于南京市秦淮区大数据中心;拥有多年IT研发经验,擅长大数据分析与挖掘。