
从统计学科与计算机科学的性质认知,大数据是指那些超过传统数据系统处理能力,超越经典统计思想研究范围,不借用网络无法用主流软件工具及技术进行单机分析的复杂数据的集合。对于这一数据集合,在一定的条件下和合理的时间内,我们可以通过现代计算机技术和创新的统计方法,有目的地进行设计、获取、管理、分析,显示隐藏在其中的有价值的模式和知识。
本书共分为五章,其内容包括大数据下的统计理论体系,大数据下的数据集整合分析,大数据下的高维变量选择方法,大数据下的统计分析方法并行计算和大数据下的统计方法应用----网络舆情分析。