黄天元,复旦大学理学博士。热爱数据科学与开源工具,致力于利用数据科学迅速积累行业经验优势和科学知识发现,研究领域包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等。在CRAN上维护了3个下载量破万的R包(akc、tidyfst、tidyft),著有《R语言高效数据处理指南》一书,并设有知乎专栏“R语言数据挖掘”,关注人数9000+。
文本数据挖掘 基于R语言
黄天元
评分 暂无
文本是一种特殊的非结构化数据,在当今的大数据时代,其价值日趋凸显。本书利用开源而强大的R软件,对文本数据挖掘的概念、技术及技巧进行了系统的介绍。本书共11章,内容包括:走进文本数据挖掘,R语言快速入门,字符串的基本处理,用好正则表达式,导入各类文本数据,对各类文本数据进行预处理,文本特征提取的4种方法,基于机器学习的文本分类方法,文本情感分析,文本可视化,文本数据挖掘项目实践。本书还提供了丰
R语言数据高效处理指南
R语言在近10年来已经发生了日新月异的变化,不仅在内容上更加丰富多彩,而且在计算效率上也有了大幅的提升。它被更加广泛地用于数据可视化、统计建模、机器学习等领域,而且还能实现网络爬虫、网络应用开发等功能,成为数据科学领域的全能型工具。R语言在学术界的地位已经不容置疑,在大数据时代中它是保证研究可重复性的重要工具。随着功能的日益完善,R语言已经进军工业界,并在金融、保险、医疗、生物和信息计量等不