数据科学实战手册(R+Python)

978-7-115-42675-8
作者: 【美】Tony Ojeda(托尼·奥杰德)Sean Patrick Murphy(肖恩·派特里克·墨菲)Benjamin Bengfort(本杰明·班福特)Abhijit Dasgupta(阿布吉特·达斯古普塔)
译者: 郝智恒
编辑: 王峰松

图书目录:

第 1章 准备你的数据科学环境 1

 简介 1

 理解数据科学管道 3

 处理流程 3

 工作原理 3

 在Windows、Mac OS X、Linux上安装R 5

 准备工作 5

 处理流程 5

 工作原理 7

 参考资料 7

 在R和RStudio中安装扩展包 7

 准备工作 8

 处理流程 8

 工作原理 9

 更多内容 10

 参考资料 10

 在Linux和Mac OS X上安装Python 10

 准备工作 11

 处理流程 11

 工作原理 11

 更多内容 11

 参考资料 12

 在Windows上安装Python 12

 处理流程 13

 工作原理 13

 参考资料 14

 在Mac OS X和Linux上安装Python数据分析库 14

 准备工作 14

 处理流程 14

 工作原理 15

 更多内容 16

 参考资料 16

 安装更多Python包 17

 准备工作 17

 处理流程 17

 工作原理 18

 更多内容 18

 参考资料 18

 安装和使用virtualenv 19

 准备工作 19

 处理流程 19

 工作原理 21

 更多内容 21

 参考资料 22

第 2章 汽车数据的可视化分析(R) 23

 简介 23

 获取汽车燃料效率数据 24

 准备工作 24

 处理流程 25

 工作原理 25

 为了你的第 一个项目准备好R 26

 准备工作 26

 处理流程 26

 工作原理 26

 参考资料 26

 将汽车燃料效率数据导入R 27

 准备工作 27

 处理流程 27

 工作原理 28

 更多内容 29

 参考资料 30

 探索和描述燃料效率数据 30

 准备工作 30

 处理流程 30

 工作原理 32

 更多内容 33

 进一步分析汽车燃料效率数据 34

 准备工作 34

 处理流程 34

 工作原理 43

 参考资料 44

 研究汽车的产量以及车型 44

 准备工作 44

 处理流程 44

 工作原理 46

 更多内容 47

 参考资料 47

第3章 模拟美式橄榄球比赛数据(R) 48

 简介 48

 准备工作 49

 获取和清洗美式橄榄球比赛数据 49

 准备工作 50

 处理流程 50

 工作原理 53

 参考资料 53

 分析和理解美式橄榄球比赛数据 53

 准备工作 53

 处理流程 53

 工作原理 61

 更多内容 61

 参考资料 62

 构建度量攻防能力的指标 62

 准备工作 62

 处理流程 62

 工作原理 64

 参考资料 65

 模拟单场由程序决定胜负的比赛 65

 准备工作 65

 处理流程 65

 工作原理 68

 模拟多场由计算决定胜负的比赛 68

 准备工作 68

 处理流程 69

 工作原理 73

 更多内容 74

第4章 建模分析股票市场数据(R) 75

 简介 75

 准备工作 76

 获取股票市场数据 76

 处理流程 77

 描述数据 78

 准备工作 79

 工作原理 80

 更多内容 81

 清洗和研究数据 82

 准备工作 82

 处理流程 82

 工作原理 87

 参考资料 87

 形成相对估值法 87

 准备工作 87

 处理流程 88

 工作原理 91

 分析历史价格筛选股票 92

 准备工作 92

 处理流程 92

 工作原理 98

第5章 就业数据的可视化探索(R) 99

 简介 99

 分析前的准备 100

 准备工作 101

 处理流程 101

 工作原理 102

 参考资料 102

 将就业数据导入R 103

 准备工作 103

 处理流程 103

 工作原理 104

 更多内容 104

 参考资料 105

 就业数据探究 105

 准备条件 105

 处理流程 105

 工作原理 107

 参考资料 107

 获取和合并添加附加信息 107

 准备工作 107

 处理流程 108

 工作原理 109

 添加地理信息 110

 准备工作 110

 处理流程 110

 工作原理 113

 参考资料 114

 获取州和县级水平的薪资和就业信息 114

 准备工作 114

 处理流程 114

 工作原理 116

 参考资料 117

 可视化薪资的地理分布特性 117

 准备工作 118

 处理流程 118

 工作原理 120

 参考资料 121

 探究各行业工作的地理分布情况 121

 处理流程 122

 工作原理 123

 更多内容 124

 参考资料 124

 绘制地理空间的时间序列地图 124

 准备工作 124

 处理流程 125

 工作原理 128

 更多内容 128

 函数性能测试和比较 128

 准备工作 129

 处理流程 129

 工作原理 131

 更多内容 132

 参考资料 132

第6章 运用税务数据进行应用导向的数据分析(Python) 133

 简介 133

 应用导向方法简介 134

 准备高收入数据集的分析 135

 准备工作 135

 处理流程 135

 工作原理 136

 导入并熟悉世界各国高收入数据集 136

 准备工作 137

 处理流程 137

 工作原理 143

 更多内容 144

 参考资料 144

 分析并可视化美国的高收入数据集 144

 准备工作 144

 处理流程 145

 工作原理 151

 进一步分析美国的高收入** 152

 准备工作 152

 处理流程 152

 工作原理 156

 用Jinja2汇报结果 157

 准备工作 157

 处理流程 157

 工作原理 162

 更多内容 162

 参考资料 163

第7章 运用汽车数据进行可视化分析(Python) 164

 简介 164

 IPython入门 165

 准备工作 165

 处理流程 165

 工作原理 167

 参考资料 167

 熟悉IPython Notebook 167

 准备工作 168

 处理流程 168

 工作原理 170

 更多内容 170

 参考资料 171

 准备分析汽车油耗 171

 准备工作 171

 处理流程 171

 工作原理 173

 更多内容 173

 参考资料 174

 用Python熟悉并描述汽车油耗数据 174

 准备工作 174

 处理流程 174

 工作原理 177

 更多内容 177

 参考资料 177

 用Python分析汽车油耗随时间变化趋势 177

 准备工作 177

 处理流程 178

 工作原理 183

 更多内容 184

 参考资料 185

 用Python调查汽车的制造商和型号 185

 准备工作 185

 处理流程 185

 工作原理 189

 参考资料 189

第8章 社交网络分析(Python) 190

 简介 190

 理解图和网络 191

 准备用Python进行社交网络的分析工作 192

 准备工作 192

 处理流程 193

 工作原理 193

 更多内容 193

 导入网络 194

 准备工作 194

 处理流程 194

 工作原理 196

 探索英雄网络的子图 196

 准备工作 197

 处理流程 197

 工作原理 199

 更多内容 199

 找出强关联 200

 准备工作 201

 处理流程 201

 工作原理 203

 更多内容 204

 找出关键人物 204

 准备工作 205

 处理流程 205

 工作原理 208

 更多内容 209

 调查全网的特征 215

 准备工作 216

 处理流程 216

 工作原理 217

 社交网络中的聚类和发现社群 217

 准备工作 217

 处理流程 218

 工作原理 221

 更多内容 221

 可视化图 222

 准备工作 222

 处理流程 222

 工作原理 224

第9章 大规模电影推荐(Python) 225

 简介 226

 对偏好建模 227

 处理流程 227

 工作原理 228

 理解数据 229

 准备工作 229

 处理流程 229

 工作原理 231

 更多内容 231

 加载电影评分数据 231

 准备工作 231

 处理流程 232

 工作原理 234

 寻找高评分电影 235

 准备工作 236

 处理流程 236

 工作原理 237

 更多内容 238

 参考资料 238

 提升电影评分系统 238

 准备工作 238

 处理流程 238

 工作原理 239

 更多内容 240

 参考资料 240

 计算用户在偏好空间中的距离 240

 准备工作 241

 处理流程 241

 工作原理 243

 更多内容 243

 参考资料 243

 计算用户相关性 244

 准备工作 244

 处理流程 244

 工作原理 245

 更多内容 246

 为特定用户寻找**好的影评人 246

 准备工作 246

 处理流程 246

 工作原理 247

 预测用户评分 249

 准备工作 249

 处理流程 249

 工作原理 250

 基于物品的协同过滤 251

 准备工作 251

 处理流程 252

 工作原理 253

 建立非负矩阵分解模型 254

 处理流程 255

 工作原理 255

 参考资料 256

 将数据集载入内存 256

 准备工作 257

 处理流程 257

 工作原理 258

 更多内容 258

 导出SVD模型到硬盘 259

 处理流程 259

 工作原理 260

 训练SVD模型 261

 处理流程 261

 工作原理 262

 更多内容 263

 测试SVD模型 264

 处理流程 264

 工作原理 264

 更多内容 264

第 10章 获取和定位Twitter数据(Python) 266

 简介 266

 创建Twitter应用 267

 准备工作 268

 处理流程 268

 工作原理 271

 参考资料 271

 了解Twitter API v1.1 271

 准备工作 272

 处理流程 272

 工作原理 273

 更多内容 274

 参考资料 275

 获取粉丝和朋友信息 275

 准备工作 275

 处理流程 275

 工作原理 277

 更多内容 277

 参考资料 278

 提取Twitter用户档案 278

 准备工作 278

 处理流程 278

 工作原理 279

 更多内容 279

 参考资料 280

 避免Twitter速度限制 280

 准备工作 280

 处理流程 280

 工作原理 281

 存储JSON数据到硬盘 281

 准备工作 282

 处理流程 282

 工作原理 282

 安装MongoDB 283

 准备工作 283

 处理流程 283

 工作原理 284

 更多内容 284

 参考资料 285

 利用PyMongo将用户信息存入MongoDB 285

 准备工作 285

 处理流程 285

 工作原理 286

 探索用户地理信息 287

 准备工作 287

 处理流程 287

 工作原理 289

 更多内容 290

 参考资料 290

 利用Python绘制地理分布图 290

 准备工作 290

 处理流程 291

 工作原理 292

 更多内容 293

 参考资料 294

第 11章 利用NumPy和SciPy优化数值计算(Python) 295

 简介 295

 了解优化的步骤 297

 处理流程 297

 工作原理 297

 更多内容 298

 识别代码中常见性能瓶颈 298

 处理流程 299

 工作原理 299

 通读代码 301

 准备工作 302

 处理流程 302

 工作原理 302

 参考资料 304

 利用Unix time函数剖析Python代码 305

 准备工作 305

 处理流程 305

 工作原理 306

 参考资料 306

 利用Python内建函数剖析Python代码 306

 准备工作 306

 处理流程 306

 工作原理 307

 参考资料 308

 利用IPython %timeit函数剖析Python代码 308

 处理流程 308

 工作原理 309

 利用line_profiler剖析Python代码 309

 准备工作 310

 处理流程 310

 工作原理 311

 更多内容 312

 参考资料 312

 摘取低处的(经过优化的)果实 312

 准备工作 312

 处理流程 312

 工作原理 314

 测试NumPy带来的性能提升 315

 准备工作 315

 处理流程 315

 工作原理 316

 更多内容 317

 参考资料 317

 用NumPy重写函数 317

 准备工作 317

 处理流程 318

 工作原理 320

 用NumPy优化**内层循环 322

 准备工作 322

 处理流程 322

 工作原理 324

 更多内容 325

详情

本书的主要内容有:学习数据科学项目的流程,并使用它来获取、清洗、分析和可视化数据;在多个实战项目中理解数据科学的关键概念;通过一步一步的代码实例来掌握R和Python强大的数据编程能力。无论你是数据科学的新手,还是有经验的专业人士,你都可以从本书提供的89个实际案例中掌握数据科学的关键概念和利用R、Python进行数据编程的能力。

图书摘要

相关图书

D3 4.x数据可视化实战手册(第2版)
D3 4.x数据可视化实战手册(第2版)
数据科学实战手册(第2版)
数据科学实战手册(第2版)
Java数据分析指南
Java数据分析指南
Java数据科学指南
Java数据科学指南
Hadoop虚拟化
Hadoop虚拟化
数据科学家访谈录
数据科学家访谈录

相关文章

相关课程