Spark RDD API
发布时间:2016-04-08 栏目:Spark 评论:0 Comments
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通 数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处...
安装spark1.5.2单机环境
发布时间:2016-03-15 栏目:Spark 评论:0 Comments
本文介绍安装spark单机环境的方法,可用于测试及开发。主要分成以下4部分: (1)环境准备 (2)安装scala (3)安装spark (4)验证安装情况 1、环境准备 (1)配套软件版本要求:Java, Python 2.6, Scala 2.10. 注意对应的版本要求。 (2)安...
spark核心概念
发布时间:2015-12-20 栏目:Spark 评论:0 Comments
大数据操作有点类似于针对硬盘或者内存的数据库SQL操作,只是操作的数据是分布在硬盘,甚至是多台机器上面的,而且数据量很大。Spark上面的SQL以及DataFrame编程内置了自动优化,用户只需要关心具体的实现和功能就好了。 为什么Spark更快...
近期评论
- Pika发表在《莫里斯蠕虫(Morris Worm)》
- Pika发表在《多组学科研分析》
- crisy发表在《最近关于专利的一点感想》
- walter发表在《机器学习基础知识回顾-马尔科夫过程(Markov Process)》
文章归档
- 2024年3月
- 2024年2月
- 2023年12月
- 2023年11月
- 2023年10月
- 2023年9月
- 2023年8月
- 2023年7月
- 2023年6月
- 2023年5月
- 2023年4月
- 2023年3月
- 2023年2月
- 2023年1月
- 2022年12月
- 2022年11月
- 2022年9月
- 2022年8月
- 2022年7月
- 2022年6月
- 2022年5月
- 2022年3月
- 2022年2月
- 2022年1月
- 2021年12月
- 2021年11月
- 2021年10月
- 2021年9月
- 2021年8月
- 2021年7月
- 2021年6月
- 2021年5月
- 2021年4月
- 2021年2月
- 2021年1月
- 2020年12月
- 2020年11月
- 2020年10月
- 2020年8月
- 2020年7月
- 2020年6月
- 2020年5月
- 2020年4月
- 2020年3月
- 2020年2月
- 2019年7月
- 2019年5月
- 2019年3月
- 2019年1月
- 2018年6月
- 2018年5月
- 2018年4月
- 2018年3月
- 2018年2月
- 2017年11月
- 2017年7月
- 2017年6月
- 2017年5月
- 2017年3月
- 2016年12月
- 2016年11月
- 2016年10月
- 2016年9月
- 2016年8月
- 2016年7月
- 2016年6月
- 2016年5月
- 2016年4月
- 2016年3月
- 2016年2月
- 2016年1月
- 2015年12月
- 2015年11月