杨文龙的博客 » Blog Archive » spark核心概念 - 个人技术笔记 - 热爱创新发明，专注机器学习、算法、深度学习、自然语言处理及人工智能

spark核心概念

发布时间：2015-12-20 栏目：Spark 评论：0 Comments

大数据操作有点类似于针对硬盘或者内存的数据库SQL操作，只是操作的数据是分布在硬盘，甚至是多台机器上面的，而且数据量很大。Spark上面的SQL以及DataFrame编程内置了自动优化，用户只需要关心具体的实现和功能就好了。

为什么Spark更快：

Memory Based Computation
DAG
Thread Model
Optimization (eg: delay scheduling)

What is Lineage? RDD之间的依赖关系

Spark的编程对象：RDD（不可变的、分布式、Lazy、cache）

DataFrame编程最有效率。

SQL也是基于DataFrame的。

Spark官网：http://spark.apache.org/

Apache Zeppelin：http://zeppelin-project.org/

留下评论

You must be logged in to post a comment.

相册集

关于自己

杨文龙，微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位，热爱创新发明，专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域，目前发明有国际专利19篇，中国专利28篇。

联系我

个人技术笔记

welonshen@gmail.com

2015 in Shanghai

个人技术笔记

spark核心概念

留下评论

近期文章

近期评论

文章归档

分类目录

功能

热情读者

作者其他介绍

友情链接

相册集

关于自己

联系我