Linux培训

大数据平台快速解决技巧

发布：Linux培训
来源：Linux教程
时间：2017-08-31 16:08

搭建始末

当时我们确定要做大数据的时候，有两种选型。第一种选型是用用原生的、开源的大数据技术，需要自己搭建;第二种是ODPS。

后来我们选择了利用原生大数据，自己搭建一个大数据平台。因为我们已经有了一定的小积累，并且也想做一个大数据方面的技术沉淀。

在移动互联网时代，用户所有的行为、浏览、记录和收藏等所有的数据，我们都会把它拿下来分析，前段时间阶段性沉淀的东西有多少，是对之前的一个总结。这个数据还能帮助我们进行深度挖掘，之后如何对不同用户分类，做一个精准化的营销定位。

每个公司都会对这些数据进行报表级的展现。我们最开始的数据实现方式是把所有用户的行为数据放到传统的关系型数据库中，利用纯Java应用程序去读这张表。当计算某个指标的时候，还会关联若干张子表。这张主表大概有几千万，其它子表也是百万级甚至千万级的。如果单纯用Java去算的话，还要额外处理多线程。

所以我们用传统的Java纯程序+关系型数据库去处理报表的时候，在存储和计算的性能上会出现问题，以至于报表需求越来越慢。

在这样的大背景下，我们改成了使用大数据去处理这种场景。

技术概览

Hadoop是现在所有大数据计算存储的一个底层概念，后面所有衍生的大数据产品都是在Hadoop的基础上进行衍生的。

这张图是目前大数据平台的架构。

原生的Hadoop应该包含了Hdfs(文件存储)、Yarn(资源调度)和Mapreduce(算法)。

Spark是类似于Mapreduce的一个计算框架，它在很多场景中的性能会比原生的Mapreduce好很多，尤其是迭代计算的时候，会有好几个数量级的提升。

Sqoop是一个数据的迁移工具。

Hive是对底层Hdfs系统的文件抽象出一个类似Mysql的关系型数据库，但大前提是它是在Hadoop这个大的语义下的关系型数据库。

Oozie是一个任务编排和调度的框架。

Hue是大数据的管理后台。

Zookeeper是分布式协调工具。

1.组件分类

基础数据：Mysql，File。基础数据层是游离于大数据之外的概念，它是传统的数据来源。

大数据存储：Hdfs、Hive。大数据存储是最基础的文件存储，在这基础上抽象出一个大数据的关系型数据库。

大数据计算：Mapreduce、Spark、Sqoop。Mapreduce是原生的，Spark是新生的，Sqoop是数据转移的工具。

大数据协调与调度：Yarn、Zookeeper、Oozie。Yarn是原生的，Zookeeper是一个分布式保证文件原子性的工具，Oozie是调度工具。

大数据展现：Hue。Curd的展现层。

2.典型执行流程

最开始说过，我们遇到的问题是，Mysql的表存不下，计算也有问题。在这个场景下要把数据，从Mysql转到大数据，并利用大数据进行计算，最后做一个展现。

它的流程是，首先通过Sqoop把Mysql的数据一次性或是增量的同步到一张Hive表里，用Hive Sql写好查询后，本质上Hive Sql会转化成Mapreduce任务再去执行，最后数据就展现出来了。

很多时候后台的服务Control层会有入口和出口，我们需要把入口和出口的参数都记下来，方便以后排错或做统计方面的应用。

在应用程序里，把这些消息定时写到消息队列中，用Spark定时读消息队列，并把这些读取到的消息按Spark的方式做一个编程。这个任务最终会被丢到Hadoop的底层计算里，然后用Yarn去调度，计算出结果，把这个结果写入Hive，这就完成了一次流式计算。

3.Hue

这里写了一个Hive Sql，与传统Mysql的写法几乎一样。Hive Sql写好以后点执行。它的过程是把Sql首先交给Hive去跑，Hive用自己的Sql解析引擎把这个任务翻译成Mapreduce，Mapreduce再用Yarn跑在Hadoop上，最终把结果跑出来。

4.存储：Hadoop hdfs

HadoopHdfs是基础的存储层。

HadoopHdfs其实只包含了两种类型，一个是Namenode，一个是Datanode。Namenode是一个管理的节点，而datanode只负责数据的存储和冗余。

5.计算：Mapreduce&spark

Hadoop原生的计算框架是Mapreduce，而spark是一个新兴的计算框架，它更快更全面。

6.资源管理器：yarn、Apache、hadoop yarn

资源管理器的架构内包含rescource manager和node manager。Rescource manager是管理节点，node manager是work节点。

把任务丢给rescource manager，它去把任务分发给每个节点，做一些状态的变换，最后把结果通过rescource manager汇总以后，处理完毕交给客户端。

7.hive

hive的架构并不是很复杂，上层是一些用户的API、web页面和命令行。它的核心是执行引擎，把sql翻译成大数据平台可以接受的任务。底层基于存储，它可以存在hdfs上。

8.sqoop

主要用于在hadoop与传统的数据库间进行数据的传递。

9.ooize

大数据任务编排调度。

学习与使用路线

如果想要学习一些大数据相关的东西，我推荐可以先掌握一些基础，然后找一个场景套进技术里，进行快速实践。在快速实践的过程中会发现很多问题需要解决，很多知识需要补充，所以要在实践中前行，在错误中补充。

预约申请免费试听课

填写下面表单即可预约申请免费试听！怕学不会？助教全程陪读，随时解惑！担心就业？一地学习，可全国推荐就业！

上一篇：Linux子系统登陆Windows服务器

下一篇：Linux内核中的内存屏障

Linux相关推荐阅读

零基础可以学linux吗

云计算的关键技术有哪些

云计算的5个基本特征

Linux如何向文件里面写东西？

云计算的主要服务模式有哪些？

kali linux各种使用技巧

零基础网络工程师培训

云计算关键技术包括什么

Linux命令bash什么意思

云计算分为哪三类

开班时间

Java开发 12月30日立即报名
云计算 12月30日立即报名
网络安全 12月30日立即报名
Python 12月30日立即报名
数据分析 12月30日立即报名
C++ 12月30日立即报名
物联网 12月30日立即报名
Web前端 12月30日立即报名
软件测试 12月30日立即报名
AI大模型 12月30日立即报名
鸿蒙 12月30日立即报名
智能办公 12月30日立即报名
商业视效 12月30日立即报名
AGI商业变现 12月30日立即报名
UI设计 12月30日立即报名
新媒体电商 12月30日立即报名

关于达内

达内简介联系我们隐私声明法律公告业务合作

其他服务

培训证书查询投诉与建议

投诉邮箱

tousu@tedu.cn

客服电话

400-111-8989

选择城市和中心

北京

达内北京天坛中心

黑龙江省

达内大庆中心

吉林省

达内长春中心

辽宁省

内蒙古

达内呼和浩特中心

天津

河北省

达内河北中心

山西省

陕西省

达内西安省体中心

山东省

河南省

江苏省

安徽省

上海

达内上海长寿路中心

湖北省

达内武汉光谷中心

四川省

达内成都钻石中心

重庆

达内重庆中心

湖南省

达内长沙中心

江西省

达内南昌人民公园中心

浙江省

贵州省

达内贵阳中心

福建省

云南省

达内昆明中心

广西省

达内南宁中心

广东省

达内广州云计算中心

海南省

达内海南中心

台湾

达内台北中心

Linux培训

大数据平台快速解决技巧

预约申请免费试听课

2021年网络运维全套免费视频教程在哪里？

Linux培训机构哪家好？

bios怎么开启cpu虚拟化？

学云计算需要哪些基础？

Linux相关推荐阅读

相关栏目

开班时间