hadoop
教程来源:https://www.bilibili.com/video/BV1Qp4y1n7EN?p=1
入门
1.1.Hadoop是什么
1.2.Hadoop发展历史
1.3.Hadoop三大发行版本
1.4.Hadoop优势
1.5.Hadoop组成
1.5.1.HDFS概述
1.5.2.Yarn架构概述
1.5.3.MapReduce架构概述
1.6.大数据技术生态体系
1.7.推荐系统架构图
Hadoop运行环境搭建(开发重点)
模板虚拟机环境准备
安装模板虚拟机
IP | 主机名称 | 内存 | 硬盘 |
---|---|---|---|
192.168.10.100 | hadoop100 | 4G | 50G |
VMware
虚拟机 VMware Workstation Pro 15.5.0 及永久激活密钥:https://www.cnblogs.com/zero-vic/p/11584437.html
15 虚拟机下载地址:https://download3.vmware.com/software/wkst/file/VMware-workstation-full-15.5.0-14665864.exe
16虚拟机下载地址:http://download3.vmware.com/software/wkst/file/VMware-workstation-full-16.1.0-17198959.exe
激活密钥许可证VMware Workstation Pro 15
激活许可证
UY758-0RXEQ-M81WP-8ZM7Z-Y3HDA
VF750-4MX5Q-488DQ-9WZE9-ZY2D6
UU54R-FVD91-488PP-7NNGC-ZFAX6
YC74H-FGF92-081VZ-R5QNG-P6RY4
YC34H-6WWDK-085MQ-JYPNX-NZRA2
激活密钥许可证VMware Workstation Pro 16
激活许可证
ZF3R0-FHED2-M80TY-8QYGC-NPKYF
版本
以下是VMware WorkStation Pro 15.5的安装步骤
- 模拟准备物理硬件
这里需要查看下自己的cpu核数,我这里是16核的,后面要新建4台左右的虚拟机,每台处理器的内核总数为,16/4
接下来两步,都是默认下一步
如果虚拟化没有开启,报的是以下错误
Win10直接可以在任务管理器中的【性能】面看查看,Win7则需要进入bios中查看
CentOS
系统的安装得分两步,第一步得配置一台电脑,选CPU、内存、磁盘、网卡等硬件
第二步才是安装系统
安装系统前,得开启一下Bios
进入虚拟机,选好iso镜像文件后,点击确定
注意是要有DVD的后缀的
然后开启虚拟机
进入后,保持默认敲回车,
进入语言选择界面
继续后,进行其他设置
设置日期和时间
软件-软件选择
可以保持默认,初始学习阶段,可以使用桌面,后续可以切换到最小安装的功能
系统-安装位置
自己配置分区
添加1g的boot挂载点,文件系统修改为ex4
添加4g的swap分区
剩余45g的分区挂载到根目录
点击完成,接受并更改
学习阶段禁用kdump,生产阶段需要启用,可以看系统崩溃前夕的日志
配置网络和主机名称,打开网络,主机名是hadoop100
后续会学习如何在命令行中配置
安全策略,保持默认打开
安装过程中,可以配置下密码
学习阶段的密码:111111,系统会提示是一个弱密码,点击两次强制确定
暂时不用创建用户
加载完后重启
接受许可协议
语言选择中文,时区选择上海,
其他的默认
设置账号,密码保持一致,这里是111111
至此虚拟机安装完成
配置IP和主机名称
vmware的菜单栏,点击编辑>虚拟网络编辑器
点击NAT设置
此时虚拟机的IP地址配置完成
然后配置本机的Vmware Network Adapter VMnet8设置:
路径:控制面板\网络和 Internet\网络连接
右键属性:
如果vmnet8没出来,在vmware菜单栏,虚拟网络编辑器处,点击还原默认设置即可
- 修改ip地址
进入hadoop01
su root,输入密码111111
编辑:vim /etc/sysconfig/network-scripts/ifcfg-ens33
1 | 修改为静态获取ip,否则每次重启系统,ip地址都会变化的 |
完整配置
1 | TYPE=Ethernet |
- 修改主机名称
vi /etc/hostname
1 | hadoop100 |
- 修改主机名称映射
vim /etc/hosts
完整配置如下:
1 | 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 |
最后reboot
重启一下
查看一下ip:
ifconfig
1 | [root@hadoop100 sai]# ifconfig |
inet 192.168.10.100 netmask 255.255.255.0 broadcast 192.168.10.255
如果linux的ip没有更改
1 | service network restart |
ping一下外网:
1 | [root@hadoop100 sai]# ping www.baidu.com |
是可以的
如果隔了几天之后,提示网络不可达,最大的可能性,就是Windows下的Vm虚拟机的DHCP,在某次你杀毒或者清理启动项的时候,被关掉了
按下键盘win
+R
,输入services.msc
手动打开Vm相关启动项:
测试一下,在linux中ping,可以正常连接了
远程终端工具安装
安装xshell,远程登录192.168.10.100
在windows中修改主机名称映射:
进入C:\Windows\System32\drivers\etc
修改hosts文件,将
1 | 192.168.10.100 hadoop100 |
复制到最后并保存后,就可以用hostname远程登录了:
win10由于权限问题,需要将hosts整个文件先复制一份,然后修改,最后替换原来的hosts,win7直接修改即可
linux虚拟机
ip:192.168.10.100
网关:192.168.10.2
DNS1:192.168.10.2
Vmware 虚拟网络编辑器
子网IP:192.168.10.0
子网掩码:255.255.255.0
网关:192.168.10.2
windows电脑 VMnet8
IP:192.168.10.1
子网掩码:255.255.255.0
默认网关:192.168.10.2
dns1:192.168.10.2
dns2:8.8.8.8
模板虚拟机基础配置
hadoop100虚拟机配置如下,本文Linux系统全部以centos 7.5-x86-1804为例
ping一下百度,测试网络连通情况
安装
epel-release
注:Extart Packages for Enterprise Linux是“红帽系”的操作系统,提供的额外的软件包,适用于RHEL、CENTOS和Scientific Linux。相当于是一个软件仓库,大多数rpm包在官方repository中是找不到的
1
yum install -y epel-release
如果linux安装的是最小系统版,还需要安装如下工具,如果安装的是Linux桌面标准版,则不需要
net-tool:工具包集合,包含Ifconfig等命令
1
yum install -y net-tools
vim编辑器
1
yum install -y vim
关闭防火墙,以及关闭防火墙开机自启
1
2
3
4
5
6
7systemctl stop firewalld
systemctl disable firewalld.service
[root@hadoop100 yum.repos.d]# systemctl disable firewalld.service
Removed symlink /etc/systemd/system/multi-user.target.wants/firewalld.service.
Removed symlink /etc/systemd/system/dbus-org.fedoraproject.FirewallD1.service.创建atguigu用户,并修改atguigu用户密码
1
2
3useradd atguigu
passwd atguigu
111111配置atguigu用户,具有root权限
1
2
3
4
5
6
7
8vim /etc/sudoers
## Allows people in group wheel to run all commands
%wheel ALL=(ALL) ALL
# 添加如下配置
atguigu ALL=(ALL) NOPASSWD:ALL注意,不要放在root行下面,因为所有用户都属于wheel组,否则执行到%wheel行时,配置就被覆盖了
在/opt目录下创建文件夹,并修改所属主和所属组
在opt目录下,创建module和software文件夹
1
2mkdir module
mkdir software修改用户和用户组为atguigu
1
chown atguigu:atguigu /opt/module/ opt/software/
写在虚拟机自带的JDK(如果是最小化安装,则跳过这一步)
1
rpm -qa | grep -i java | xargs -n1 | rpm -e --nodeps
- rpm -qa:查询所安装的所有rpm包
- grep -i:忽略大小写
主机内存不够怎么办
使用Docker