hadoop
教程来源:https://www.bilibili.com/video/BV1Qp4y1n7EN?p=1
入门
1.1.Hadoop是什么
1.2.Hadoop发展历史
1.3.Hadoop三大发行版本
1.4.Hadoop优势
1.5.Hadoop组成
1.5.1.HDFS概述
1.5.2.Yarn架构概述
1.5.3.MapReduce架构概述
1.6.大数据技术生态体系
1.7.推荐系统架构图
Hadoop运行环境搭建(开发重点)
模板虚拟机环境准备
安装模板虚拟机
| IP | 主机名称 | 内存 | 硬盘 | 
|---|---|---|---|
| 192.168.10.100 | hadoop100 | 4G | 50G | 
VMware
虚拟机 VMware Workstation Pro 15.5.0 及永久激活密钥:https://www.cnblogs.com/zero-vic/p/11584437.html
15 虚拟机下载地址:https://download3.vmware.com/software/wkst/file/VMware-workstation-full-15.5.0-14665864.exe
16虚拟机下载地址:http://download3.vmware.com/software/wkst/file/VMware-workstation-full-16.1.0-17198959.exe
激活密钥许可证VMware Workstation Pro 15
激活许可证
UY758-0RXEQ-M81WP-8ZM7Z-Y3HDA
VF750-4MX5Q-488DQ-9WZE9-ZY2D6
UU54R-FVD91-488PP-7NNGC-ZFAX6
YC74H-FGF92-081VZ-R5QNG-P6RY4
YC34H-6WWDK-085MQ-JYPNX-NZRA2
激活密钥许可证VMware Workstation Pro 16
激活许可证
ZF3R0-FHED2-M80TY-8QYGC-NPKYF
版本
以下是VMware WorkStation Pro 15.5的安装步骤
- 模拟准备物理硬件






这里需要查看下自己的cpu核数,我这里是16核的,后面要新建4台左右的虚拟机,每台处理器的内核总数为,16/4



接下来两步,都是默认下一步




如果虚拟化没有开启,报的是以下错误

Win10直接可以在任务管理器中的【性能】面看查看,Win7则需要进入bios中查看
CentOS
系统的安装得分两步,第一步得配置一台电脑,选CPU、内存、磁盘、网卡等硬件
第二步才是安装系统
安装系统前,得开启一下Bios
进入虚拟机,选好iso镜像文件后,点击确定
注意是要有DVD的后缀的
然后开启虚拟机

进入后,保持默认敲回车,
进入语言选择界面

继续后,进行其他设置

设置日期和时间
软件-软件选择

可以保持默认,初始学习阶段,可以使用桌面,后续可以切换到最小安装的功能
系统-安装位置
自己配置分区

添加1g的boot挂载点,文件系统修改为ex4

添加4g的swap分区

剩余45g的分区挂载到根目录

点击完成,接受并更改
学习阶段禁用kdump,生产阶段需要启用,可以看系统崩溃前夕的日志
配置网络和主机名称,打开网络,主机名是hadoop100
后续会学习如何在命令行中配置

安全策略,保持默认打开
安装过程中,可以配置下密码
学习阶段的密码:111111,系统会提示是一个弱密码,点击两次强制确定
暂时不用创建用户
加载完后重启
接受许可协议

语言选择中文,时区选择上海,
其他的默认
设置账号,密码保持一致,这里是111111

至此虚拟机安装完成

配置IP和主机名称
vmware的菜单栏,点击编辑>虚拟网络编辑器

点击NAT设置

此时虚拟机的IP地址配置完成
然后配置本机的Vmware Network Adapter VMnet8设置:
路径:控制面板\网络和 Internet\网络连接

右键属性:

如果vmnet8没出来,在vmware菜单栏,虚拟网络编辑器处,点击还原默认设置即可
- 修改ip地址
进入hadoop01
su root,输入密码111111
编辑:vim /etc/sysconfig/network-scripts/ifcfg-ens33
| 1 | 修改为静态获取ip,否则每次重启系统,ip地址都会变化的 | 
完整配置
| 1 | TYPE=Ethernet | 
- 修改主机名称
vi /etc/hostname
| 1 | hadoop100 | 
- 修改主机名称映射
vim /etc/hosts
完整配置如下:
| 1 | 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 | 
最后reboot重启一下
查看一下ip:
ifconfig
| 1 | [root@hadoop100 sai]# ifconfig | 
inet 192.168.10.100  netmask 255.255.255.0  broadcast 192.168.10.255
如果linux的ip没有更改
| 1 | service network restart | 
ping一下外网:
| 1 | [root@hadoop100 sai]# ping www.baidu.com | 
是可以的
如果隔了几天之后,提示网络不可达,最大的可能性,就是Windows下的Vm虚拟机的DHCP,在某次你杀毒或者清理启动项的时候,被关掉了
按下键盘win+R,输入services.msc
手动打开Vm相关启动项:

测试一下,在linux中ping,可以正常连接了
远程终端工具安装
安装xshell,远程登录192.168.10.100

在windows中修改主机名称映射:
进入C:\Windows\System32\drivers\etc
修改hosts文件,将
| 1 | 192.168.10.100 hadoop100 | 
复制到最后并保存后,就可以用hostname远程登录了:

win10由于权限问题,需要将hosts整个文件先复制一份,然后修改,最后替换原来的hosts,win7直接修改即可
linux虚拟机
ip:192.168.10.100
网关:192.168.10.2
DNS1:192.168.10.2
Vmware 虚拟网络编辑器
子网IP:192.168.10.0
子网掩码:255.255.255.0
网关:192.168.10.2
windows电脑 VMnet8
IP:192.168.10.1
子网掩码:255.255.255.0
默认网关:192.168.10.2
dns1:192.168.10.2
dns2:8.8.8.8
模板虚拟机基础配置
hadoop100虚拟机配置如下,本文Linux系统全部以centos 7.5-x86-1804为例
- ping一下百度,测试网络连通情况 
- 安装 - epel-release
- 注:Extart Packages for Enterprise Linux是“红帽系”的操作系统,提供的额外的软件包,适用于RHEL、CENTOS和Scientific Linux。相当于是一个软件仓库,大多数rpm包在官方repository中是找不到的 - 1 - yum install -y epel-release 
- 如果linux安装的是最小系统版,还需要安装如下工具,如果安装的是Linux桌面标准版,则不需要 - net-tool:工具包集合,包含Ifconfig等命令 - 1 - yum install -y net-tools 
- vim编辑器 - 1 - yum install -y vim 
 
- 关闭防火墙,以及关闭防火墙开机自启 - 1 
 2
 3
 4
 5
 6
 7- systemctl stop firewalld 
 systemctl disable firewalld.service
 [root@hadoop100 yum.repos.d]# systemctl disable firewalld.service
 Removed symlink /etc/systemd/system/multi-user.target.wants/firewalld.service.
 Removed symlink /etc/systemd/system/dbus-org.fedoraproject.FirewallD1.service.
- 创建atguigu用户,并修改atguigu用户密码 - 1 
 2
 3- useradd atguigu 
 passwd atguigu
 111111- 配置atguigu用户,具有root权限 - 1 
 2
 3
 4
 5
 6
 7
 8- vim /etc/sudoers 
 ## Allows people in group wheel to run all commands
 %wheel ALL=(ALL) ALL
 # 添加如下配置
 atguigu ALL=(ALL) NOPASSWD:ALL
- 注意,不要放在root行下面,因为所有用户都属于wheel组,否则执行到%wheel行时,配置就被覆盖了 
 
- 在/opt目录下创建文件夹,并修改所属主和所属组 - 在opt目录下,创建module和software文件夹 - 1 
 2- mkdir module 
 mkdir software
- 修改用户和用户组为atguigu - 1 - chown atguigu:atguigu /opt/module/ opt/software/ 
 
- 写在虚拟机自带的JDK(如果是最小化安装,则跳过这一步) - 1 - rpm -qa | grep -i java | xargs -n1 | rpm -e --nodeps - rpm -qa:查询所安装的所有rpm包
- grep -i:忽略大小写
 
主机内存不够怎么办
使用Docker



