还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
大数据实战系列安Hadoop装教程北极光课件-欢迎来到大数据实战系列课程!本课程旨在帮助您快速掌握大Hadoop数据平台的安装与配置,让您从零开始,轻松搭建自己的大数据环境无论您是初学者还是有一定经验的开发者,本课程都将为您提供清晰、详细的步骤指导,助您在大数据领域取得成功让我们一起开启大数据之旅!课程介绍大数据的重要性与应用场景大数据已成为当今信息时代的核心驱动力它不仅改变了商业模式,还在科学研究、政府决策、医疗健康等领域发挥着重要作用通过对海量数据的分析,我们可以发现潜在的商业机会、优化运营效率、改善用户体验,甚至预测未来趋势本课程将带您深入了解大数据的重要性,并通过实际案例展示其在不同行业的应用场景,让您对大数据有一个全面的认识商业智能医疗健康政府决策数据分析支持决策个性化医疗方案优化公共服务课程目标掌握大数据平台的安装与配置本课程的主要目标是让您能够独立完成大数据平台的安装与配置通过学习、、等核心组件的安装过程,您将掌握大数据环境搭Hadoop SparkHive建的关键技能同时,我们还将介绍一些常用的配置技巧和故障排除方法,帮助您应对实际工作中可能遇到的问题课程结束后,您将能够搭建一个稳定、高效的大数据平台,为后续的数据分析和挖掘工作奠定坚实的基础安装配置Hadoop Spark12详细步骤指导环境搭建与优化集成Hive3数据仓库工具应用准备工作硬件与软件环境要求在开始安装大数据平台之前,我们需要准备好相应的硬件和软件环境硬件方面,建议使用多台服务器组成集群,以获得更好的性能和扩展性软件方面,我们需要安装开发环境()、安装包、安装包、安装包等Java JDKHadoop SparkHive请确保您的服务器满足以下最低配置要求核以上,内存以上,硬盘以上CPU48GB100GB硬件要求软件要求核以上CPU4Java JDK
1.8+内存以上8GB Hadoop
2.7+硬盘以上100GB Spark
2.4+Hive
2.1+概述的核心组件Hadoop Hadoop是一个开源的分布式计算框架,用于处理海量数据它由多个核心组件组成,包括(分布式文件系统)、Hadoop HDFS Hadoop(分布式计算框架)和(资源管理系统)这些组件协同工作,共同完成了大数据的存储、计算和管理任务MapReduce YARN的核心思想是将大数据分解成小块,分发到集群中的多个节点上进行并行处理,从而大大提高了计算效率HadoopHDFS1分布式存储MapReduce2并行计算YARN3资源管理分布式文件系统HDFS()是的核心组件之一HDFSHadoopDistributed FileSystem Hadoop,是一个分布式文件系统,用于存储海量数据具有高容错性、HDFS高可靠性、高吞吐量等特点,能够满足大数据存储的需求将文HDFS件分割成多个数据块,存储在集群中的多个节点上,并通过冗余备份保证数据的可靠性的设计目标是处理大规模数据集,并提供高吞吐量的数据访问HDFS数据分块冗余备份文件分割成多个数据块保证数据可靠性高吞吐量快速数据访问分布式计算框架MapReduceMapReduce是Hadoop的核心组件之一,是一个分布式计算框架,用于并行处理海量数据MapReduce将计算任务分解成Map和Reduce两个阶段,Map阶段负责将数据转换成键值对,Reduce阶段负责将相同键的值进行合并和计算MapReduce的设计目标是简化分布式计算的编程模型,让开发者能够专注于业务逻辑的实现,而无需关心底层实现的细节Map ShuffleReduce数据转换成键值对数据排序与分组数据合并与计算资源管理系统YARN()是的核心组件之一,是一个资YARN YetAnother ResourceNegotiator Hadoop源管理系统,用于管理集群中的计算资源将集群中的资源抽象成YARN Container,并根据应用程序的需求,动态分配给不同的应用程序Container的设计目标是提高集群资源的利用率,并支持多种计算框架,如YARN、、等MapReduce SparkStorm资源调度1动态分配计算资源多框架支持2兼容、等MapReduce Spark资源隔离3保障应用稳定性安装模式单机模式、伪Hadoop分布式模式、完全分布式模式Hadoop提供了三种安装模式单机模式、伪分布式模式和完全分布式模式单机模式适用于开发和测试,伪分布式模式适用于学习和演示,完全分布式模式适用于生产环境不同的安装模式适用于不同的场景,您可以根据自己的需求选择合适的安装模式本课程将重点介绍伪分布式模式和完全分布式模式的安装过程安装模式适用场景特点单机模式开发测试所有组件运行在单个JVM中伪分布式模式学习演示所有组件运行在单个节点上完全分布式模式生产环境所有组件运行在多个节点上单机模式安装步骤与配置单机模式安装是最简单的Hadoop安装模式,适用于开发和测试在单机模式下,所有Hadoop组件都运行在同一个JVM进程中,不涉及分布式存储和计算单机模式的安装过程非常简单,只需下载Hadoop安装包,解压后即可使用虽然单机模式不能充分发挥Hadoop的优势,但对于初学者来说,是一个快速入门Hadoop的好方法下载Hadoop安装包解压安装包配置环境变量启动Hadoop伪分布式模式安装详细步骤伪分布式模式安装是一种常用的安装模式,适用于学习和演示在伪分布式模式下,所有组件都运行在同一Hadoop Hadoop个节点上,但模拟了分布式环境伪分布式模式的安装过程相对复杂,需要配置无密码登录、修改配置文件等SSH Hadoop伪分布式模式能够充分展示的分布式存储和计算能力,是一个学习的好方法Hadoop Hadoop配置SSH安装JDK下载Hadoop修改配置格式化NameNode启动Hadoop配置无密码登录SSH在伪分布式模式和完全分布式模式下,需要配置无密码登录,以便组件之间进行通信配置无密码登录SSH HadoopSSH的步骤如下生成密钥对,将公钥添加到文件中,修改文件的权限SSH authorized_keys authorized_keys配置无密码登录是安装的关键步骤,请务必确保配置正确SSH Hadoop生成密钥对•SSH ssh-keygen-t rsa将公钥添加到文件中•authorized_keys cat~/.ssh/id_rsa.pub~/.ssh/authorized_keys修改文件的权限•authorized_keys chmod600~/.ssh/authorized_keys安装开发环境()Java JDK是基于开发的,因此需要安装开发环境()建议安装Hadoop JavaJava JDK或以上版本安装的步骤如下下载安装包,解压安装包,JDK
1.8JDK JDK配置环境变量,将的目录添加到环境变量中JAVA_HOME JDK bin PATH请确保安装正确,并配置好相应的环境变量JDK下载JDK解压安装配置JAVA_HOME添加PATH下载安装包Hadoop从官网下载安装包建议下载稳定版本,如或下载完成后,将安装Apache Hadoop Hadoop Hadoop
2.
7.7Hadoop
3.
2.1包上传到服务器上请确保下载的安装包完整,并且版本号与您使用的版本一致планируете官网下载地址•Apache Hadoop配置环境变量Hadoop配置环境变量的步骤如下修改文件,添加Hadoop/etc/profile环境变量,将的目录和目录添加到HADOOP_HOME Hadoopbin sbin环境变量中配置完成后,执行命令使环境变PATH source/etc/profile量生效配置环境变量可以方便地使用命令,提高工作效率Hadoop Hadoopexport HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin修改配置文件Hadoophadoop-env.sh文件是的环境配置文件,用于配置的hadoop-env.sh Hadoop Hadoop运行环境需要修改文件,设置环境变量hadoop-env.sh JAVA_HOME,指定的安装路径JDK请确保环境变量设置正确,否则将无法正常启动JAVA_HOME HadoopexportJAVA_HOME=/usr/local/jdk
1.
8.0_221修改配置文件Hadoop core-site.xml文件是的核心配置文件,用于配置的核心core-site.xml HadoopHadoop属性需要修改文件,设置属性,指定core-site.xml fs.defaultFS的NameNode URI属性指定了使用的文件系统,通常设置为fs.defaultFS Hadoophdfs://localhost:9000configurationpropertynamefs.defaultFS/namevaluehdfs://localhost:9000/value/property/configuration修改配置文件Hadoop hdfs-site.xml文件是的配置文件,用于配置的相关hdfs-site.xml Hadoop HDFS HDFS属性需要修改文件,设置属性,指定数据块hdfs-site.xml dfs.replication的副本数属性指定了数据块的副本数,通常设置为,以保证数据的dfs.replication3可靠性configurationpropertynamedfs.replication/namevalue3/value/property/configuration修改配置文件Hadoopmapred-site.xml文件是的配置文件,用于配置mapred-site.xml HadoopMapReduce的相关属性需要修改文件,设置MapReduce mapred-site.xml属性,指定使用的框架mapreduce.framework.name MapReduce属性指定了使用的框架,通常设mapreduce.framework.name MapReduce置为yarnconfigurationpropertynamemapreduce.framework.name/namevalueyarn/value/property/configuration修改配置文件Hadoop yarn-site.xml文件是的配置文件,用于配置的相关yarn-site.xml Hadoop YARN YARN属性需要修改文件,设置yarn-site.xml yarn.nodemanager.aux-services属性,指定使用的辅助服务NodeManager属性指定了使用的辅助服yarn.nodemanager.aux-services NodeManager务,通常设置为mapreduce_shuffleconfigurationpropertynameyarn.nodemanager.aux-services/namevaluemapreduce_shuffle/value/property/configuration格式化NameNode在首次启动之前,需要格式化格式化HDFS NameNode NameNode的命令是格式化会清空hadoop namenode-format NameNode上的元数据信息,请务必谨慎操作NameNode格式化只需执行一次,以后启动不需要再次格式化NameNode HDFShadoop namenode-format启动HDFS启动的命令是脚本会启动HDFS start-dfs.sh start-dfs.sh和进程NameNode DataNode请确保所有配置文件都已正确配置,否则可能无法正常启动HDFSstart-dfs.sh启动YARN启动的命令是脚本会启动YARN start-yarn.sh start-yarn.sh和进程ResourceManager NodeManager请确保所有配置文件都已正确配置,否则可能无法正常启动YARNstart-yarn.sh验证是否成功安装界面Hadoop Web提供了界面,可以用于监控集群的状态的界面地址是,Hadoop Web Hadoop NameNode Web http://localhost:50070的界面地址是ResourceManager Webhttp://localhost:8088通过界面,可以查看的文件目录、集群的资源使用情况等信息,验证是否成功安装Web HDFSHadoopNameNode Web UI ResourceManager Web UIhttp://localhost:50070http://localhost:8088查看状态查看状态HDFS YARN完全分布式模式安装集群规划完全分布式模式安装适用于生产环境,需要使用多台服务器组成集群在安装之前,需要进行集群规划,确定、、、NameNode DataNodeResourceManager等组件的部署方案NodeManager一个典型的集群包含一个、多个、一个Hadoop NameNodeDataNode和多个ResourceManager NodeManager组件数量描述存储元数据NameNode1多个存储数据块DataNode资源管理ResourceManager1多个执行计算任务NodeManager服务器准备操作系统与网络配置在安装完全分布式集群之前,需要准备好服务器建议使用相Hadoop同的操作系统,如或同时,需要配置好网络CentOS7Ubuntu
18.04,确保所有服务器之间可以相互访问请确保服务器的防火墙已关闭,或者已开放组件所需的端口Hadoop操作系统网络配置或所有服务器可以相互访问CentOS7Ubuntu
18.04防火墙关闭或开放端口安装所有节点JDK在完全分布式模式下,需要在所有节点上安装安装的步骤与伪分布式模式相同,请参考第节的内容JDK JDK13请确保所有节点上的版本一致,并且配置好相应的环境变量JDK下载安装包•JDK解压安装包•配置环境变量•JAVA_HOME将的目录添加到环境变量中•JDKbin PATH配置无密码登录所有节点SSH在完全分布式模式下,需要在所有节点上配置无密码登录配置无密码登录的步骤与伪分布式模式相同,请参考SSH SSH第节的内容12请确保所有节点之间都可以通过无密码登录SSH生成密钥对•SSH将公钥添加到文件中•authorized_keys修改文件的权限•authorized_keys下载安装包所有节Hadoop点在完全分布式模式下,需要在所有节点上下载安装包下载Hadoop安装包的步骤与伪分布式模式相同,请参考第节的内容Hadoop14请确保所有节点上的安装包版本一致Hadoop官网下载地址•Apache Hadoop解压安装包所有节Hadoop点在完全分布式模式下,需要在所有节点上解压安装包解压Hadoop安装包的命令是Hadoop tar-zxvf hadoop-x.x.x.tar.gz请确保所有节点上的安装包解压路径一致Hadooptar-zxvf hadoop-x.x.x.tar.gz配置环境变量所有Hadoop节点在完全分布式模式下,需要在所有节点上配置环境变量配置Hadoop环境变量的步骤与伪分布式模式相同,请参考第节的内容Hadoop15请确保所有节点上的环境变量配置一致Hadoopexport HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin配置核心配置文件NameNode在完全分布式模式下,需要在NameNode节点上配置核心配置文件,包括core-site.xml和hdfs-site.xmlcore-site.xml文件用于配置Hadoop的核心属性,hdfs-site.xml文件用于配置HDFS的相关属性请参考第17节和第18节的内容,配置core-site.xml和hdfs-site.xml文件!--core-site.xml--propertynamefs.defaultFS/namevaluehdfs://namenode:9000/value/property!--hdfs-site.xml--propertynamedfs.replication/namevalue3/value/property配置核心配置文件DataNode在完全分布式模式下,需要在节点上配置核心配置文件,包括DataNode和文件用于配置的核心core-site.xml hdfs-site.xml core-site.xml Hadoop属性,文件用于配置的相关属性hdfs-site.xml HDFS请参考第节和第节的内容,配置和文件1718core-site.xml hdfs-site.xml需要注意的是,节点的文件中的属DataNode core-site.xml fs.defaultFS性需要与节点保持一致NameNode!--core-site.xml--propertynamefs.defaultFS/namevaluehdfs://namenode:9000/value/property配置核心配置文件ResourceManager在完全分布式模式下,需要在ResourceManager节点上配置核心配置文件,包括core-site.xml和yarn-site.xmlcore-site.xml文件用于配置Hadoop的核心属性,yarn-site.xml文件用于配置YARN的相关属性请参考第17节和第20节的内容,配置core-site.xml和yarn-site.xml文件需要注意的是,ResourceManager节点的core-site.xml文件中的fs.defaultFS属性需要与NameNode节点保持一致!--core-site.xml--propertynamefs.defaultFS/namevaluehdfs://namenode:9000/value/property!--yarn-site.xml--propertynameyarn.resourcemanager.hostname/namevalueresourcemanager/value/property配置核心配NodeManager置文件在完全分布式模式下,需要在节点上配置核心配置文件,包NodeManager括和文件用于配置的core-site.xml yarn-site.xml core-site.xml Hadoop核心属性,文件用于配置的相关属性yarn-site.xml YARN请参考第节和第节的内容,配置和文件1720core-site.xml yarn-site.xml需要注意的是,节点的文件中的NodeManager core-site.xml属性需要与节点保持一致fs.defaultFS NameNode!--core-site.xml--propertynamefs.defaultFS/namevaluehdfs://namenode:9000/value/property同步配置文件所有节点在完全分布式模式下,需要在所有节点上同步配置文件可以使用scp命令将节点上的配置文件复制到其他节点上NameNode请确保所有节点上的配置文件一致,否则集群可能无法正常工Hadoop作scp core-site.xml hdfs-site.xml yarn-site.xmldatanode:/usr/local/hadoop/etc/hadoop/格式化主节点NameNode在完全分布式模式下,需要在节点上格式化NameNode NameNode格式化的命令是格式化NameNode hadoopnamenode-format会清空上的元数据信息,请务必谨慎操作NameNode NameNode格式化只需在节点上执行一次,以后启动NameNodeNameNode不需要再次格式化HDFShadoopnamenode-format启动主节点HDFS在完全分布式模式下,需要在节点上启动启动NameNode HDFS的命令是脚本会启动进HDFS start-dfs.sh start-dfs.sh NameNode程请确保所有配置文件都已正确配置,否则可能无法正常启动HDFSstart-dfs.sh启动主节点YARN在完全分布式模式下,需要在节点上启动启ResourceManager YARN动的命令是脚本会启动YARN start-yarn.sh start-yarn.sh进程ResourceManager请确保所有配置文件都已正确配置,否则可能无法正常启动YARNstart-yarn.sh启动所有从节点DataNode在完全分布式模式下,需要在所有节点上启动进DataNode DataNode程启动进程的命令是DataNode hadoop-daemon.sh startdatanode请确保所有节点上的环境变量配置正确,并且可以连接到Hadoop节点NameNodehadoop-daemon.sh startdatanode启动所有从节点NodeManager在完全分布式模式下,需要在所有节点上启动进程启动进程的命令是NodeManager NodeManagerNodeManager yarn-daemon.sh startnodemanager请确保所有节点上的环境变量配置正确,并且可以连接到节点Hadoop ResourceManageryarn-daemon.sh startnodemanager验证集群状态Hadoop在完全分布式模式下,可以通过界面验证集群的状态的界面地址是WebHadoopNameNode Web,的界面地址是http://namenode:50070ResourceManagerWebhttp://resourcemanager:8088通过界面,可以查看的文件目录、集群的资源使用情况等信息,验证集群是否成功启动Web HDFSHadoopNameNode WebUI ResourceManagerWeb UIhttp://namenode:50070http://resourcemanager:8088使用界面监控集群Web的界面提供了丰富的监控功能,可以用于实时查看集群的Hadoop Web状态、资源使用情况、作业执行情况等信息通过定期监控界面,Web可以及时发现集群中的问题,并采取相应的措施建议定期查看和的界面,确保集NameNode ResourceManagerWeb群运行正常NameNodeWebUI ResourceManager12WebUI监控状态HDFS监控状态YARN作业执行情况3查看作业MapReduce常用命令操Hadoop HDFS作提供了丰富的命令行工具,可以用于管理文件系统常HadoopHDFS用的操作命令包括、、HDFS hdfs dfs-ls hdfs dfs-mkdir hdfs dfs-put、、等hdfsdfs-get hdfsdfs-rm通过命令行工具,可以方便地进行文件的上传、下载、删除等操HDFS作hdfsdfs-ls/hdfsdfs-mkdir/testhdfs dfs-put localfile/testhdfs dfs-get/test/localfile localfilehdfsdfs-rm/test/localfile常用命令操Hadoop YARN作提供了丰富的命令行工具,可以用于管理资源管理系统HadoopYARN常用的操作命令包括、YARN yarn application-list yarnapplication-等kill通过命令行工具,可以方便地查看应用程序的状态、应用程序YARN kill等操作yarnapplication-listyarn application-kill application_1678888888888_0001故障排除常见错误与解决方案Hadoop在使用Hadoop的过程中,可能会遇到各种各样的错误本节将介绍一些常见的Hadoop错误,并提供相应的解决方案常见的Hadoop错误包括NameNode无法启动、DataNode无法启动、ResourceManager无法启动、NodeManager无法启动等通过学习本节的内容,您可以快速定位和解决Hadoop故障,保证Hadoop集群的稳定运行1NameNode无法启动检查配置文件、格式化NameNode2DataNode无法启动检查配置文件、网络连接3ResourceManager无法启动检查配置文件、资源配置4NodeManager无法启动检查配置文件、资源配置性能优化参数调优Hadoop的性能可以通过参数调优来提升本节将介绍一些常用的性能HadoopHadoop优化参数,包括、、dfs.blocksize dfs.datanode.handler.count、等mapreduce.map.memory.mb mapreduce.reduce.memory.mb通过合理调整这些参数,可以提高的存储和计算效率Hadoop参数描述建议值数据块大小或dfs.blocksize128MB256MB数根据核心数调整dfs.datanode.handler.DataNode HandlerCPU量count内存根据集群内存调整mapreduce.map.me MapTaskmory.mb内存根据集群内存调整mapreduce.reduce.m ReduceTaskemory.mb概述的核心特Spark Spark性是一个快速的、通用的集群计算系统它提供了高级,支持Spark API、、和等多种编程语言的核心特性包括Java Scala Python RSpark内存计算、容错性、快速性、易用性等能够高效地处理大规模数据集,适用于各种数据分析和机器学习Spark任务内存计算容错性12快速数据处理自动故障恢复易用性3支持多种编程语言安装环境准备Spark在安装之前,需要准备好相应的环境依赖于和,因此需要安装和同时,可以Spark SparkJava ScalaJDK ScalaSpark运行在集群上,也可以独立运行如果计划将运行在集群上,需要先安装Hadoop SparkHadoopHadoop请确保您的服务器满足以下最低配置要求核以上,内存以上,硬盘以上CPU24GB40GB软件要求硬件要求核以上Java JDK
1.8+CPU2内存以上Scala
2.11+4GB可选硬盘以上Hadoop
2.7+40GB下载安装包Spark从官网下载安装包建议下载稳定版本,如Apache Spark Spark或下载完成后,将安装包上传到服务器上Spark
2.
4.5Spark
3.
0.0请确保下载的安装包完整,并且版本号与您使用的版本一планируете致官网下载地址•Apache Spark配置环境变量Spark配置环境变量的步骤如下修改文件,添加Spark/etc/profile环境变量,将的目录和目录添加到SPARK_HOME Sparkbin sbin环境变量中配置完成后,执行命令使环境变PATH source/etc/profile量生效配置环境变量可以方便地使用命令,提高工作效率Spark SparkexportSPARK_HOME=/usr/local/sparkexport PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin修改配置文件Sparkspark-env.sh文件是的环境配置文件,用于配置的运行环spark-env.sh Spark Spark境需要修改文件,设置环境变量,指定spark-env.sh JAVA_HOME的安装路径如果运行在集群上,还需要设置JDK SparkHadoop环境变量,指定配置文件的路径HADOOP_CONF_DIR Hadoop请确保和环境变量设置正确,否JAVA_HOME HADOOP_CONF_DIR则将无法正常启动Sparkexport JAVA_HOME=/usr/local/jdk
1.
8.0_221exportHADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop启动Spark Master启动的命令是脚本会Spark Masterstart-master.sh start-master.sh启动进程Spark Master请确保所有配置文件都已正确配置,否则可能无法正常启Spark Master动start-master.sh启动Spark Worker启动的命令是Spark Workerstart-worker.sh spark://master:7077脚本会启动进程需要指定start-worker.sh SparkWorker Spark Master的地址请确保所有配置文件都已正确配置,并且可以连接到Spark Masterstart-worker.sh spark://master:7077验证是否成功安装Spark提供了界面,可以用于监控集群的状态的界面地址是通过Spark Web Spark SparkMaster Webhttp://master:8080界面,可以查看的信息、应用程序的执行情况等信息,验证是否成功安装WebSparkWorker Spark可以通过运行自带的示例程序来验证是否可以正常工作Spark Spark示例程序SparkMasterWeb UIhttp://master:8080spark-submit--class org.apache.spark.examples.SparkPi--master spark://master:7077/usr/local/spark/examples/jars/spark-examples_
2.11-
2.
4.
5.jar10常用操作SparkSpark Shell是一个交互式的编程环境,可以用于快速验证Spark ShellSparkSpark代码启动的命令是在中,可Spark Shellspark-shell SparkShell以使用或编写代码ScalaPythonSpark提供了一个环境,可以方便SparkShellREPL Read-Eval-Print Loop地进行代码的调试和测试Sparkspark-shell概述数据仓库工具Hive是一个基于的数据仓库工具,用于查询和分析存储在Hive Hadoop文件系统中的大规模数据提供了类似于的查询语言Hadoop Hive SQL,称为,可以方便地进行数据查询和分析HiveQL将查询转换成作业,然后在集群上执行HiveSQL MapReduce Hadoop数据仓库HiveQL查询分析大规模数据类似于的查询语言SQLMapReduce将转换成作业SQLMapReduce安装环境准备Hive在安装之前,需要准备好相应的环境依赖于和,因此需要先安装和同时,需Hive HiveHadoop JavaHadoop JDKHive要一个元数据库,用于存储表的元数据信息常用的元数据库包括和Hive MySQL PostgreSQL请确保您的服务器满足以下最低配置要求核以上,内存以上,硬盘以上CPU24GB40GB软件要求硬件要求核以上Hadoop
2.7+CPU2内存以上Java JDK
1.8+4GB或硬盘以上MySQLPostgreSQL40GB下载安装包Hive从官网下载安装包建议下载稳定版本,如Apache Hive HiveHive或下载完成后,将安装包上传到服务器上
2.
1.1Hive
3.
1.2请确保下载的安装包完整,并且版本号与您使用的版本一планируете致官网下载地址•Apache Hive配置环境变量Hive配置环境变量的步骤如下修改文件,添加Hive/etc/profile环境变量,将的目录添加到环境变量中HIVE_HOME HivebinPATH配置完成后,执行命令使环境变量生效source/etc/profile配置环境变量可以方便地使用命令,提高工作效率Hive HiveexportHIVE_HOME=/usr/local/hiveexport PATH=$PATH:$HIVE_HOME/bin。
个人认证
优秀文档
获得点赞 0