HDFS | 沉思语录

介绍

使用bigdl的时候需要将训练数据集放在分布式文件系统中

配置hadoop
etc/hadoop/hadoop-env.sh 写入 export JAVA_HOME=/usr/java/latest

配置etc/hadoop/slaves文件
r02s01
r02s02

配置etc/hadoop/core-site.xml

fs.defaultFS
hdfs://r02s01:9000

io.file.buffer.size
131072

hadoop.tmp.dir
file:///home/hadoop/hadoop-2.6.5/tmp

配置 etc/hadoop/hdfs-site.xml

dfs.namenode.name.dir
file:/home/hadoop/hadoop-2.6.5/tmp/dfs/name

dfs.datanode.data.dir
file:/home/hadoop/hadoop-2.6.5/tmp/dfs/data

配置hadoop
etc/hadoop/hadoop-env.sh 写入 export JAVA_HOME=/usr/java/latest

配置etc/hadoop/core-site.xml 一定要配置，很重要

fs.defaultFS
hdfs://r02s01:9000

不配置 etc/hadoop/hdfs-site.xml

启动：
$HADOOP_PREFIX/bin/hdfs namenode -format
$HADOOP_PREFIX/sbin/start-dfs.sh

启动之后用jps查看namenode和datanode的进程

关闭：
$HADOOP_PREFIX/sbin/stop-dfs.sh

如果出现namenode或者datanode无法启动，查看机器上的log有明确信息

namenode:
hdfs dfs -put ./testdata/lesliename.txt /
其它节点
hdfs dfs -ls /
hdfs dfs -cat /lesliename.txt

datanode:
启动spark-shell：
val textFile = spark.read.textFile(“hdfs://r02s01:9000/lesliename.txt”)
textFile.first()

输出文件内容说明HDFS部署成功