Linux bố trí Hadoop tụ quần
Tóm tắt
1 ) Hadoop là một cái từ Apache quỹ hội sở khai phá phân bố thức hệ thống cơ sở giá cấu.
2 ) chủ yếu giải quyết, rộng lượng số liệu tồn trữ cùng rộng lượng số liệu phân tích tính toán vấn đề.
Hadoop HDFS cung cấp phân bố thức rộng lượng số liệu tồn trữ năng lực
Hadoop YARN cung cấp phân bố thức tụ quần tài nguyên quản lý năng lực
Hadoop MapReduce cung cấp phân bố thức rộng lượng số liệu tính toán năng lực
Trước trí yêu cầu
- Thỉnh bảo đảm hoàn thành tụ quần hóa hoàn cảnh trước trí chuẩn bị chương nội dung
- Tức: JDK, SSH miễn mật, đóng cửa tường phòng cháy, phối trí trưởng máy danh chiếu rọi chờ trước trí thao tác
Tham khảo văn chương:
11-Linux bố trí tụ quần chuẩn bị: http://t.csdnimg.cn/zWbnd
Hadoop tụ quần nhân vật
Hadoop sinh thái hệ thống trung tổng cộng sẽ xuất hiện như sau tiến trình nhân vật:
- Hadoop HDFS quản lý nhân vật: Namenode tiến trình (
Chỉ cần 1 cái có thể ( quản lý giả một cái liền đủ )
) - Hadoop HDFS công tác nhân vật: Datanode tiến trình (
Yêu cầu nhiều ( công nhân, càng nhiều càng tốt, một cái máy móc khởi động một cái )
) - Hadoop YARN quản lý nhân vật: ResourceManager tiến trình (
Chỉ cần 1 cái có thể ( quản lý giả một cái liền đủ )
) - Hadoop YARN công tác nhân vật: NodeManager tiến trình (
Yêu cầu nhiều ( công nhân, càng nhiều càng tốt, một cái máy móc khởi động một cái )
) - Hadoop lịch sử ký lục server nhân vật: HistoryServer tiến trình (
Chỉ cần 1 cái có thể ( công năng tiến trình không cần quá nhiều 1 cái cũng đủ )
) - Hadoop đại lý server nhân vật: WebProxyServer tiến trình (
Chỉ cần 1 cái có thể ( công năng tiến trình không cần quá nhiều 1 cái cũng đủ )
) - Zookeeper tiến trình: QuorumPeerMain tiến trình (
Chỉ cần 1 cái có thể ( Zookeeper công tác giả, càng nhiều càng tốt )
)
Nhân vật cùng tiết điểm phân phối
Nhân vật phân phối như sau:
- node1:Namenode, Datanode, ResourceManager, NodeManager, HistoryServer, WebProxyServer, QuorumPeerMain
- node2:Datanode, NodeManager, QuorumPeerMain
- node3:Datanode, NodeManager, QuorumPeerMain
Trang bị
Điều chỉnh giả thuyết cơ nội tồn
Như trên đồ, có thể thấy được node1 chịu tải quá nhiều áp lực. Đồng thời node2 cùng node3 cũng đồng thời vận hành không ít trình tự
Vì bảo đảm tụ quần ổn định, yêu cầu đối giả thuyết cơ tiến hành nội tồn thiết trí.
Thỉnh ở VMware trung, đối:
- node1 thiết trí 4GB hoặc trở lên nội tồn
- node2 cùng node3 thiết trí 2GB hoặc trở lên nội tồn
Đại số liệu phần mềm bản thân chính là tụ quần hóa ( một đống server ) cùng nhau vận hành.
Hiện tại chúng ta ở một máy tính trung lấy nhiều đài giả thuyết cơ tới bắt chước tụ quần, xác thật sẽ có rất lớn nội tồn áp lực nga.
Zookeeper tụ quần bố trí
Lược
Hadoop tụ quần bố trí
Download Hadoop gói cài đặt, giải áp, phối trí mềm liên tiếp
- Download
wget--no-check-certificate http://archive.apache.org/dist/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz
- Giải áp
# thỉnh bảo đảm mục lục /export/server tồn tại tar-zxvfhadoop-3.3.0.tar.gz-C/export/server/
- Mềm liên tiếp
ln-s/export/server/hadoop-3.3.0 /export/server/hadoop
Sửa chữa phối trí văn kiện:
hadoop-env.sh
Hadoop phối trí văn kiện muốn sửa chữa địa phương rất nhiều, thỉnh cẩn thận
cd tiến vào đến
/export/server/hadoop/etc/hadoop
,Folder trung, phối trí văn kiện đều ở chỗ nàySửa chữa
hadoop-env.sh
Văn kiệncd/export/server/hadoop/etc/hadoop vimhadoop-env.sh
Này văn kiện là phối trí một ít Hadoop dùng đến hoàn cảnh lượng biến đổi
Này đó là lâm thời lượng biến đổi, ở Hadoop vận hành khi hữu dụng
Nếu muốn vĩnh cửu có hiệu lực, yêu cầu viết đến /etc/profile trung
# ở văn kiện mở đầu gia nhập: # phối trí Java trang bị đường nhỏ exportJAVA_HOME=/export/server/jdk # phối trí Hadoop trang bị đường nhỏ exportHADOOP_HOME=/export/server/hadoop # Hadoop hdfs phối trí văn kiện đường nhỏ exportHADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop # Hadoop YARN phối trí văn kiện đường nhỏ exportYARN_CONF_DIR=$HADOOP_HOME/etc/hadoop # Hadoop YARN nhật ký folder exportYARN_LOG_DIR=$HADOOP_HOME/logs/yarn # Hadoop hdfs nhật ký folder exportHADOOP_LOG_DIR=$HADOOP_HOME/logs/hdfs # Hadoop sử dụng khởi động người dùng phối trí exportHDFS_NAMENODE_USER=root exportHDFS_DATANODE_USER=root exportHDFS_SECONDARYNAMENODE_USER=root exportYARN_RESOURCEMANAGER_USER=root exportYARN_NODEMANAGER_USER=root exportYARN_PROXYSERVER_USER=root
Sửa chữa phối trí văn kiện:
core-site.xml
Như sau, quét sạch văn kiện, điền nhập như sau nội dung
<?xml version= "1.0" encoding= "UTF-8"?> <?xml-stylesheet type= "text/xsl" href= "configuration.xsl"?> <!-- Licensed under the Apache License, Version 2.0 (the "License" ); you may not use this file except in compliance with the License. You may obtain a copy of the License at http:// apache.org/licenses/LICENSE-2.0 Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License. See accompanying LICENSE file. --> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://node1:8020</value> <description></description> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> <description></description> </property> </configuration>
Phối trí:
hdfs-site.xml
Văn kiện<?xml version= "1.0" encoding= "UTF-8"?> <?xml-stylesheet type= "text/xsl" href= "configuration.xsl"?> <!-- Licensed under the Apache License, Version 2.0 (the "License" ); you may not use this file except in compliance with the License. You may obtain a copy of the License at http:// apache.org/licenses/LICENSE-2.0 Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License. See accompanying LICENSE file. --> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>dfs.datanode.data.dir.perm</name> <value>700</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/data/nn</value> <description>Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently.</description> </property> <property> <name>dfs.namenode.hosts</name> <value>node1,node2,node3</value> <description>List of permitted DataNodes.</description> </property> <property> <name>dfs.blocksize</name> <value>268435456</value> <description></description> </property> <property> <name>dfs.namenode.handler.count</name> <value>100</value> <description></description> </property> <property> <name>dfs.datanode.data.dir</name> <value>/data/dn</value> </property> </configuration>
Phối trí:
mapred-env.sh
Văn kiện# ở văn kiện mở đầu gia nhập như sau hoàn cảnh lượng biến đổi thiết trí exportJAVA_HOME=/export/server/jdk exportHADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000 exportHADOOP_MAPRED_ROOT_LOGGER=INFO,RFA
Phối trí:
mapred-site.xml
Văn kiện<?xml version= "1.0"?> <?xml-stylesheet type= "text/xsl" href= "configuration.xsl"?> <!-- Licensed under the Apache License, Version 2.0 (the "License" ); you may not use this file except in compliance with the License. You may obtain a copy of the License at http:// apache.org/licenses/LICENSE-2.0 Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License. See accompanying LICENSE file. --> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> <description></description> </property> <property> <name>mapreduce.jobhistory.address</name> <value>node1:10020</value> <description></description> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>node1:19888</value> <description></description> </property> <property> <name>mapreduce.jobhistory.intermediate-done-dir</name> <value>/data/mr-history/tmp</value> <description></description> </property> <property> <name>mapreduce.jobhistory.done-dir</name> <value>/data/mr-history/done</value> <description></description> </property> <property> <name>yarn.app.mapreduce.am.env</name> <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value> </property> <property> <name>mapreduce.map.env</name> <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value> </property> <property> <name>mapreduce.reduce.env</name> <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value> </property> </configuration>
Phối trí:
yarn-env.sh
Văn kiện# ở văn kiện mở đầu gia nhập như sau hoàn cảnh lượng biến đổi thiết trí exportJAVA_HOME=/export/server/jdk exportHADOOP_HOME=/export/server/hadoop exportHADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop exportYARN_CONF_DIR=$HADOOP_HOME/etc/hadoop exportYARN_LOG_DIR=$HADOOP_HOME/logs/yarn exportHADOOP_LOG_DIR=$HADOOP_HOME/logs/hdfs
Phối trí:
yarn-site.xml
Văn kiện<?xml version= "1.0"?> <!-- Licensed under the Apache License, Version 2.0 (the "License" ); you may not use this file except in compliance with the License. You may obtain a copy of the License at http:// apache.org/licenses/LICENSE-2.0 Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License. See accompanying LICENSE file. --> <configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.log.server.url</name> <value>http://node1:19888/jobhistory/logs</value> <description></description> </property> <property> <name>yarn.web-proxy.address</name> <value>node1:8089</value> <description>proxy server hostname and port</description> </property> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> <description>Configuration to enable or disable log aggregation</description> </property> <property> <name>yarn.nodemanager.remote-app-log-dir</name> <value>/tmp/logs</value> <description>Configuration to enable or disable log aggregation</description> </property> <!-- Site specific YARN configuration properties --> <property> <name>yarn.resourcemanager.hostname</name> <value>node1</value> <description></description> </property> <property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value> <description></description> </property> <property> <name>yarn.nodemanager.local-dirs</name> <value>/data/nm-local</value> <description>Comma-separated list of paths on the local filesystem where intermediate data is written.</description> </property> <property> <name>yarn.nodemanager.log-dirs</name> <value>/data/nm-log</value> <description>Comma-separated list of paths on the local filesystem where logs are written.</description> </property> <property> <name>yarn.nodemanager.log.retain-seconds</name> <value>10800</value> <description>Default time (in seconds) to retain log files on the NodeManager Only applicable if log-aggregation is disabled.</description> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> <description>Shuffle service that needs to be set for Map Reduce applications.</description> </property> </configuration>
Sửa chữa workers văn kiện
# toàn bộ nội dung như sau node1 node2 node3
Phân phát hadoop đến cái khác máy móc
# ở node1 chấp hành
cd/export/server
scp-rhadoop-3.3.0 node2:`pwd`/
scp-rhadoop-3.3.0 node3:`pwd`/
Ở node2, node3 chấp hành
# sáng tạo mềm liên tiếp ln-s/export/server/hadoop-3.3.0 /export/server/hadoop
Sáng tạo sở cần mục lục
Ở node1 chấp hành:
mkdir-p/data/nn mkdir-p/data/dn mkdir-p/data/nm-log mkdir-p/data/nm-local
Ở node2 chấp hành:
mkdir-p/data/dn mkdir-p/data/nm-log mkdir-p/data/nm-local
Ở node3 chấp hành:
mkdir-p/data/dn mkdir-p/data/nm-log mkdir-p/data/nm-local
Phối trí hoàn cảnh lượng biến đổi
Ở node1, node2, node3 sửa chữa /etc/profile
exportHADOOP_HOME=/export/server/hadoop exportPATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
Chấp hành
source /etc/profile
Có hiệu lựcCách thức hóa NameNode, ở node1 chấp hành (Chú ý thỉnh không cần lặp lại cách thức hóa, lặp lại cách thức hóa sẽ xuất hiện DataNode tiến trình không có thêm tái, phương pháp giải quyết xem cuối cùng)
hadoop namenode-format
hadoop cái này mệnh lệnh đến từ chính: $HADOOP_HOME/bin trung trình tự
Bởi vì phối trí hoàn cảnh lượng biến đổi PATH, cho nên có thể ở tùy ý vị trí chấp hành hadoop mệnh lệnh nga
Khởi động hadoop hdfs tụ quần, ở node1 chấp hành có thể
start-dfs.sh # như cần đình chỉ có thể chấp hành stop-dfs.sh
start-dfs.sh cái này mệnh lệnh đến từ chính: $HADOOP_HOME/sbin trung trình tự
Bởi vì phối trí hoàn cảnh lượng biến đổi PATH, cho nên có thể ở tùy ý vị trí chấp hành start-dfs.sh mệnh lệnh nga
Khởi động hadoop yarn tụ quần, ở node1 chấp hành có thể
start-yarn.sh # như cần đình chỉ có thể chấp hành stop-yarn.sh
Khởi động lịch sử server
mapred--daemonstart historyserver # như cần đình chỉ đem start đổi mới vì stop
Khởi động web đại lý server
yarn-daemon.sh start proxyserver # như cần đình chỉ đem start đổi mới vì stop
Nghiệm chứng Hadoop tụ quần vận hành tình huống
Ở node1, node2, node3 thượng thông qua jps nghiệm chứng tiến trình hay không đều khởi động thành công
Nghiệm chứng HDFS, trình duyệt mở ra: http://192.168.149.131:9870
Sáng tạo văn kiện test.txt, tùy ý điền đi vào dung, cũng chấp hành:
hadoop fs-puttest.txt /test.txt hadoop fs-cat/test.txt
Nghiệm chứng YARN, trình duyệt mở ra: http://192.168.149.131:8088
Chấp hành:
# sáng tạo văn kiện test.txt, điền nhập như sau nội dung bowen bowen hadoop jiaqi hadoop hadoop jiaqi bowen # đem văn kiện thượng truyền tới HDFS trung hadoop fs-puttest.txt /test.txt # chấp hành như sau mệnh lệnh nghiệm chứng YARN hay không bình thường hadoop jar /export/server/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordcount-Dmapred.job.queue.name=root.root /test.txt /output
Lặp lại cách thức hóa NameNode dẫn tới DataNode tiến trình không có thêm tái
Vấn đề miêu tả:
Lặp lại sử dụng dưới mệnh lệnh, dẫn tới namenode cùng datanode chi gian không nhất trí, cuối cùng DataNode tiến trình không có khởi động
hadoop namenode-format
Giải quyết phương án:
- Đóng cửa Hadoop trình tự
stop-all.sh
- Tiến vào Hadoop trang bị mục lục tìm được
etc/hadoop/
Mục lục hạhdfs-site.xml
Văn kiện
cd/export/server/hadoop-3.3.0/etc/hadoop
- Sử dụng vim mệnh lệnh xem xét
hdfs-site.xml
,Tìm được văn kiện này trung datanode gửi đường nhỏ
vimhdfs-site.xml
- Ở node1, node2, node3 đều tiến hành dưới thao tác ( xóa bỏ datanode gửi đường nhỏ hạ sở hữu văn kiện )
rm-rf/data/dn/*
- Một lần nữa cách thức hóa
hadoop namenode-format
- Khởi động tụ quần
start-all.sh
- Sử dụng jps mệnh lệnh xem xét tiến trình
jps
Có thể nhìn đến khởi động thành công