Nhật thường phô điếm
Bổn nhân tối chung dụng vu đại sổ cư tập trắc thí đích tập quần trung bao hàm 4 cá tiết điểm, mỗi cá tiết điểm thị nhất cá worker, mỗi cá worker thượng khải động nhất cá Executor, kỳ trung Driver dã bào tại master thượng. Mỗi cá Executor khả sử dụng đích hạch sổ vi 2, khả dụng đích nội tồn vi 2g, tập quần trung sở hữu Executor tối đại khả dụng hạch sổ vi 8.
conf/spark-defaults.conf bộ phân tham sổ phối trí như hạ:
spark.masterspark://Master:7077
spark.executor.memory2g
spark.executor.cores2
spark.cores.max8
Bổn nhân bả master, executor đích đối ứng tham sổ tả tử tại default trung, giá dạng tại đề giao jar bao vận hành thời tỉnh khứ tả tham sổ đích ma phiền, đãn nhược nhĩ tưởng đồng thời tại tập quần trung bào lưỡng cá hoặc dĩ thượng spark ứng dụng, bất kiến nghị bả tham sổ tả tử. Nhi thị tuyển trạch tại đề giao jar bao đích thời, án chiếu nhu cầu phân phối executor đích hạch sổ hòa memory sổ cấp bất đồng đích ứng dụng. Nhược mỗ cá ứng dụng chiêm dụng liễu sở hữu đích hạch hòa nội tồn, thặng hạ đích ứng dụng chỉ năng đẳng đãi giá cá trình tự chấp hành hoàn tất thích phóng tư nguyên hậu tài khả chấp hành.
conf/spark-env.sh bộ phân tham sổ phối trí như hạ:
exportSPARK_WORKER_CORES=2
exportSPARK_WORDER_INSTANCES=1
exportSPARK_WORKER_MEMORY=2g
Ngộ đáo quá đích vấn đề:
Khải động liễu tứ cá tiết điểm, đãn thị tại xử lý sổ cư đích thời hầu phụ tái bất quân hành, chỉ hữu lưỡng cá tiết điểm đích sử dụng suất ngận cao. Thôi trắc dữ phân khu sổ hữu quan, trắc thí sổ cư tập vi 267MB, hdfs trung mặc nhận đích sổ cư phân phiến đại tiểu vi 128MB, ước hữu lưỡng cá phân khu. Thôi trắc chỉ hữu lưỡng cá phân khu năng nã đáo sổ cư tiến hành kế toán, sở dĩ tương hdfs đích sổ cư phân phiến đại tiểu cải vi 64MB, giá dạng ước hữu 4 cá phân khu, dữ tập quần trung đích Executor sổ mục tương phù. Kinh trắc thí chứng minh, phụ tái bất quân hành đích vấn đề đắc đáo giải quyết. Tham khảo:Phân khu tiểu kết
Tu cải phối trí văn kiện hdfs-site.xml, tương block size thiết trí vi 64MB
<property>
<name>dfs.block.size</name>
<value>67108864</value>Thuyết minh: 64M=64*1024*1024
</property>
Tiến nhập chính đề
8080
Đương ngã môn thành công khải động spark hậu, thông quáhttp://localhost:8080Tức khả phóng vấn master đích giam khống giới diện, thử đoan khẩu hào mặc nhận thị 8080, nhược thử đoan khẩu bất khả dụng, dã khả thông quá tu cải phối trí văn kiện conf/spark-env.sh tiến hành tu cải
Như thượng đồ sở kỳ, thử hiệt diện tự thượng nhi hạ bao quát:
spark bản bổn tín tức, spark master đích URL ( worker dụng lai liên tiếp thử master đích URL )
worker đích sổ lượng: 4
Sở hữu worker tiết điểm trung khả dụng hòa tại dụng đích core ( tra khán tư nguyên đích sử dụng tình huống, tham khảo thị phủ thích hợp tái khải động nhất cá ứng dụng đẳng )
Sở hữu worker tiết điểm trung khả dụng hòa tại dụng đích memory ( như thượng )
Chính tại vận hành hòa dĩ kinh hoàn thành đích ứng dụng sổ lượng
master đương tiền trạng thái
workers bộ phân
-Triển kỳ tập quần trung mỗi cá worker đích vị trí, đáo đương tiền trạng thái, nội hạch sử dụng tình huống, nội tồn sử dụng tình huống
( thông quá tra khán nội hạch hòa nội tồn đích dụng lượng tình huống xác định thị phủ túc cú vận hành nhất cá tân đích ứng dụng )
-Điểm kích workerID tiến nhập worker đích detail hiệt diện hội hiển kỳ dữ cai worker canh tường tế đích tín tức
( lý tưởng tình huống hạ, sở hữu worker tiết điểm sử dụng đích nội hạch sổ hòa nội tồn ứng cai thị tương đồng đích, như quả xuất hiện sử dụng suất bất đồng đích tình huống, thuyết minh tập quần tư nguyên vị bình quân phân phối, ứng dụng vị tối giai hóa vận hành, nhu đình chỉ sở hữu ứng dụng trọng tân khải động tập quần )
Running/Completed Application bộ phân
-Phân biệt triển kỳ tại vận hành hòa dĩ kinh vận hành hoàn đích ứng dụng tín tức, bao quát danh xưng, hoạch đắc đích tư nguyên, khai thủy thời gian, sở hữu giả, dĩ vận hành thời gian, mục tiền trạng thái ( RUNNING/FINISHED/ kết thúc nguyên nhân )
( nhược state hiển kỳ WAITING, tắc thuyết minh Spark đối vu ứng dụng một hữu túc cú đích nội tồn hoặc nội hạch, tương bảo trì đẳng đãi trực đáo hữu túc cú tư nguyên khả dụng, hữu kỉ chủng tình huống, nhất thị trực đáo dĩ kinh tại vận hành đích nhất cá ứng dụng hoàn thành vận hành, nhi thị tăng gia phân phối cấp spark worker đích tư nguyên, tam thị tương thiếu ứng dụng đích thỉnh cầu tư nguyên )
-Điểm kích ApplicationID tiến nhập detail hiệt diện hội hiển kỳ khán đáo quan vu cai ứng dụng vận hành thời đích tường tế tín tức, bao quát tham dữ đích worker/ sử dụng đích tư nguyên sổ / nhật chí đẳng
( như quả nhất cá nhậm vụ thất bại hoặc phao xuất liễu dị thường, khả dĩ tra khán stderr văn kiện lai điều thí vấn đề )
4040
localhost:4040 ( đương ứng dụng tại vận hành trung đích thời hầu khả dĩ phóng vấn, nhất đán ứng dụng chấp hành kết thúc cai đoan khẩu quan bế bất khả phóng vấn )
Như hạ đồ, hiển kỳ cơ bổn đích vận hành thời gian, điều độ mô thức ( FIFO vi tiên tiến tiên xuất ), bất trạng thái trung tác nghiệp đích thống kế lượng, tịnh hiển kỳ chính tại vận hành / dĩ kinh hoàn thành / vận hành thất bại đích spark tác nghiệp giác vi tường tế đích tín tức liệt biểu, lệ như, Job đích đề giao thời gian / vận hành thời gian / mục tiền vi chỉ mỗi cá Job hoàn thành đích Stage hòa Task sổ lượng đẳng
( tòng vận hành thời gian hạng khả dĩ quan sát đáo, nhược mỗ nhất cá Job hoa phí thời gian dị thường, khả dĩ bả vấn đề súc tiểu đáo cai Job hạ đích Stage hoặc giả Task )
Điểm kích mỗ JobID, tiến nhập detail hiệt diện hiển kỳ như hạ tín tức:
Cai Job đương tiền trạng thái
Hoạt dược / diên trì / dĩ hoàn thành đích Stage sổ lượng
Cai Job đích sự kiện thời gian tuyến
[spark vi cai Job sinh thành đích DAG đích khả thị hóa trình hiện ]
Biểu cách bộ phân đích tín tức hữu trợ vu định vị tính năng vấn đề, kiểm tra Duration liệt thị phủ tồn tại vận hành thời gian dị thường đích Stage, Tasks biểu minh nhất cá Stage nội đích tịnh hành lượng ( căn cư tập quần đại tiểu, thái thiếu hoặc thái đa khả năng đạo trí tính năng vấn đề ). Sổ cư Shufflehaiku ứng dụng tính năng tạo thành phụ diện ảnh hưởng, sở dĩ yếu tối tiểu hóa Shuffle Read hòa Write sổ lượng.
DGA khả thị hóa
Stage
Điểm kích mỗ Stage, tiến nhập detail hiệt diện hiển kỳ như hạ tín tức.
Summary bộ phân:
Nhược nhậm vụ trì tục thời gian tại nhậm nhất cá tứ phân vị xử quá cao, tắc thuyết minh hữu vấn đề. Khả năng thị phân khai thái đại, dã khả năng thị sổ cư Shuffle đích phụ diện hiệu ứng. Dã khả dĩ kiểm tra GC hoạt động thị phủ ảnh hưởng tính năng.
Executor đích tụ hợp tín tức bộ phân:
Khả dĩ hữu hiệu trảo xuất xử lý hoãn mạn đích nhậm vụ, kiểm tra GC thời gian
Locality Level ( sổ cư đích khu vực cấp biệt ): Tiêu minh nhậm vụ sở xử lý đích sổ cư thị hoãn tồn tại nội tồn trung đích ( PROCESS_LOCAL ), hoàn thị bổn địa độc thủ ( NODE_LOCAL ), hoàn thị lai tự vu tập quần trung đích nhậm ý tiết điểm ( ANY ). Dĩ PROCESS_LOCAL cấp biệt xử lý sổ cư thị cực khoái đích.
Sự kiện thời gian tuyến giam khống, hiển kỳ liễu mỗi cá worker tiết điểm thượng tịnh hành vận hành liễu đa thiếu cá nhậm vụ, dĩ kinh tăng gia nhậm vụ hoàn thành sở nhu đích tổng thời gian
Storage hiệt hiển kỳ Spark ứng dụng hoãn tồn tại nội tồn hoặc ngạnh bàn trung đích sổ cư lượng, đề cung mỗi nhất cá trì cửu hóa RDD đích tín tức. ( khả dĩ thị dĩ Hive biểu cách hoặc giả thị RDD đích hình thức hoãn tồn tại nội tồn trung )
Storage Level triển kỳ sổ cư tập như hà hoãn tồn, dĩ cập sở hoãn tồn sổ cư đích phó bổn sổ lượng.
Điểm kích cụ thể đích RDDID, tiến nhập detail hiệt. Bao quát:
Hoãn tồn RDD đích khái yếu tín tức
Tại bất đồng EXecutor thượng đích phân bố ( mỗi cá Executor thượng nhu yếu đích nội tồn )
Phân khối tín tức, như tồn trữ cấp biệt / vị trí / mỗi cá hoãn tồn RDD phân khối đại tiểu
Enviroment hiệt diện hiển kỳ bất đồng hoàn cảnh hòa phối trí biến lượng đích trị:
Executor hiển kỳ Spark vi cai ứng dụng sang kiến đích chấp hành giả đích khái yếu tín tức:
Storage Memory biểu kỳ hoãn tồn sổ cư sở dự lưu đích hòa sở sử dụng đích nội tồn lượng ( nhược nội tồn tiểu vu chính tại thường thí hoãn tồn đích sổ cư, tắc hội xuất hiện tính năng vấn đề )
Shuffle đích độc tả đô thị ngang quý đích, như quả giá lưỡng cá trị quá đại, ứng cai trọng cấu ứng dụng đại mã hoặc giả điều chỉnh Spark tham sổ giảm thiếu Shuffling
18080
localhost:18080 ( spark đích lịch sử quản lý trung tâm, bao hàm sở hữu dĩ kinh vận hành hoàn thành đích Application cập kỳ tường tế tín tức )
Điểm kích cụ thể đích APP ID triển hiện đích hiệt diện kết cấu dữ 4040 tương đồng
50070
-master:50070 phóng vấn namenode đích hdfs web UI giam khống hiệt diện
( lý tưởng tình huống hạ, Summary hạ đích biểu cách hữu biên thị hữu chính thường sổ cư đích nhi bất thị 0 )
-Tra khán dĩ kinh khải động đích datanode tín tức
-Tra khán văn kiện mục lục
Tham khảo: 《Spark đại sổ cư phân tích 》