Hadoop hệ thống sinh thái nhìn chung
### Hadoop hệ thống sinh thái nhìn chung #### một, Hadoop lịch sử cùng khởi nguyên Hadoop hạng mục ra đời với 2004 năm, từ Doug Cutting cùng Mike Cafarella ở nhã hổ công ty bên trong khai phá. Nên hạng mục nguồn cảm hứng với Google phát biểu hai thiên trứ danh luận văn: 《Google File System》 cùng 《MapReduce: Simplified Data Processing on Large Clusters》. Này hai thiên luận văn công bố Google như thế nào xử lý rộng lượng số liệu, do đó dẫn dắt Hadoop thiết kế ý nghĩ. Lúc ban đầu, Hadoop bị thiết kế thành một loại có thể xử lý đại quy mô số liệu tập kỹ thuật, thông qua phân bố thức tồn trữ cùng tính toán phương thức, sử số liệu xử lý có thể ở mấy trăm thậm chí mấy ngàn đài server thượng đồng thời tiến hành. Theo thời gian phát triển, Hadoop đã không chỉ là một cái đơn giản phân bố thức tính toán dàn giáo, mà là dần dần diễn biến thành một cái hoàn chỉnh đại số liệu xử lý hệ thống sinh thái. Cái này hệ thống sinh thái các lắp ráp lẫn nhau hợp tác, cộng đồng duy trì các loại số liệu xử lý cùng phân tích nhiệm vụ. #### nhị, Hadoop trung tâm lắp ráp Hadoop trung tâm lắp ráp chủ yếu bao gồm HDFS ( Hadoop Distributed File System ) cùng YARN ( Yet Another Resource Negotiator ). ##### 2.1 HDFS (Hadoop Distributed File System) HDFS là một loại phân bố thức văn kiện hệ thống, chuyên vì tồn trữ đại lượng số liệu mà thiết kế. Nó thông qua đem số liệu phân thành khối ( cam chịu lớn nhỏ vì 128MB ), cũng đem này đó khối tồn trữ ở tụ quần trung nhiều tiết điểm đi lên thực hiện cao nhưng dùng tính cùng dung sai tính. HDFS giá cấu chủ yếu bao hàm NameNode cùng DataNodes: - **NameNode**: Phụ trách quản lý văn kiện hệ thống mệnh danh không gian cùng nguyên số liệu, là toàn bộ HDFS khống chế trung tâm. - **DataNodes**: Tồn trữ thực tế số liệu khối, mỗi cái DataNode đều sẽ định kỳ hướng NameNode báo cáo này tồn trữ trạng thái. ** thí dụ mẫu số hiệu **: ``` Python from pyhdfs import HdfsClient # sáng tạo HDFS bản cài đặt client = HdfsClient(hosts='localhost:50070') # đọc lấy HDFS trung văn kiện with client.open('/user/hadoop/data.txt') as f: data = f.read() print(data) ``` ##### 2.2 YARN (Yet Another Resource Negotiator) YARN là Hadoop tài nguyên quản lý cùng nhiệm vụ điều hành dàn giáo, nó xuất hiện khiến cho Hadoop có thể duy trì trừ bỏ MapReduce ở ngoài mặt khác tính toán dàn giáo, như Spark cùng Flink. YARN chủ yếu chức trách là vì vận hành ở Hadoop tụ quần thượng ứng dụng trình tự phân phối tài nguyên, cũng quản lý chúng nó sinh mệnh chu kỳ. #### tam, Hadoop hệ thống sinh thái tường thuật tóm lược Hadoop hệ thống sinh thái không chỉ có bao hàm HDFS cùng YARN này hai cái trung tâm lắp ráp, còn có một loạt công cụ cùng dàn giáo cộng đồng cấu thành một cái toàn diện đại số liệu xử lý ngôi cao. Dưới là một ít mấu chốt tạo thành bộ phận: ##### 3.1 MapReduce MapReduce là Hadoop nguyên thủy tính toán dàn giáo, chủ yếu dùng cho xử lý đại quy mô số liệu tập. Nó đem số liệu xử lý nhiệm vụ phân giải vì Map cùng Reduce hai cái giai đoạn: - **Map giai đoạn **: Phụ trách số liệu bước đầu xử lý cùng bài tự. - **Reduce giai đoạn **: Phụ trách tập hợp cùng phát ra kết quả. ** thí dụ mẫu số hiệu **: ``` Python from mrjob.job import MRJob class MRWordFrequencyCount(MRJob): def mapper(self, _, line): for word in line.split(): yield word, 1 def reducer(self, word, counts): yield word, sum(counts) if __name__ == '__main__': MRWordFrequencyCount.run() ``` ##### 3.2 HBase HBase là một cái phân bố thức, phiên bản hóa liệt thức tồn trữ cơ sở dữ liệu, áp dụng với số liệu theo thời gian thực đọc viết cùng tuần tra. Nó là Hadoop hệ thống sinh thái trung một cái quan trọng lắp ráp, đặc biệt thích hợp với yêu cầu nhanh chóng đọc viết cảnh tượng. ##### 3.3 Hive Hive là một số liệu kho hàng công cụ, dùng cho đối Hadoop trung số liệu tiến hành tuần tra cùng phân tích. Nó cung cấp SQL-like tuần tra ngôn ngữ HiveQL, cho phép người dùng lấy cùng loại SQL phương thức xử lý số liệu, tránh cho biên soạn phức tạp MapReduce trình tự. ##### 3.4 Pig Pig là một cái dùng cho xử lý đại quy mô số liệu tập cao cấp số liệu lưu ngôn ngữ cùng chấp hành dàn giáo. Nó cung cấp một loại càng giản tiện phương thức tới biên soạn số liệu xử lý kịch bản gốc, không cần thâm nhập lý giải MapReduce chi tiết. ##### 3.5 ZooKeeper ZooKeeper là một cái phân bố thức phối hợp phục vụ, dùng cho giữ gìn phối trí tin tức, mệnh danh, cung cấp phân bố thức đồng bộ cùng tổ phục vụ. Nó là Hadoop hệ thống sinh thái trung rất nhiều lắp ráp ỷ lại cơ sở phục vụ, bảo đảm tụ quần ổn định tính cùng nhất trí tính. ##### 3.6 Sqoop Sqoop là một cái dùng cho ở Hadoop cùng quan hệ hình cơ sở dữ liệu chi gian truyền số liệu công cụ. Nó có thể thoải mái mà đem số liệu từ quan hệ hình cơ sở dữ liệu dẫn vào đến Hadoop trung, hoặc đem Hadoop trung số liệu đạo ra đến quan hệ hình cơ sở dữ liệu. ##### 3.7 Flume Flume là một cái cao đáng tin cậy, cao tính năng nhật ký thu thập hệ thống, dùng cho đem đại lượng nhật ký số liệu thu thập cũng truyền đến Hadoop trung tiến hành xử lý. Nó duy trì nhiều loại số liệu nguyên cùng mục đích địa, phi thường thích hợp nhật ký số liệu thu thập cùng truyền. ##### 3.8 Oozie Oozie là một cái công tác lưu điều hành hệ thống, dùng cho ở Hadoop trung phối hợp cùng điều hành phức tạp số liệu xử lý công tác lưu. Nó có thể tự động quản lý nhiều nhiệm vụ chi gian ỷ lại quan hệ, đơn giản hoá đại số liệu xử lý lưu trình quản lý. ##### 3.9 Mahout Mahout là một cái dùng cho xây dựng trí năng ứng dụng trình tự máy móc học tập kho, nó cung cấp một loạt thuật toán cùng công cụ tới duy trì đề cử hệ thống, tụ loại phân tích chờ máy móc học tập nhiệm vụ. #### bốn, tổng kết Hadoop và hệ thống sinh thái vì xử lý đại quy mô số liệu tập cung cấp cường đại công cụ cùng duy trì. Từ phân bố thức văn kiện hệ thống HDFS đến tài nguyên quản lý dàn giáo YARN, lại đến các loại dùng cho số liệu phân tích cùng xử lý công cụ, Hadoop hệ thống sinh thái bao trùm đại số liệu lĩnh vực các phương diện. Đối với những cái đó yêu cầu xử lý rộng lượng số liệu ứng dụng cảnh tượng tới nói, Hadoop không thể nghi ngờ là tốt nhất lựa chọn chi nhất. Theo kỹ thuật không ngừng phát triển, Hadoop và hệ thống sinh thái cũng đang không ngừng tiến hóa cùng hoàn thiện, vì người dùng cung cấp càng rất cao hiệu, linh hoạt giải quyết phương án.
Còn thừa 21 trang chưa đọc,Tiếp tục đọc
- Fans: 2w+
- Tài nguyên:5479
- Ta nội dung quản lý Triển khai
- Ta tài nguyên Mau tới thượng truyền cái thứ nhất tài nguyên
- Ta tiền lờiĐăng nhập xem xét chính mình tiền lời
- Ta tích phân Đăng nhập xem xét chính mình tích phân
- Ta C tệ Đăng nhập sau xem xét C tệ ngạch trống
- Ta cất chứa
- Ta download
- Download trợ giúp
Mới nhất tài nguyên
- Conan2 thí dụ mẫu công trình cùng với mingw64 biên dịch công cụ liên 2
- exp4_2.c.sln
- [ lôi quân ] mỹ diệu tình yêu...... Phúc hương vị..mp3
- 2023-04-06- hạng mục bút ký - đệ tam trăm hai mươi giai đoạn - 4.4.2.318 toàn cục lượng biến đổi tác dụng vực -318 -2025.11.17
- 2023-04-06- hạng mục bút ký - đệ tam trăm hai mươi giai đoạn - 4.4.2.318 toàn cục lượng biến đổi tác dụng vực -318 -2025.11.17
- java tài nguyên dị bước IO dàn giáo Cindy
- java tài nguyên nghiệp vụ lưu trình quản lý (BPM) cùng công tác lưu hệ thống Activiti
- java tài nguyên cao tính năng nội tồn tin tức cùng sự kiện điều khiển kho Chronicle
- Địa nó kháng kỹ thuật ứng dụng 2 mộ khóa tự động hoá học tập
- java tài nguyên cao tính năng JSON xử lý Jackson