30 câu hỏi
Dữ liệu từ một cụm hadoop từ xa có thể:
không được đọc bởi một cụm hadoop khác
được đọc bằng http
được đọc bằng hhtp
được đọc suing hftp
Mục đích của việc khởi động NameNode trong chế độ khôi phục là để:
Khôi phục NameNode không thành công
Khôi phục một DataNode bị lỗi
Khôi phục dữ liệu từ một trong những vị trí lưu trữ siêu dữ liệu
Khôi phục dữ liệu khi chỉ có một vị trí lưu trữ siêu dữ liệu
Khi bạn tăng số lượng tệp được lưu trữ trong HDFS, Bộ nhớ được yêu cầu bởi NameNode:
Tăng
Giảm
Vẫn không thay đổi
Có thể tăng hoặc giảm
Nếu chúng tôi tăng kích thước tệp được lưu trữ trong HDFS mà không tăng số tệp, thì bộ nhớ được yêu cầu bởi NameNode:
Tăng
Giảm
Vẫn không thay đổi
Có thể tăng hoặc giảm
Yếu tố giới hạn hiện tại đối với kích thước của một cụm hadoop là:
Nhiệt lượng dư thừa tạo ra trong trung tâm dữ liệu
Giới hạn trên của băng thông mạng
Giới hạn trên của RAM trong NameNode
4000 datanode
Tính năng decommission trong hadoop được sử dụng cho:
Hủy cấp phép NameNode
Hủy khai thác các DataNode
Hủy cấp phép NameNode phụ
Giải nén toàn bộ cụm Hadoop
Bạn có thể dự trữ lượng sử dụng đĩa trong một DataNode bằng cách định cấu hình dfs.datanode.du.reserved trong tệp nào sau đây:
Hdfs-site.xml
Hdfs-defaukt.xml
Core-site.xml
Mapred-site.xml
NameNode mất bản sao duy nhất của tệp fsimage. Chúng tôi có thể khôi phục điều này từ:
Datanode
Secondary namenode
Checkpoint node
Never
Trong hệ thống HDFS với kích thước khối 64MB, chúng tôi lưu trữ một tệp nhỏ hơn 64MB. Điều nào sau đây là đúng?
Tệp sẽ tiêu tốn 64MB
Tệp sẽ tiêu tốn hơn 64MB
Tệp sẽ tiêu tốn ít hơn 64MB
Không thể đoán trước được
Một công việc đang chạy trong hadoop:
Bị giết bằng lệnh
Không bao giờ có thể bị giết bằng một lệnh
Chỉ có thể bị giết bằng cách tắt NameNode
Được tạm dừng và chạy lại
Số lượng nhiệm vụ mà trình theo dõi tác vụ có thể chấp nhận phụ thuộc vào:
Bộ nhớ tối đa có sẵn trong nút
Không giới hạn
Số lượng khe cắm được định cấu hình trong đó
Theo quyết định của jobTracker
Khái niệm sử dụng nhiều máy để xử lý dữ liệu được lưu trữ trong hệ thống phân tán không phải là mới. Máy tính hiệu suất cao (HPC) sử dụng nhiều máy tính để xử lý khối lượng lớn dữ liệu được lưu trữ trong mạng vùng lưu trữ (SAN). So với HPC, Hadoop:
Có thể xử lý khối lượng dữ liệu lớn hơn
Có thể chạy trên một số lượng máy lớn hơn HPC cluster
Có thể xử lý dữ liệu nhanh hơn với cùng băng thông mạng so với HPC
Không thể chạy các công việc tính toán chuyên sâu
Hadoop khác với máy tính tình nguyện ở chỗ:
Tình nguyện viên đóng góp thời gian CPU chứ không phải băng thông mạng
Tình nguyện viên đóng góp băng thông mạng chứ không phải thời gian CPU
Hadoop không thể tìm kiếm các số nguyên tố lớn
Chỉ Hadoop mới có thể sử dụng mapreduce
So với RDBMS, Hadoop:
Có tính toàn vẹn dữ liệu cao hơn
Có giao dịch ACID không
Thích hợp để đọc và viết nhiều lần
Hoạt động tốt hơn trên dữ liệu phi cấu trúc và bán cấu trúc
Vấn đề chính gặp phải khi đọc và ghi dữ liệu song song từ nhiều đĩa là gì?
Xử lý khối lượng lớn dữ liệu nhanh hơn
Kết hợp dữ liệu từ nhiều đĩa
Phần mềm cần thiết để thực hiện nhiệm vụ này là cực kỳ tốn kém
Phần cứng cần thiết để thực hiện tác vụ này là cực kỳ tốn kém
Điều nào sau đây đúng với ổ đĩa trong một khoảng thời gian?
Thời gian tìm kiếm dữ liệu đang cải thiện nhanh hơn tốc độ truyền dữ liệu
Thời gian tìm kiếm dữ liệu đang cải thiện chậm hơn tốc độ truyền dữ liệu
Thời gian tìm kiếm dữ liệu và tốc độ truyền dữ liệu đều đang tăng tương ứng
Chỉ tăng dung lượng lưu trữ mà không tăng tốc độ truyền dữ liệu
Tính năng định vị dữ liệu trong Hadoop có nghĩa là:
Lưu trữ cùng một dữ liệu trên nhiều nút
Chuyển vị trí dữ liệu từ nút này sang nút khác
Đồng định vị dữ liệu với các nút tính toán
Phân phối dữ liệu trên nhiều nút
Cái nào trong số này cung cấp hệ thống xử lý Luồng được sử dụng trong hệ sinh thái Hadoop?
Solr
Tez
Spark
Hive
Các tệp HDFS được thiết kế cho:
Nhiều người viết và sửa đổi ở các hiệu số tùy ý
Chỉ nối vào cuối tệp
Chỉ ghi thành tệp một lần
Truy cập dữ liệu có độ trễ thấp
Tệp HDFS nhỏ hơn kích thước một khối:
Không thể lưu trữ trong HDFS
Chiếm toàn bộ kích thước của khối
Chỉ chiếm kích thước mà nó cần chứ không phải toàn khối
Có thể trải dài trên nhiều khối
Kích thước khối HDFS lớn hơn so với kích thước của các khối đĩa để:
Chỉ các tệp HDFS có thể được lưu trữ trong đĩa được sử dụng
Thời gian tìm kiếm là tối đa
Không thể chuyển một tệp lớn được tạo từ nhiều khối đĩa
Một tệp duy nhất lớn hơn kích thước đĩa có thể được lưu trữ trên nhiều đĩa trong cụm
Trong một cụm Hadoop, điều gì đúng với khối HDFS không còn khả dụng do hỏng đĩa hoặc lỗi máy?
Nó bị mất vĩnh viễn
Nó có thể được sao chép ở các vị trí thay thế của nó cho các máy sống khác
NameNode cho phép yêu cầu của khách hàng mới tiếp tục cố gắng đọc nó
Tiến trình công việc Mapreduce chạy bỏ qua khối và dữ liệu được lưu trữ trong đó
Tiện ích nào được sử dụng để kiểm tra tình trạng của hệ thống tệp HDFS?
fchk
fsck
fsch
fcks
Lệnh nào liệt kê các khối tạo nên mỗi tệp trong hệ thống tệp?
hdfs fsck / -files -blocks
hdfs fsck / -blocks -files
hdfs fchk / -blocks -files
hdfs fchk / -files -block
DataNode và NameNode là tương ứng:
Nút chính và nút công nhân
Nút công nhân và nút chính
Cả hai đều là các nút công nhân
Không có
Trong đĩa cục bộ của NameNode, các tệp được lưu trữ liên tục là:
Hình ảnh vùng tên và nhật ký chỉnh sửa
Vị trí khối và hình ảnh vùng tên
Chỉnh sửa nhật ký và chặn vị trí
Hình ảnh không gian tên, chỉnh sửa vị trí nhật ký và chặn
Khi khách hàng giao tiếp với hệ thống tệp HDFS, nó cần giao tiếp với:
Chỉ NameNode
Chỉ DataNode
Cả NameNode và DataNode
Không có
Hadoop sử dụng những cơ chế nào để làm cho namenode có khả năng chống lại sự cố?
Sao lưu siêu dữ liệu hệ thống tệp vào đĩa cục bộ và gắn kết NFS từ xa
Lưu trữ siêu dữ liệu hệ thống tệp trên đám mây
Sử dụng máy có ít nhất 12 CPU
Sử dụng phần cứng đắt tiền và đáng tin cậy
Vai trò chính của NameNode phụ là:
Sao chép siêu dữ liệu hệ thống tệp từ NameNode chính
Sao chép siêu dữ liệu hệ thống tệp từ NFS được lưu trữ bởi NameNode chính
Theo dõi xem NameNode chính có đang hoạt động hay không
Định kỳ hợp nhất hình ảnh vùng tên với nhật ký chỉnh sửa
Đối với các tệp HDFS được truy cập thường xuyên, các khối được lưu vào bộ nhớ đệm:
Bộ nhớ của DataNode
Trong bộ nhớ của NameNode
Cả A&B
Trong bộ nhớ của ứng dụng khách đã yêu cầu quyền truy cập vào các tệp này
