30 câu hỏi
Một công việc đang chạy trong Hadoop:
Bị giết bằng lệnh
Không bao giờ có thể bị giết bằng một lệnh
Chỉ có thể bị giết bằng cách tắt NameNode
Được tạm dừng và chạy lại
Mục đích của lệnh sau đây là gì:
(trainingData, testData) = dataset.randomSplit([0.8, 0.2], seed=100)
Chia dữ liệu học và dữ liệu kiểm tra
Chạy chương trình học
Tạo dữ liệu ngẫu nhiên cho dữ liệu học và dữ liệu kiểm tra
Chạy chương trình dự đoán
Mục đích của nút checkpoint trong cụm Hadoop là:
Kiểm tra xem NameNode có hoạt động không
Kiểm tra xem tệp hình ảnh có đồng bộ giữa NodeName và NameNode phụ hay không
Hợp nhất hình ảnh và chỉnh sửa nhật ký và tải nó trở lại NameNode đang hoạt động
Kiểm tra xem các DataNode nào không thể truy cập được
Mục đích của sử dụng SparkML là gì:
Chạy MapReduce
Chạy các thuật toán dự đoán
Tính toán phân tán
Cả b và c
Mục đích của việc khởi động NameNode trong chế độ khôi phục là để:
Khôi phục NameNode không thành công
Khôi phục một DataNode bị lỗi
Khôi phục dữ liệu từ một trong những vị trí lưu trữ siêu dữ liệu
Khôi phục dữ liệu khi chỉ có một vị trí lưu trữ siêu dữ liệu
Mục tiêu chính của HDFS Tính sẵn sàng cao là:
Tạo bản sao của NameNode chính nhanh hơn
Để giảm thời gian chu kỳ cần thiết để khôi phục lại NameNode chính mới sau khi nút chính hiện có bị lỗi
Ngăn chặn việc mất dữ liệu do lỗi của NameNode chính
Ngăn chặn biểu mẫu tên chính trở thành điểm lỗi duy nhất
NameNode biết rằng DataNode đang hoạt động bằng cách sử dụng một cơ chế được gọi là:
Heartbeats
Datapulse
H-signal
Active-pulse
NameNode mất bản sao duy nhất của tệp fsimage. Chúng ta có thể khôi phục điều này từ:
Datanode
Secondary namenode
Checkpoint node
Never
Nếu chúng ta tăng kích thước tệp được lưu trữ trong HDFS mà không tăng số tệp, thì bộ nhớ được yêu cầu bởi NameNode:
Tăng
Giảm
Vẫn không thay đổi
Có thể tăng hoặc giảm
Trong NameNode, lượng bộ nhớ cần thiết là:
Tương tự như của node chính
Phải có ít nhất một nửa node chính
Phải gấp đôi node chính
Chỉ phụ thuộc vào số lượng node dữ liệu mà nó sẽ xử lý
Khi một node dự phòng được sử dụng trong một cụm thì không cần:
Node kiểm tra (Check point node)
Node tên phụ (Secondary name node)
DataNode phụ (Secondary data node)
Nhận thức về giá đỡ (Rack awareness)
Nhận thức về giá trong NameNode có nghĩa là:
Nó biết có bao nhiêu giá đỡ có sẵn trong cụm
Nó nhận thức được ánh xạ giữa nút và giá đỡ
Nó nhận biết được số lượng nút trong mỗi rack
Nó biết những DataNode nào không có sẵn trong cụm
Khi một máy được khai báo là datanode, dung lượng ổ đĩa trong đó:
Chỉ có thể được sử dụng cho lưu trữ HDFS
Có thể được sử dụng cho cả lưu trữ HDFS và không phải HDFS
Không thể truy cập bằng các lệnh không phải hadoop
Không thể lưu trữ các tệp văn bản
Mục đích của nút checkpoint trong cụm Hadoop là:
Kiểm tra xem NameNode có hoạt động không
Kiểm tra xem tệp hình ảnh có đồng bộ giữa NodeName và NameNode phụ hay không
Hợp nhất hình ảnh và chỉnh sửa nhật ký và tải nó trở lại NameNode đang hoạt động
Kiểm tra xem các DataNode nào không thể truy cập được
Khi một tệp trong HDFS bị người dùng xóa:
Nó đã mất vĩnh viễn
Nó sẽ đi vào thùng rác nếu được định cấu hình
Nó bị ẩn khỏi người dùng nhưng vẫn ở trong hệ thống tệp
File trong HDFS không thể bị xóa
Nguồn của kiến trúc HDFS trong Hadoop có nguồn gốc là:
Hệ thống tệp phân phối của Google
Hệ thống tệp phân tán của Yahoo
Hệ thống tệp phân tán của Facebook
Hệ thống tệp phân tán Azure
Giao tiếp giữa các quá trình giữa các nút khác nhau trong Hadoop sử dụng:
REST API
RPC
RMI
IP Exchange
Loại dữ liệu mà Hadoop có thể xử lý là:
Structured (Có cấu trúc)
Semi-structured (Bán cấu trúc)
Unstructured (Không có cấu trúc)
All of the above (Tất cả những điều trên)
YARN là viết tắt của:
Yahoo's another resource name
Yet another resource negotiator
Yahoo's archived Resource names
Yet another resource need
Chế độ cài đặt phân phối hoàn toàn (không ảo hóa) cần tối thiểu:
2 Máy vật lý
3 Máy vật lý
4 Máy vật lý
1 Máy vật lý
Chạy Start-dfs.sh kết quả là:
Bắt đầu NameNode và DataNode
Chỉ NameNode bắt đầu
Chỉ bắt đầu datanode
Khởi động NameNode và trình quản lý tài nguyên
Điều nào sau đây không phải là mục tiêu của HDFS?
Phát hiện lỗi và khôi phục
Xử lý tập dữ liệu khổng lồ
Ngăn chặn việc xóa dữ liệu
Cung cấp băng thông mạng cao để di chuyển dữ liệu
Lệnh "hadoop fs -test -z URI" cho kết quả 0 nếu:
Nếu đường dẫn là một thư mục
Nếu đường dẫn là một tệp
Nếu đường dẫn không trống
Nếu tệp có độ dài bằng 0
Trong HDFS, các tệp không thể:
Đọc
Xóa
Thực thi
Lưu trữ (Archived)
hadoop fs –expunge:
Cung cấp danh sách các DataNode
Được sử dụng để xóa một tệp
Được sử dụng để trao đổi một tệp giữa hai DataNode
Dọn sạch thùng rác
Tất cả các tệp trong một thư mục trong HDFS có thể được hợp nhất với nhau bằng cách sử dụng:
Getmerge
Putmerge
Remerge
Mergeall
Hệ số sao chép của tệp trong HDFS có thể được thay đổi bằng cách sử dụng:
Changerep
Rerep
Setrep
Xrep
Lệnh được sử dụng để sao chép một thư mục từ node này sang node khác trong HDFS là:
Rcp
Dcp
Drcp
Distcp
Tệp lưu trữ được tạo trong Hadoop luôn có phần mở rộng là:
Hrc
Har
Hrh
Hrar
Để hủy lưu trữ một tệp đã được lưu trữ trong Hadoop, hãy sử dụng lệnh:
Unrar
Unhar
Cp
Cphar
