30 câu hỏi
Hệ số sao chép của tệp trong HDFS có thể được thay đổi bằng cách sử dụng:
changerep
rerep
setrep
xrep
Hệ thống apache nào dưới đây giải quyết việc nhập dữ liệu phát trực tuyến vào hadoop:
Ozie
Kafka
Flume
Hive
Hệ thống nào cho phép đọc ghi dữ liệu tại vị trí ngẫu nhiên, thời gian thực tới hàng terabyte dữ liệu:
Hbase
Flume
Pig
HDFS
Job tracker runs on:
Namenode
Datanode
Secondary namenode
Không có đáp án
Khái niệm sử dụng nhiều máy để xử lý dữ liệu được lưu trữ trong hệ thống phân tán không phải là mới. "Máy tính hiệu suất cao (HPC) sử dụng nhiều máy tính để xử lý khối lượng lớn dữ liệu được lưu trữ trong mạng vùng lưu trữ (SAN). So với HPC, Hadoop":
Có thể xử lý khối lượng dữ liệu lớn hơn
Có thể chạy trên một số lượng máy lớn hơn HPC cluster
Có thể xử lý dữ liệu nhanh hơn với cùng băng thông mạng so với HPC
Không thể chạy các công việc tính toán chuyên sâu
Khi bạn tăng số lượng tệp được lưu trữ trong HDFS, Bộ nhớ được yêu cầu bởi NameNode:
Tăng
Giảm
Vẫn không thay đổi
Có thể tăng hoặc giảm
Khi chạy trên chế độ pseudo distributed, hệ số sao chép được đặt thành:
2
1
0
3
Khi ghi dữ liệu vào HDFS, điều gì là đúng nếu hệ số nhân bản là ba? (Chọn 2 câu trả lời)
Dữ liệu được ghi vào DataNodes trên ba giá đỡ riêng biệt (nếu Rack Aware)
Dữ liệu được lưu trữ trên mỗi DataNode bằng một tệp riêng biệt chứa checksum
Dữ liệu được ghi vào các khối trên ba DataNodes khác nhau
Khách hàng được trả lại thành công khi ghi thành công khối đầu tiên và kiểm tra tổng kiểm tra
1 & 3
2 & 3
3 & 4
1 & 4
Khi khách hàng giao tiếp với hệ thống tệp HDFS, nó cần giao tiếp với:
chỉ NameNode
chỉ DataNode
cả NameNode và DataNode
Không có
Khi lưu trữ tệp Hadoop, phát biểu nào sau đây là đúng? (Chọn hai câu trả lời)
Các tệp đã lưu trữ sẽ hiển thị với phần mở rộng .arc
Nhiều tệp nhỏ sẽ trở thành ít tệp lớn hơn
MapReduce xử lý tên tệp gốc ngay cả sau khi tệp được lưu trữ
Các tệp đã lưu trữ phải được lưu trữ tại Liên hợp quốc cho HDFS và MapReduce để truy cập vào các tệp nhỏ, gốc
Lưu trữ dành cho các tệp cần được lưu nhưng HDFS không còn truy cập được nữa
1 & 3
2 & 3
2 & 4
3 & 4
Khi một jobTracker lên lịch, một công việc sẽ được tìm kiếm đầu tiên:
Một nút có vị trí trống trong cùng giá đỡ với DataNode
Bất kỳ nút nào trên cùng giá đỡ với DataNode
Bất kỳ nút nào trên rack liền kề với rack của datanode
Chỉ bất kỳ nút nào trong cụm
Khi một máy được khai báo là datanode, dung lượng ổ đĩa trong đó:
Chỉ có thể được sử dụng cho lưu trữ HDFS
Có thể được sử dụng cho cả lưu trữ HDFS và không phải HDFS
Không thể truy cập bằng các lệnh không phải hadoop
không thể lưu trữ các tệp văn bản
Khi một node dự phòng được sử dụng trong một cụm thì không cần:
Node kiểm tra (Check point node)
Node tên phụ (Secondary name node)
DataNode phụ (Secondary data node)
Nhận thức về giá đỡ (Rack awareness)
Khi một tệp trong HDFS bị người dùng xóa:
nó đã mất vĩnh viễn
Nó sẽ đi vào thùng rác nếu được định cấu hình
Nó bị ẩn khỏi người dùng nhưng vẫn ở trong hệ thống tệp
File trong HDFS không thể bị xóa
Khi một ứng dụng khách liên hệ với NameNode để truy cập tệp, NameNode phản hồi với:
Kích thước của tệp được yêu cầu
ID khối của tệp được yêu cầu
ID khối và tên máy chủ của bất kỳ DataNode nào chứa khối đó
Block ID và tên máy chủ của tất cả các DataNode chứa khối đó
Khi NameNode nhận thấy rằng một số khối được sao chép quá mức, nó:
Dừng công việc sao chép trong toàn bộ hệ thống tệp hdfs
Nó làm chậm quá trình nhân bản cho các khối đó
Nó xóa các khối thừa
Nó để lại các khối thừa như nó vốn có
Khi sử dụng HDFS, điều gì xảy ra khi tệp bị xóa bởi dòng lệnh?
Nó sẽ bị xóa vĩnh viễn nếu thùng rác được bật
Nó được đặt vào một thư mục thùng rác chung cho tất cả người dùng cho cụm đó
Nó bị xóa vĩnh viễn và các thuộc tính tệp được ghi lại trong tệp nhật ký
Nó được chuyển vào thư mục thùng rác của người dùng đã xóa nó nếu thùng rác được bật
Kịch bản nào yêu cầu băng thông cao nhất để truyền dữ liệu giữa các nút trong Hadoop?
Các nút khác nhau trên cùng một giá đỡ
Các nút trên các giá đỡ khác nhau trong cùng một trung tâm dữ liệu
Các nút trong các trung tâm dữ liệu khác nhau
Dữ liệu trên cùng một nút
Kích thước khối HDFS lớn hơn so với kích thước của các khối đĩa để:
Chỉ các tệp HDFS có thể được lưu trữ trong đĩa được sử dụng
Thời gian tìm kiếm là tối đa
Không thể chuyển một tệp lớn được tạo từ nhiều khối đĩa
Một tệp duy nhất lớn hơn kích thước đĩa có thể được lưu trữ trên nhiều đĩa trong cụm
label và feature của câu lệnh bên dưới có nghĩa là gì
LogisticRegression(labelCol = "label" , featuresCol = "features", maxIter = 10)
dữ liệu đầu vào được gán là feature và dự đoán được gán vào label
dữ liệu đầu vào được gán là label và kết quả của dữ liệu đầu vào đó được gán vào feature
dữ liệu đầu vào được gán là feature và kết quả của dữ liệu đầu vào được gán vào label
dữ liệu đầu vào được gán là label và kết quả dự đoán được gán vào feature
Là một phần của tính khả dụng cao HDFS, một cặp NameNode chính được cấu hình. Điều gì là đúng với họ?
Khi một yêu cầu của khách hàng đến, một trong số họ được chọn ngẫu nhiên sẽ phục vụ yêu cầu đó
Một trong số chúng đang hoạt động trong khi cái còn lại vẫn tắt
Các DataNode chỉ gửi báo cáo khối đến một trong các NameNode
Nút chờ nhận các điểm kiểm tra định kỳ của không gian tên của NameNode đang hoạt động
Lệnh để kiểm tra xem Hadoop có hoạt động hay không là:
Jsp
Jps
Hadoop fs -test
Không có
Lệnh hadfs được sử dụng để:
Sao chép tệp từ hệ thống tệp cục bộ sang HDFS
Sao chép tệp hoặc thư mục từ hệ thống tệp cục bộ sang HDFS
Sao chép các tệp từ HDFS sang hệ thống tệp cục bộ
Sao chép tệp hoặc thư mục từ HDFS sang hệ thống tệp cục bộ
Lệnh "hadoop fs -test -z URI" cho kết quả 0 nếu:
nếu đường dẫn là một thư mục
nếu đường dẫn là một tệp
nếu đường dẫn không trống
nếu tệp có độ dài bằng 0
Lệnh hdfs để tạo bản sao của tệp từ hệ thống cục bộ là:
CopyFromLocal
copyfromlocal
CopyLocal
copyFromLocal
Lệnh nào liệt kê các khối tạo nên mỗi tệp trong hệ thống tệp:
hdfs fsck / -files -blocks
hdfs fsck / -blocks -files
hdfs fchk / -blocks -files
hdfs fchk / -files -block
Loại dữ liệu mà Hadoop có thể xử lý là:
Structured (Có cấu trúc)
Semi-structured (Bán cấu trúc)
Unstructured (Không có cấu trúc)
All of the above (Tất cả những điều trên)
Máy khách đọc dữ liệu từ hệ thống tệp HDFS trong Hadoop:
lấy dữ liệu từ NameNode
lấy vị trí khối từ datanode
chỉ lấy các vị trí khối tạo thành NameNode
lấy cả dữ liệu và vị trí khối từ NameNode
Mô tả cách thức một client đọc dữ liệu trên HDFS:
client thông báo tới namenode để bắt đầu quá trình đọc sau đó client chạy truy vấn các datanode để trực tiếp đọc các chunks
client truy vấn Namenode để biết được vị trí các chunks. Nếu namenode không biết thì namenode sẽ hỏi các datanode. Sau đó namenode gửi lại thông tin vị trí các chunk cho client. client kết nối song song tới các Datanode để đọc các chunk
client truy vấn namenode để đưa thông tin về thao tác đọc, Namenode kết nối song song tới các datanode để lấy dữ liệu, sau đó trả về cho client
client truy vấn namenode để biết được vị trí các chunks. Namenode trả về vị trí các chunks. Client kết nối song song tới các datanode để đọc các chunks
Mô tả cách thức một client đọc dữ liệu trên HDFS:
client thông báo tới namenode để bắt đầu quá trình đọc sau đó client chạy truy vấn các datanode để trực tiếp đọc các chunks
client truy vấn Namenode để biết được vị trí các chunks. Nếu namenode không biết thì namenode sẽ hỏi các datanode. Sau đó namenode gửi lại thông tin vị trí các chunk cho client. client kết nối song song tới các Datanode để đọc các chunk
client truy vấn namenode để đưa thông tin về thao tác đọc, Namenode kết nối song song tới các datanode để lấy dữ liệu, sau đó trả về cho client
client truy vấn namenode để biết được vị trí các chunks. Namenode trả về vị trí các chunks
