26 câu hỏi
Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA, cần chia bảng ví dụ học này thành mấy bảng con?
2 bảng
3 bảng
Không cần chia
Tùy theo thuộc tính được chọn
Gom cụm (clustering) là gì?
Phân cụm dữ liệu (Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm, là quá trình chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao cho các phần tử trong cùng một nhóm thì có mức độ tương tự nhau hơn là giữa các phần tử của nhóm này với các phần tử của nhóm khác.
Phân cụm dữ liệu (Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm, là quá trình chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao cho các phần tử khác nhóm thì có mức độ tương tự nhau hơn là giữa các phần tử trong cùng một nhóm.
Phân cụm dữ liệu (Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm, là quá trình chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao dễ sử dụng nhất.
Phân cụm dữ liệu (Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm, là quá trình chia các đối tượng thành từng nhóm sao cho số nhóm là ít nhất.
Thuật ngữ tiếng Anh nào có nghĩa là "Phân cụm dữ liệu"?
Data Clustering
Data Classification
Association Rule
Data Mining
Thuật ngữ tiếng Anh nào có nghĩa là "Khai phá dữ liệu"?
Data Mining
Data Clustering
Data Classification
Association Rule
Thuật ngữ tiếng Anh nào có nghĩa là "Phân lớp dữ liệu"?
Data Classification
Data Clustering
Data Mining
Association Rule
Có N phần tử cần chia thành 1 cụm. Hỏi có bao nhiêu cách chia cụm?
1 cách
0 cách
2 cách
N cách
Có N phần tử cần chia thành m cụm, với m > N. Hỏi có bao nhiêu cách chia cụm?
0 cách
m cách
2 cách
N cách
Có bao nhiêu thuật toán phân cụm?
Rất nhiều
Chỉ có 3 thuật toán Liên kết đơn, liên kết đầy đủ, k-mean
Chỉ có 2 thuật toán Liên kết đơn và liên kết đầy đủ
Chỉ có 2 thuật toán Liên kết đơn và k-mean
Trong thuật toán phân cụm k-mean, ban đầu k tâm được chọn như thế nào?
Chọn ngẫu nhiên
Chọn k phần tử nằm ở tâm
Chọn k các phần tử có giá trị nhỏ nhất
Chọn k phần tử có giá trị bằng giá trị trung bình của các phần tử trong tập dữ liệu
Sử dụng thuật toán k-mean để chia N điểm vào k cụm, khi đó:
k <= N
=>
k = N
k > N
k khác N
Cho tập dữ liệu X = {x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Khoảng cách giữa 2 phần tử x1 và x2 bằng bao nhiêu?
Bằng 1
Bằng 2
Bằng 0
Bằng 9
Khoảng cách giữa 2 phần tử x1 và x5 bằng bao nhiêu?
Bằng 5
Bằng 2
Bằng 0
Bằng 9
Sử dụng thuật toán liên kết đơn (Single Linkage), bước đầu tiên 2 phần tử nào được chọn để gom thành 1 cụm?
x1 và x2
x1 và x3
x2 và x3
x3 và x5
Sử dụng thuật toán liên kết đầy đủ (Complete Linkage), bước đầu tiên 2 phần tử nào được chọn để gom thành 1 cụm?
x1 và x2
x1 và x3
x2 và x3
x3 và x5
Cắt sơ đồ tại ngưỡng bằng 2.5 hỏi có mấy cụm được sinh ra?
3 cụm
2 cụm
1 cụm
4 cụm
Cắt sơ đồ tại ngưỡng bằng 5 hỏi có mấy cụm được sinh ra?
1 cụm
2 cụm
3 cụm
4 cụm
Cắt sơ đồ tại ngưỡng bằng 3.5 hỏi có mấy cụm được sinh ra?
2 cụm
3 cụm
1 cụm
4 cụm
Cắt sơ đồ tại ngưỡng bằng 1.5 hỏi có mấy cụm được sinh ra?
4 cụm
2 cụm
1 cụm
5 cụm
Cắt sơ đồ tại ngưỡng bằng 0.5 hỏi có mấy cụm được sinh ra?
5 cụm
2 cụm
1 cụm
4 cụm
Quá trình khai phá tri thức trong CSDL (KDD) có thể phân chia thành các giai đoạn sau:
Trích chọn dữ liệu, tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá và biểu diễn tri thức
Tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá và biểu diễn tri thức
Trích chọn dữ liệu, tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, khai phá luật kết hợp
Tiền xử lý dữ liệu, phân lớp, phân cụm, đánh giá và biểu diễn tri thức
Các loại đặc trưng của dữ liệu:
Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng đo theo tỷ lệ
Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng theo khối lượng
Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng theo chiều dài
Đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng đo theo tỷ lệ
Một số bài toán điển hình trong khai phá dữ liệu là:
Khai phá luật kết hợp, phân loại, phân cụm, hồi quy...
Khai phá luật kết hợp, xây dựng máy tìm kiếm...
Web mining, Text mining, mạng nơron…
Bài toán nhận dạng, bài toán tìm kiếm thông tin, bài toán lựa chọn đặc trưng...
Một số thách thức lớn trong quá trình khai phá dữ liệu là (chọn đáp án đúng nhất):
Dữ liệu quá lớn, dữ liệu bị thiếu hoặc nhiễu, sự phức tạp của dữ liệu, dữ liệu thường xuyên thay đổi...
Trình độ của con người còn hạn chế, dữ liệu không được lưu trữ tập trung...
Dữ liệu quá lớn, máy khai phá dữ liệu có tốc độ hạn chế...
Tốc độ xử lý của máy tính còn hạn chế, dữ liệu thường xuyên thay đổi...
Một số lĩnh vực liên quan đến khai phá tri thức – KDD là:
Machine Learning, Visualization, Statistics, Databases…
Machine Learning, Programming, Statistics, Databases…
Machine Learning, Visualization, Statistics, BioInfomatics…
Support Vector Machine, Clustering, Statistics, Databases…
Khai phá dữ liệu có lợi ích gì?
Cung cấp hỗ trợ ra quyết định, dự báo, khái quát dữ liệu...
Tìm kiếm các quy luật, tìm kiếm các cụm và phân loại dữ liệu
Tìm kiếm nhanh thông tin, thống kê dữ liệu, chọn đặc trưng của dữ liệu...
Tạo ra cơ sở tri thức mới, hỗ trợ dự báo thời tiết, dự báo động đất, dự báo sóng thần...
Làm sạch dữ liệu (Data Cleaning) là quá trình:
Loại bỏ nhiễu và dữ liệu không nhất quán
Tìm kiếm dữ liệu có ích
Tìm kiếm dữ liệu có ích trong cơ sở dữ liệu lớn
Tổ hợp nhiều nguồn dữ liệu khác nhau
