30 câu hỏi
Một số ứng dụng tiềm năng của Khai phá dữ liệu:
Phân tích và quản lý thị trường, Quản lý và phân tích rủi ro, Quản lý và phân tích các sai hỏng, Khai thác Web, Khai thác văn bản (text mining)…
Tìm kiếm văn bản, Tìm kiếm hình ảnh, Tìm kiếm tri thức mới trên Internet...
Phân tích tâm lý khách hàng, Hỗ trợ kinh doanh, tối ưu hóa phần cứng máy tính...
Phân tích thị trường chứng khoán, bất động sản, tìm kiếm dữ liệu bằng các máy tìm kiếm...
Các cơ sở dữ liệu cần khai phá là:
Quan hệ, Giao tác, Hướng đối tượng, Không gian, Thời gian, Text, XML, Multi-media, WWW,…
Text, XML, Multi-media, WWW,…
Cơ sở dữ liệu khách hàng, cơ sở dữ liệu nghiên cứu không gian, cơ sở dữ liệu trong ngân hàng, cơ sở dữ liệu thống kê…
Cơ sở dữ liệu tuyển sinh đại học, cơ sở dữ liệu dự báo thời tiết, cơ sở dữ liệu thống kê dân số…
Thuật ngữ Big Data có nghĩa là:
Big data nói đến các tập dữ liệu rất lớn và phức tạp tới mức các kỹ thuật IT truyền thống không xử lý nổi.
Dữ liệu rất lớn
Dữ liệu được tích hợp từ nhiều nguồn khác nhau
Dữ liệu khổng lồ trên Internet
Thuật ngữ BioInfomatics có nghĩa là:
Giải quyết các bài toán sinh học bằng việc sử dụng các phương pháp của khoa học tính toán
Sinh học phân tử
Tìm kiếm dữ liệu mới từ sinh học
Khai thác các thông tin có ích trong lĩnh vực y học
Phát biểu nào sau đây là đúng?
Data Mining là một bước quan trọng trong quá trình khai phá tri thức từ dữ liệu – KDD
Tiền xử lý dữ liệu là chọn ra các đặc trưng tiêu biểu trong tập dữ liệu lớn
Mọi dữ liệu đều có thể tìm kiếm được bằng máy tìm kiếm của Google
Data Mining là công cụ giúp các lập trình viên dễ dàng tìm kiếm thông tin hơn
Các bài toán thuộc làm sạch dữ liệu là:
Xử lý giá trị thiếu, Dữ liệu nhiễu: định danh ngoại lai và làm trơn, Chỉnh sửa dữ liệu không nhất quán, Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu.
Làm trơn theo biên, phương pháp đóng thùng, điền giá trị thiếu, Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu.
Phân cụm, phân lớp, hồi quy, biểu diễn dữ liệu.
Phân cụm, tìm luật kết hợp, tìm kiếm đặc trưng.
Cho một tập dữ liệu có n đặc trưng. Có bao nhiêu tập con không rỗng chứa các đặc trưng được lựa chọn:
2^n -1
2^n
Vô số tập con
n^2
Một số phương pháp loại bỏ dữ liệu nhiễu là:
Bỏ qua bản ghi có dữ liệu bị thiếu, điền giá trị thiếu bằng tay, điền giá trị tự động.
Loại bỏ dựa trên quan sát, loại bỏ khi lựa chọn đặc trưng.
Loại bỏ toàn bộ dữ liệu bị nhiễu và thay thế bằng tập dữ liệu mới, lựa chọn các đặc trưng quan trọng.
Sử dụng các thuật toán phân lớp, phân cụm, tìm luật kết hợp.
Cho bản ghi dữ liệu, giá trị của các thuộc tính như sau: X = (6, 2, 5, 7, 5, ?). Dấu hỏi là giá trị của thuộc tính bị thiếu. Sử dụng phương pháp tính trung bình giá trị của các thuộc tính của bản ghi hiện có, hãy cho biết vị trí dấu hỏi điền giá trị là bao nhiêu:
5
6
9
Giá trị khác
Khi xử lý thiếu giá trị của các bản ghi dữ liệu, phương pháp "Bỏ qua bản ghi có giá trị thiếu" chỉ thích hợp khi:
Các bản ghi có dữ liệu bị thiếu chiếm tỷ lệ nhỏ trong toàn bộ dữ liệu
Các bản ghi có dữ liệu bị thiếu chiếm tỷ lệ lớn trong toàn bộ dữ liệu
Có thể bỏ qua tất cả các bản ghi bị thiếu
Không thể bỏ qua, phải tìm các giá trị để điền vào các bản ghi bị thiếu
Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong CSDL. X là một tập chứa các mục thuộc I. Giao dịch hỗ trợ X là giao dịch chứa tất cả các mục có trong X. Độ hỗ trợ của tập mục X được định nghĩa là:
Support(X) = Số lượng giao dịch hỗ trợ X / N
Support(X) = Số lượng giao dịch hỗ trợ X
Support(X) = Số lượng giao dịch hỗ trợ X / N * |I|, trong đó |I| là tổng số mục trong CSDL
Support(X) = Số lượng giao dịch hỗ trợ X * 100%
Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong CSDL. X, Y là tập chứa các mục thuộc I. Độ tin cậy của luật kết hợp X Y được định nghĩa là:
Confidence(XY) = Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ X
Confidence(XY) = Số lượng giao dịch hỗ trợ X / Số lượng giao dịch hỗ trợ Y
Confidence(XY) = Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ Y
Confidence(XY) = Số lượng giao dịch hỗ trợ cả X và Y / N
Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong CSDL. X, Y là tập chứa các mục thuộc I. Độ hỗ trợ của luật kết hợp X Y được định nghĩa là:
Support(XY) = Số lượng giao dịch hỗ trợ cả X và Y / N
Support(XY) = Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ Y
Support(XY) = Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ X
Support(XY) = Số lượng giao dịch hỗ trợ cả X / Số lượng giao dịch hỗ trợ Y
Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong CSDL. Min_Supp là độ hỗ trợ tối thiểu. X là tập chứa các mục thuộc I. Tập mục X được gọi là tập mục thường xuyên (frequent itemset) nếu:
Support(X) >= Min_Supp
Support(X) <= Min_Supp
=>
Support(X) = Min_Supp
Support(X) = Min_Supp / N
Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong CSDL. Min_Supp là độ hỗ trợ tối thiểu, Min_Conf là độ tin cậy tối thiểu. X, Y là tập chứa các mục thuộc I. Luật kết hợp XY được chọn nếu:
Support(XY) >= Min_Supp, Confidence(XY) >= Min_Conf
Support(XY) = Min_Supp, Confidence(XY) = Min_Conf
Support(XY) < Min_Supp, Confidence(XY) < Min_Conf
>
Support(XY) > Min_Supp, Confidence(XY) = Min_Conf
Cho CSDL giao dịch như hình vẽ. Các tập mục thường xuyên có 1 mục thỏa mãn Min_Supp là:
F:4, C:4, A:3, C:3, M:3, P:3...
C:4, A:3, C:3, M:3, P:3
F:4, C:4
A:3, C:3, M:3, P:3
Cho CSDL giao dịch như hình vẽ, Tập mục thường xuyên có 4 mục thỏa mãn Min_Supp là:
FCAM:3
FCAM:2
FC:4
FCAM:4
Cho CSDL giao dịch như hình vẽ, Cơ sở điều kiện của nút M là:
{ F:2, C:2, A:2} và { F:1, C:1, A:1, B:1}
{F:2, C:2, A:2}
F:1, C:1, A:1
F:3, C:3, A:3
Cho CSDL giao dịch như hình vẽ, cơ sở điều kiện của nút M là:
{ F:2, C:2, A:2, M:2} và { C:1, B:1}
{F:2, C:2, A:2, M:2}
C:3
F:3, C:3, A:3
Cho CDSL giao dịch như hình vẽ. Cây điều kiện FP của P là:
{ C:3}| p
{CF:3}| p
{C:4}| p
Cây điều kiện là rỗng
Cho CSDL giao dịch như hình vẽ, cây điều kiện FP của A là:
{ F:3, C:3}| p
{CF:3}| p
{C:4}| p
Cây điều kiện là rỗng
Cho CSDL giao dịch gồm N mục phân biệt, tổng số các tập mục được sinh ra (không tính tập rỗng) là:
2^N - 1
2^N
N
Vô số tập mục
Cho A, B, C, D là các item và A-->BC là luật kết hợp thỏa mãn độ hỗ trợ tối thiểu Min_Sup và độ tin cậy tối thiểu Min_Conf. Hãy cho biết luật kết hợp nào sau đây chắc chắn thỏa mãn Min_Sup và Min_Conf mà không cần phải tính độ hỗ trợ và độ tin cậy:
AB-->C
A-->D
ABD-->C
D-->C
Cho A, B, C, là các item và A-->BC là luật kết hợp thỏa mãn độ hỗ trợ tối thiểu Min_Sup và độ tin cậy tối thiểu Min_Conf. Ta thấy rằng luật kết hợp AB-->C cũng thỏa mãn điều kiện về độ hỗ trợ tối thiểu và độ tin cậy tối thiểu vì:
Confidence(AB-->C) >= Confidence(A-->BC)
Confidence(AB-->C) <= Confidence(A-->BC)=>
Confidence(AB-->C) = Confidence(A-->BC)
Chưa kết luận được AB-->C có thỏa độ hỗ trợ tối tiểu và độ tin cậy tối thiểu hay không
Cho A, B, C, D là các mục trong cơ sở dữ liệu giao dịch. Kết luận nào sau đây là sai:
Support(ABC) < Support(ABCD)
>
Support(ABC) >= Support(ABCD)
Support(AB) >= Support(ABC)
Support(AB) <= Support(A)
=>
Phát biểu nào sau đây là đúng:
Confidence(AC--> B) >= Confidence(A--> BC)
Confidence(AC--> B) = Confidence(A--> BC)
Confidence(A--> AB) >= Confidence(AC--> C)
Confidence(AB--> C) >= Confidence(AC--> B)
Giả sử ta có các tập mục thường xuyên {A,B}, {A,C}, {B,D} chứa 2-item. Sử dụng thuật toán Apriori để ghép các tập mục có 2-item thành các tập mục có 3-item, các ứng viên sinh ra có 3-item là:
{ A, B, C}, {A, B, D }
{A, B, C}, {A, B, D}, {A, B, C, D}
{A, B, C}, {B, C, D}
{A, B, C}, {C, B, D}
Trong thuật toán Apriori, tập mục chứa k-item được tạo ra bằng cách nào trong các cách sau:
Tạo ra từ tập chứa k-1 item bằng cách ghép 2 tập k-1 item với nhau với điều kiện là 2 tập k-1 item này phải có chung nhau k-2 item
Tổ hợp k item từ các item có trong cơ sở dữ liệu giao dịch.
Lấy ngẫu nhiên k item sau đó ghép lại với nhau.
Sinh mọi tập con có k item từ các item có trong cơ sở dữ liệu giao dịch
Cho tập L3 = {abc, abd, ade, ace} là các tập mục thường xuyên chứa 3-item. Để tạo các ứng viên chứa 4-item abcd, ta cần ghép các tập chứa 3-item nào với nhau?
abc và abd
abc và ade
abc và ace
abd và ade
Luật kết hợp nào không thỏa mãn điều kiện đề bài:
BA-->E
BC -->E
C--> E
B-->C
