125 CÂU HỎI
Yêu cầu "dự đoán giá trị thực của một điểm dữ liệu mới dựa vào tập dữ liệu đã thu thập" thuộc loại bài toán nào?
a. Bài toán phân lớp
b. Bài toán hồi quy
c. Bài toán gom cụm
d. Bài toán máy dịch
Ma trận vuông A trong không gian R^(nxn) được gọi là chéo hóa được khi tồn tại ma trận D và P, sao cho A=PDP^(-1), trong đó D và P phải đáp ứng điều kiện nào sau đây?
a. D là ma trận đường chéo khả nghịch, P là ma trận đường chéo khả nghịch
b. D là ma trận đường chéo khả nghịch, P là ma trận khả nghịch
c. P là ma trận đường chéo khả nghịch, D là ma trận khả nghịch
d. D là ma trận đường chéo, P là ma trận khả nghịch
Thuật toán nào sử dụng ý tưởng "Tìm đường phân chia sao cho lề của hai lớp cách đều đường phân chia đó"?
a. phân lớp Naïve Bayes
b. máy vector hỗ trợ (support vector machine)
c. k-láng giềng gần nhất (k-nearest neighbors)
d. học perceptron
Thuật toán nào sau đây được dùng để phân lớp?
a. k-means
b. Hồi quy logistic
c. DBSCAN
d. Apriori
Phát biểu nào sau đây SAI đối với phép phân tích thành phần chính (principal component analysis - PCA)?
a. PCA là một phương pháp dùng để giảm chiều dữ liệu
b. Đây là phương pháp đi tìm một phép xoay hệ trục tọa độ
c. Hệ cơ sở mới trong PCA là một hệ trực chuẩn
d. PCA là một thuật toán học có giám sát (supervised)
Thuật toán học máy nào sau đây thường KHÔNG dùng cho bài toán phân lớp (classification):
a. k-trung bình (k-means)
b. máy vector hỗ trợ (support vector machine)
c. hồi quy logistic (logistic regression)
d. naïve Bayes
Nếu một mô hình học máy cho sai số trên trên tập huấn luyện thấp (training set) và sai số trên tập kiểm tra cao (testing set) thì khả năng mô hình đó ...
a. gặp vấn đề underfitting
b. gặp cả hai vấn đề overfitting và underfitting
c. không gặp vấn đề overfitting/underfitting
d. gặp vấn đề overfitting
Thuật toán nào sau đây phù hợp nhất với yêu cầu "Hãy dự đoán tỉ giá ngoại tệ (là một số thực) dựa vào các dữ liệu về kinh tế vĩ mô được thu thập trong quá khứ"?
a. Thuật toán k láng giềng gần nhất
b. Hồi quy logistic (logistic regression)
c. Thuật toán k trung bình
d. Thuật toán hồi quy tuyến tính
Đâu KHÔNG phải là thuật toán dùng để thu giảm số chiều dữ liệu?
a. UMAP (Uniform Manifold Approximation and Projections)
b. LDA (Linear Discriminant Analysis)
c. t-SNE (t-Distributed Stochastic Neighbor Embedding)
d. PLA (Perceptron Learning Algorithm)
Kỹ thuật nào sau đây có thể được dùng để thu giảm dữ liệu?
a. Lấy mẫu (sampling)
b. Hồi quy (regressing)
c. Gom cụm (clustering)
d. Phân lớp (classifying)
Chọn phát biểu đúng về tập lồi (convex sets), hàm lồi (convex functions) và tối ưu lồi (convex optimization)?
a. Hàm y=ax+b không phải là một hàm lồi (Sai - sai vì hàm y=ax+b là một hàm lồi và cũng là hàm lõm theo định nghĩa)
b. Giao giữa hai tập lồi chưa chắc là một tập lồi (Sai - vì giao của hai tập lồi luôn là một tập lồi theo tính chất của tập lồi)
c. Nếu hàm mất mát của một thuật toán học máy là lồi thì điểm tối ưu nếu tìm được cũng là tối ưu toàn cục (hàm mất mát là lồi => không có điểm cực tiểu cục bộ chỉ có cực tiểu toàn cục duy nhất)
d. Nếu tập xác định của một hàm là không lồi thì hàm đó là một hàm lồi (tùy vào hàm số có thể lồi hoặc không lồi)
Trong ứng dụng về xử lý văn bản (text), người ta thường đo độ tương tự giữa hai văn bản bằng cách nào?
a. Tính khoảng cách Euclid giữa hai vector
b. Tính khoảng cách Minkowski giữa hai vector
c. Tính khoảng cách Manhattan giữa hai vector
d. Tính góc giữa giữa hai vector thông qua cosine
Từ "Naïve" trong thuật toán học máy Naïve Bayes có ý nghĩa là các thuộc tính của dữ liệu đầu vào ...
a. là độc lập nhau
b. có mối quan hệ phi tuyến
c. có mối quan hệ theo hàm sigmoid
d. có mối quan hệ tuyến tính
Tập dữ liệu được sử dụng trực tiếp trong việc xây dựng mô hình học máy có tên gọi là gì?
a. Tập xác thực (validating set)
b. Tập kiểm tra (testing set)
c. Tập huấn luyện (training set)
d. Tập phát triển (developing set)
Sự khác biệt cơ bản giữa học có giám sát (supervised) và không giám sát (unsupervised) là gì?
a. Học có giám sát yêu cầu dữ liệu được dán nhãn, trong khi học không giám sát thì không.
b. Học có giám sát được sử dụng thuật toán hồi quy, học không giám sát sử dụng thuật toán gom cụm.
c. Học có giám sát sử dụng thuật toán gom cụm, học không giám sát sử dụng thuật toán phân loại.
d. Không có sự khác biệt giữa học có giám sát và học không giám sát.
Phát biểu nào sau đây là đúng đối với thuật toán K lân cận gần nhất?
a. Thuật toán đi tìm đầu ra của một điểm dữ liệu mới dựa trên thông tin của K điểm dữ liệu gần nhất trong tập huấn luyện
b. Thuật toán xây dựng mô hình từ dữ liệu huấn luyện và sử dụng dữ liệu kiểm tra để đánh giá mô hình đã xây dựng trước đó
c. Thuật toán gần như không học gì trong giai đoạn huấn luyện, mọi tính toán được thực hiện trong giai đoạn kiểm tra
d. Câu a và b đúng
Phát biểu nào sau đây là đúng đối với máy vector (SVM) lề mềm?
a. Phân loại chính xác hai lớp dữ liệu
b. Dữ liệu phi tuyến tính
c. Chấp nhận sai sót tại một vài điểm dữ liệu
d. Biến đổi dữ liệu từ không gian đặc trưng ban đầu thành dữ liệu trong không gian mới
Phép phân loại nào sau đây sử dụng ý tưởng “Tìm đường phân chia sao cho lề của hai lớp là như nhau đối với đường phân chia đó"?
a. Thuật toán học perceptron
b. Thuật toán K láng giềng gần nhất
c. Bộ phân loại naïve Bayes
d. Thuật toán máy vector hỗ trợ
Ma trận vuông A ER^(n×n) được gọi là chéo hóa khi tồn tại ma trận D và P, sao cho A=PDP-1, trong đó D và P phải đáp ứng điều kiện nào sau đây?
a. D là ma trận đường chéo, P là ma trận khả nghịch
b. P là ma trận đường chéo khả nghịch, D là ma trận khả nghịch
c. D là ma trận đường chéo khả nghịch, P là ma trận khả nghịch
d. D là ma trận đường chéo khả nghịch, P là ma trận đường chéo khả nghịch
Thuật toán phân loại có giám sát nào sau đây áp dụng cho hai lớp được gán nhãn -1 và +1?
a. Thuật toán K lân cận gần nhất
b. Bộ phân loại naïve Bayes
c. Thuật toán học Perceptron
d. Cả ba câu trên đều đúng
Phát biểu nào sau đây không đúng đối với thuật toán phân cụm K trung bình?
a. Biết nhãn của từng điểm dữ liệu
b. Cụm là tập hợp các điểm dữ liệu có vector đặc trưng gần
c. Khoảng cách Euclid được sử dụng phổ biến nhất để xác định khoảng cách giữa các vector đặc trưng với tâm của mỗi cụm
d. Câu a và b sai nhau
L1.X. Những loại tập dữ liệu nào thường cần thiết để xây dựng mô hình học máy dưới dạng quy trình 'hoàn thành'?
a. Bộ kiểm tra và bộ xác nhận
b. Tập huấn luyện và tập xác thực
c. Tập huấn luyện, tập xác thực và tập kiểm tra
d. Tập huấn luyện và tập kiểm tra
A tập hợp các trường hợp dữ liệu độc lập nhưng tuân theo phân phối xác suất 'tương tự' của tập huấn luyện được gọi là ...
a. tập huấn luyện
b. bộ thử nghiệm
c. bộ nhớ đệm
d. bộ xác nhận
L1.X. (Các) lý do của việc trang bị quá mức?
a. Mô hình quá phức tạp
b. Phương sai cao và độ lệch thấp
c. Tất cả các lý do được đề cập
d. Quá nhiều tiếng ồn trong dữ liệu huấn luyện
Câu nào KHÔNG đúng về bài toán phân loại và dự đoán?
a. Trong phân loại, đầu ra là a giá trị rời rạc.
b. Trong dự đoán, đầu ra có thể là giá trị liên tục hoặc giá trị rời rạc.
c. Nhiệm vụ dự đoán về cơ bản là phân loại.
d. Phân loại là a nhiệm vụ dự đoán.
L1.X. Cách tiếp cận nào sau đây giúp tránh việc trang bị thiếu trang bị?
a. Thực hiện kỹ thuật tính năng
b. Thực hiện tiền xử lý dữ liệu a cách khéo léo
c. Tăng độ phức tạp của mô hình
d. Tất cả các phương pháp được đề cập
L1.X. Lỗi dự đoán được đưa vào mô hình học máy do đơn giản hóa quá mức và gây ra sự khác biệt giữa giá trị dự đoán và giá trị thực tế. Đây được gọi là...
a. Thiên kiến
b. Tín hiệu
c. Phương sai
d. Tiếng ồn
L1.X. Nếu a mô hình học máy phù hợp tốt trên tập huấn luyện nhưng hoạt động kém trên tập kiểm tra thì mô hình đó sẽ bị ...
a. Cả hai vấn đề dưới và quá phù hợp
b. vấn đề không phù hợp
c. vấn đề trang bị quá mức
d. Không có vấn đề về thiếu hoặc quá phù hợp
(Các) lý do của việc trang bị không phù hợp?
a. Mô hình quá đơn giản
b. Không đủ dữ liệu đào tạo
c. Tất cả các yếu tố đều đúng
d. Độ lệch cao và phương sai thấp
đ. Tập dữ liệu huấn luyện không được làm sạch, chứa tiếng ồn
Nhiệm vụ nào sau đây được coi là a bài toán dự đoán?
A. A ứng dụng quét a hình ảnh và cần quyết định xem hình ảnh đó có chứa thú cưng hay không
b. A ứng dụng cần dự đoán năng lực làm việc của ứng viên dựa trên CV của ứng viên
c. Tất cả các nhiệm vụ được đề cập
d. Robot được cung cấp a số thông tin về thế giới và cần thực hiện hành động tốt nhất tiếp theo
đ. Dự báo sự gián đoạn chuỗi cung ứng dựa trên thông tin thị trường
Phân cụm là a ví dụ của ...
A. Lựa chọn tính năng
b. Học tăng cường
c. Học tập không giám sát
d. Học tập có giám sát
L1.X. A vấn đề hồi quy xuất ra ...
A. Giá trị phân loại
b. Giá trị rời rạc
c. A số thực
d. A số phức
Giả sử chúng ta muốn xây dựng a mô hình phân loại, a tập hợp các thể hiện dữ liệu được sử dụng để phù hợp với các tham số (quá trình học) được gọi là ...
a. bộ nhớ đệm
b. bộ xác nhận
c. tập huấn luyện
d. bộ thử nghiệm
Khi mô hình học máy không thể nắm bắt được mẫu cơ bản bên trong dữ liệu. Người ta nói rằng nó đang phải chịu đựng
a. Thiếu trang bị
b. Cả trang bị thiếu và trang bị quá mức
c. Trang bị quá mức
d. Không trang bị quá ít cũng không quá trang bị
Khi mô hình học máy không thể nắm bắt được mẫu cơ bản bên trong dữ liệu. Người ta nói rằng nó đang phải chịu đựng
a. Thiếu trang bị
b. Cả trang bị thiếu và trang bị quá mức
c. Trang bị quá mức
d. Không trang bị quá ít cũng không quá trang bị
Giả sử chúng ta muốn xây dựng a mô hình phân loại, a tập hợp các thể hiện dữ liệu dùng để điều chỉnh siêu tham số sau quá trình học được gọi là ...
a. bộ nhớ đệm
b. bộ xác nhận
c. bộ thử nghiệm
d. tập huấn luyện
L1.X. Quá trình giảm kích thước của tập tính năng được gọi là ...
a. Giảm kích thước
b. Học tăng cường
c. Học tập không giám sát
d. Học tập có giám sát
Phát hiện mối quan hệ giữa a tập hợp các đặc điểm mô tả và a đặc điểm mục tiêu từ a tập hợp các điểm dữ liệu được quan sát là mục tiêu của ...
a. Phát hiện đối tượng
b. Khai thác dữ liệu
c. Học máy
d. Khoa học dữ liệu
Các nhà phân tích dữ liệu thường phải đối mặt với vấn đề lựa chọn các thuộc tính mô tả thích hợp để các thuộc tính này cải thiện hiệu suất của mô hình dự đoán. Quá trình này được gọi là...
a. Trực quan hóa dữ liệu
b. Kỹ thuật tính năng
c. Dự đoán tính năng
d. Tiền xử lý dữ liệu
A tập hợp các trường hợp dữ liệu độc lập nhưng tuân theo phân phối xác suất 'tương tự' của tập huấn luyện được gọi là ...
a. bộ nhớ đệm
b. bộ thử nghiệm
c. tập huấn luyện
d. bộ xác nhận
Phát hiện các mẫu giữa các điểm dữ liệu trong a tập dữ liệu hoặc các mẫu giữa a lượng lớn các tập dữ liệu quan sát là mục tiêu của ...
a. Phát hiện đối tượng
b. Học máy
c. Khoa học dữ liệu
d. Khai thác dữ liệu
Về cơ bản, thuật toán ML tìm kiếm mô hình "tốt nhất" thông qua a tập hợp các mô hình tiềm năng. Từ "tốt nhất" có nghĩa là...
a. Không phù hợp với tập dữ liệu
b. Trang bị quá mức tập dữ liệu
c. Phù hợp vừa phải với tập dữ liệu
Giai đoạn nào trong CRISP-DM mô hình học máy được vận hành như a phần của toàn bộ quy trình kinh doanh?
a. Hiểu biết kinh doanh
b. Làm người mẫu
c. Triển khai
d. Sự đánh giá
Phân loại là a ví dụ của ...
a. Học tập không giám sát
b. Lựa chọn tính năng
c. Học tăng cường
d. Học tập có giám sát
Giai đoạn nào trong CRISP-DM xem xét các định dạng dữ liệu của nguồn dữ liệu trong a tổ chức?
a. Triển khai
b. Làm người mẫu
c. Hiểu biết kinh doanh
d. Hiểu dữ liệu
Trong ... , a mô hình dự đoán thường được xây dựng bằng cách huấn luyện a tập hợp dữ liệu được quan sát
A. Hệ thống quản lý quan hệ khách hàng
b. Học máy
c. Khoa học dữ liệu
d. Khai thác dữ liệu
Tất cả dữ liệu cần được xử lý trước để sạch sẽ và chính xác trước khi đưa vào quá trình xây dựng mô hình học máy.
a. ĐÚNG VẬY
b. SAI
Hồi quy là a ví dụ của ...
a. Học tập không giám sát
b. Lựa chọn tính năng
c. Học tăng cường
d. Học tập có giám sát
Nhiệm vụ nào sau đây được coi là a vấn đề dự đoán?
a. A ứng dụng cần dự đoán năng lực làm việc của ứng viên dựa trên CV của ứng viên
b. Tất cả các nhiệm vụ được đề cập
c. Robot được cung cấp a số thông tin về thế giới và cần thực hiện hành động tốt nhất tiếp theo
d. Dự báo sự gián đoạn chuỗi cung ứng dựa trên thông tin thị trường
đ. A ứng dụng quét a hình ảnh và cần quyết định xem hình ảnh đó có chứa thú cưng hay không
Giả sử chúng ta muốn xây dựng a mô hình phân loại, a tập hợp các thể hiện dữ liệu được sử dụng để phù hợp với các tham số (quá trình học) được gọi là ...
A. bộ xác nhận
b. bộ nhớ đệm
c. tập huấn luyện
d. bộ thử nghiệm
Giả sử chúng ta muốn xây dựng a mô hình phân loại, a tập hợp các thể hiện dữ liệu dùng để điều chỉnh siêu tham số sau quá trình học được gọi là ...
A. bộ nhớ đệm
b. bộ thử nghiệm
c. tập huấn luyện
d. bộ xác nhận
Những loại bộ dữ liệu nào thường cần thiết để xây dựng mô hình học máy như a quy trình 'hoàn thành'?
a. Tập huấn luyện, tập xác thực và tập kiểm tra
b. Bộ kiểm tra và bộ xác nhận
c. Tập huấn luyện và tập xác nhận
d. Tập huấn luyện và tập kiểm tra
Theo bài giảng, nếu ta sử dụng hai đặc điểm để dự đoán giá nhà (ví dụ: price = Theta_0 + Theta_1*x_1 + Theta_2*x_2) thì đồ thị của hàm chi phí là ...
a. a bề mặt trong không gian 4 chiều
b. bề mặt trong không gian 1 chiều
c. a bề mặt trong không gian 3 chiều
d. a bề mặt trong không gian 2 chiều
Chọn phát biểu đúng về số dư?
a. Thấp hơn là tốt hơn
b. Cao hơn thì tốt hơn
c. Không có tuyên bố nào được đề cập
d. Cao hay thấp tùy tình hình
Bộ xác thực là a phần của tập dữ liệu gốc, được xử lý trước, chủ yếu được sử dụng để ...
A. ban đầu phù hợp với mô hình
b, đưa ra đánh giá khách quan về mô hình cuối cùng trước khi ra mắt
c. cung cấp đánh giá khách quan về mô hình ban đầu và điều chỉnh các siêu tham số của mô hình
d. giữ cân bằng giữa dữ liệu trong các tập hợp con khác nhau
Thuật ngữ nào sau đây xác định tỷ lệ phương sai của biến phụ thuộc có thể được giải thích bằng biến độc lập.
a. bình phương R
b. Phương sai
c. Độ lệch chuẩn
d. Nghĩa là
Trong học máy, tập dữ liệu được xử lý trước thường được chia thành các tập con trong quá trình tìm kiếm mô hình “tốt”. Các tập hợp con này là ...
a. bộ tàu và bộ kiểm tra
b. tập kiểm tra, tập huấn luyện và tập xác nhận
c. bộ kiểm tra và bộ xác nhận
d. tập huấn luyện và tập xác nhận
Giả sử rằng chúng ta có một bộ dữ liệu D và chúng ta thiết kế một mô hình hồi quy tuyến tính của đa thức độ 3 và chúng ta thấy rằng lỗi đào tạo và kiểm tra là "0" (hoàn toàn phù hợp). Điều gì sẽ xảy ra khi bạn phù hợp với đa thức độ 2 trong hồi quy tuyến tính?
a. Có cơ hội cao mà đa thức độ 2 sẽ phù hợp với dữ liệu
b. Có cơ hội cao mà đa thức độ 2 sẽ phù hợp với dữ liệu
c. Không ai trong số này
d. Không thể nói
Giả sử rằng chúng ta có một bộ dữ liệu D và chúng ta thiết kế một mô hình hồi quy tuyến tính của đa thức độ 3 và chúng ta thấy rằng lỗi đào tạo và kiểm tra là "0" (hoàn toàn phù hợp). Điều gì sẽ xảy ra khi chúng ta phù hợp với đa thức độ 4 trong hồi quy tuyến tính?
a. Không ai trong số này
b. Không thể nói
c. Có nhiều cơ hội là đa thức cấp 4 sẽ phù hợp với dữ liệu
d. Có nhiều cơ hội là đa thức độ 4 sẽ phù hợp với dữ liệu
Theo bài giảng, giả sử rằng chúng ta chỉ sử dụng một tính năng duy nhất để dự đoán giá nhà (ví dụ: giá = theta_0 + theta_1*kích thước), câu nào sau đây là chính xác?
a. Nếu theta_1 = 0, thì mô hình luôn xuất ra giá trị không đổi bất kể kích thước nhà
b. Nếu theta_1 âm, thì giá và kích thước cùng hướng
c. Nếu theta_0 = 0, thì mô hình có thể xuất số 0 nếu kích thước nhà lớn hơn 0
d. Nếu theta_1 là dương, thì giá và kích thước theo hướng ngược lại
Theo bài giảng, giá nhà được xác định như sau: Giá theta_0 + theta_1*kích thước. Thuật ngữ 'giá' được gọi là ...
a. Giả thuyết
b. biến phụ thuộc
c. biến độc lập
d. Tham số của mô hình
Căn bậc hai của sự khác biệt bình phương trung bình giữa dữ liệu và giá trị trung bình được gọi là ...
a. Trung bình
b. Độ lệch chuẩn
c. R-bình phương
d. Phương sai
L3. Quá trình lựa chọn, thao tác và chuyển đổi dữ liệu thô thành các tính năng có thể được sử dụng hiệu quả bằng các thuật toán học có giám sát thường được ưu tiên hơn ...
a. thử nghiệm mô hình
b. điều chỉnh tham số
c. kỹ thuật tính năng
d. đào tạo người mẫu
Giả sử mô hình hồi quy tuyến tính không phù hợp với dữ liệu. Trong tình huống đó, bạn sẽ cân nhắc lựa chọn nào sau đây: 1. thêm nhiều biến hơn; 2. bắt đầu giới thiệu các biến mức độ đa thức; 3. loại bỏ a số biến
a. 1, 2 và 3
b. 2 và 3
c. 1 và 3
d. 1 và 2
Theo bài giảng, giá nhà được xác định như sau: giá = Theta_0 + Theta_1*size. Thuật ngữ 'kích thước' được gọi là ...
A. giả thuyết
b. biến độc lập
c. biến phụ thuộc
d. Thông số của mô hình
L3. Chính quy Lasso có thể được sử dụng để lựa chọn biến trong Hồi quy tuyến tính. Đúng/Sai/Không đưa ra?
A. ĐÚNG VẬY KHÔNG HỀ SAI MIẾNG NÀO
b. Không được đưa ra
c. SAI
L3. Giả sử mô hình hồi quy tuyến tính không phù hợp với dữ liệu. Trong tình huống như vậy, bạn thích thuật toán chính quy nào sau đây?
A. Bất kì
b. Không có phương pháp nào được đề cập
c. L2
d. L1
L3. Số liệu nào sau đây thường KHÔNG được sử dụng để huấn luyện mô hình hồi quy tuyến tính?
A. Có nghĩa là lỗi tuyệt đối
b. Entropy chéo nhị phân
c. bình phương R
d. Lỗi bình phương trung bình gốc (RMSE)
L3. Giả sử mối quan hệ giữa các biến độc lập x1, x2 và biến phụ thuộc y như sau. y = x0 - 0,95x1 + 0,96x2. Điều nào sau đây là đúng?
A. Mối quan hệ giữa x1 và Y yếu
b. Sự tương quan không thể phán xét mối quan hệ
c. Mối quan hệ giữa x1 và Y là trung tính
d. Mối quan hệ giữa x1 và Y rất chặt chẽ
L3. Giá trị trung bình của chênh lệch bình phương giữa dữ liệu và giá trị trung bình được gọi là ...
A. bình phương R
b. Độ lệch chuẩn
c. Nghĩa là
d. Phương sai
L3. Giá trị trung bình của a tập dữ liệu nhất định được gọi là...
A. Độ lệch chuẩn
b. bình phương R
c. Nghĩa là
d. Phương sai
L3. Theo bài giảng, giá nhà được xác định như sau: giá = Theta_0 + Theta_1*size. Theta_0 và Theta_1 được gọi là ...
A. biến độc lập
b. giả thuyết
c. Thông số của mô hình
d. biến phụ thuộc
Cơ sở lý luận của việc chọn hàm sigmoid trong mô hình hồi quy logistic?
A. Hàm sigmoid là vi phân cho mọi số thực
b. Chúng tôi giả sử rằng hai lớp trong mô hình được phân phối chuẩn
c. Tất cả các câu đều đúng
d. Đầu ra của nó nằm trong khoảng (0,1). Do đó, chúng ta có thể hiểu giá trị đó là xác suất của biến quan tâm
Trong mô hình hồi quy logistic, giá trị dự đoán được xác định bởi P(y=1|x, w) = g(w0 + w1x), phạm vi của đầu vào x sẽ là bao nhiêu?
A. (-vô cùng, 0)
b. (0, vô cực)
c. (-vô cùng, vô cùng)
d. (0, 1)
Đầu ra được dự đoán bởi mô hình hồi quy logistic là ...:
A. giá trị rời rạc
b. giá trị phân loại
c. giá trị liên tục
Theo bài giảng, giả thuyết h(z] = sigmoid(z) = 1/[1+e^(-z)] (z = Theta_0+ Theta_1*x), chọn phát biểu đúng?
a. Nếu z tiến tới vô hạn thì h(z) tiến tới 1
b. Nếu z tiến tới vô hạn thì h(z) tiến tới 1
c. Nếu z tiến tới 0 thì h(z) tiến tới 1/4
d. Nếu z tiến tới vô hạn thì h(z) tiến tới 0
Chọn phát biểu đúng về phương pháp One-Vs-All trong hồi quy logistic.
a. Chúng ta cần ghép n-1 mô hình để phân loại thành n lớp
b. Tất cả các phát biểu đều sai
c. Chúng ta cần điều chỉnh n mô hình trong bài toán phân loại n lớp
d. Chúng ta chỉ cần ghép 1 mô hình để phân thành n lớp
A cách tiếp cận để áp dụng mô hình hồi quy logistic cho nhiều lớp là huấn luyện bộ phân loại hồi quy logistic h_i(x) cho mỗi lớp i để dự đoán xác suất y = i. Trên đầu vào x mới, để đưa ra dự đoán, hãy chọn lớp i cực tiểu hóa h_i(x)(I=1,2,3).
a. Không thể quyết định
b. ĐÚNG
c. SAI
Theo bài giảng, giả thuyết h(z) = sigmoid(z) = 1/[1+e^(-z)] (z = 2 + x). Nếu x = -2 thì h(z) = ?
a. 0
b.0.5
c. 1
d. 0,75
Mô hình hồi quy logistic KHÔNG tốt cho tập dữ liệu phân tách phi tuyến tính.
A. ĐÚNG
b. SAI
c. Không được đưa ra
Mô hình hồi quy logistic cũng có thể được áp dụng cho bài toán phân loại 3 lớp.
A. SAI
b. Không được đưa ra
c. ĐÚNG
Mặc dù hồi quy logistic có từ "hồi quy" trong tên của nó, nhưng nó chủ yếu được sử dụng cho vấn đề phân loại.
A. ĐÚNG
b. Nó có thể được sử dụng cho cả nhiệm vụ, phân loại và hồi quy
c. Không được đưa ra
d. SAI
Nếu chúng ta chỉ sử dụng 2 đặc điểm để huấn luyện mô hình hồi quy logistic thì dạng quyết định biên là ...
a. 1 chiếc máy bay
b. 1 dòng
c. a siêu phẳng trong R^n
d. không thể quyết định
Nếu nhãn y (đặc điểm đích) trong bài toán phân loại chỉ có hai giá trị có thể (0 hoặc 1), thì bài toán này được gọi là ...
a. phân loại nhiều lớp
b. Phân loại 4 lớp
c. Phân loại 3 lớp
d. phân loại nhị phân
Hồi quy logistic chỉ có tác dụng đối với tập dữ liệu có mối quan hệ thực sự giữa x và y là tuyến tính vì ...
a. quyết định ranh giới của nó về cơ bản là a đường trong R^2
b. quyết định biên của nó về cơ bản là mặt phẳng trong R^3
c. quyết định biên của nó về cơ bản là a siêu phẳng trong RAn (n > ;= 1)
Trong mô hình hồi quy logistic, hàm nào sẽ chia tỷ lệ giá trị đầu ra thành (0,1)?
a. Hàm khả năng ghi nhật ký
b. Không có chức năng nào được đề cập
c. Hàm lẻ
d. hàm sigmoid
Hãy xem xét mô hình hồi quy logistic sau: P(y=1|x, w) = g(w0 + w1x), trong đó g(z) là hàm logistic và P (y =1|xw), được xem như a hàm của x, mà chúng ta có thể nhận được bằng cách thay đổi các tham số w. Phạm vi của P trong trường hợp này sẽ là bao nhiêu?
A. (0, inf)
b. (-thông tin)
c. (0, 1)
d. (-inf, inf)
Hàm logit, ký hiệu là l(x), là hàm log của tỷ lệ cược.
a. SAI
b. Không được đưa ra
c. ĐÚNG
Nếu chúng ta sử dụng hơn 3 đặc trưng để huấn luyện mô hình hồi quy logistic, thì hình thức của ranh giới quyết định là ...
a. một mặt phẳng
b. một siêu phẳng trong không gian RAn
c. không thể quyết định
d. một đường thẳng
Giả sử chúng ta có một đồng xu công bằng và muốn tìm ra tỷ lệ cơ hội để ra mặt ngửa. Lựa chọn nào sau đây đúng cho trường hợp này?
a. tỷ lệ cơ hội sẽ là 0.25
b. tỷ lệ cơ hội sẽ là 0.5
c. tỷ lệ cơ hội sẽ là 0.75
d. tỷ lệ cơ hội sẽ là 1
Logistic Regression ngầm định rằng các điểm dữ liệu độc lập theo cặp.
a. Không được đưa ra
b. Sai
c. Đúng
Theo bài giảng, giả thuyết h(z) = sigmoid(z) = 1/[1+e^(-z)] (z = 3 + x). Nếu ngưỡng cho lớp dương là 0.5, thì nhãn của một điểm dữ liệu mới với x = 2023 là ...
a. Không thể quyết định
b. Âm
c. Dương
Mô hình được huấn luyện chủ yếu được sử dụng để dự đoán kết quả đầu ra của...
a. Không phải một trường hợp dữ liệu mới hoặc cũ
b. Một trường hợp dữ liệu cũ
c. Cả trường hợp dữ liệu mới và cũ
d. Một trường hợp dữ liệu mới
Một bài toán hồi quy trả về kết quả là...
a. Một số phức
b. Một giá trị phân loại
c. Một giá trị rời rạc
d. Một số thực
Giả sử chúng ta muốn xây dựng một mô hình phân loại, tập hợp các trường hợp dữ liệu được sử dụng để điều chỉnh các tham số (quá trình học) được gọi là... Lựa chọn:
a. Tập lưu trữ
b. Tập xác thực
c. Tập huấn luyện
d. Tập kiểm tra
Tất cả dữ liệu cần được tiền xử lý để làm sạch và chính xác trước khi được đưa vào quá trình xây dựng các mô hình học máy. Lựa chọn:
a. Sai
b. Đúng
Nếu một mô hình học máy phù hợp tốt trên tập huấn luyện nhưng thực hiện kém trên tập kiểm tra, thì mô hình đó gặp vấn đề... Lựa chọn:
a. Vấn đề quá khớp (over-fitting)
b. Cả vấn đề dưới khớp và quá khớp
c. Không phải vấn đề dưới khớp và quá khớp
d. Vấn đề dưới khớp (under-fitting)
CRISP-DM là gì?
a. Đó là một vòng đời cho phân tích dữ liệu dự đoán
b. Đó là một mô hình học máy cho phân tích dữ liệu dự đoán
c. Đó là một kho dữ liệu để lưu trữ dữ liệu lớn
d. Đó là quy trình thu thập và tiền xử lý dữ liệu
Giả sử chúng ta muốn xây dựng một mô hình phân loại, một tập hợp các trường hợp dữ liệu được sử dụng để điều chỉnh siêu tham số sau quá trình học được gọi là ...
a. Tập kiểm tra
b. Tập lưu trữ
c. Tập huấn luyện
d. Tập xác thực
Phát hiện mối quan hệ giữa một tập hợp các đặc trưng mô tả và một đặc trưng mục tiêu từ một tập hợp các điểm dữ liệu quan sát được là mục tiêu của ... Lựa chọn:
a. Học máy
b. Khai thác dữ liệu
c. Khoa học dữ liệu
d. Phát hiện đối tượng
Giả sử chúng ta muốn xây dựng một mô hình phân loại, một tập hợp các trường hợp dữ liệu được sử dụng để đánh giá khái quát hóa của mô hình trước khi triển khai được gọi là ... Lựa chọn:
a. Tập kiểm tra
b. Tập lưu trữ
c. Tập xác thực
d. Tập huấn luyện
Trong các nhiệm vụ sau đây, nhiệm vụ nào được coi là một vấn đề dự đoán? Lựa chọn:
a. Một ứng dụng cần dự đoán hiệu suất của ứng viên công việc dựa trên CV của ứng viên
b. Tất cả các nhiệm vụ được đề cập
c. Dự báo sự gián đoạn chuỗi cung ứng dựa trên thông tin về thị trường
d. Một ứng dụng quét một hình ảnh và cần quyết định xem hình ảnh đó có chứa một động vật nuôi hay không
e. Một robot được cung cấp một số thông tin về thế giới và cần thực hiện hành động tốt nhất tiếp theo
Nguyên nhân gây dưới khớp là gì?
a. Mô hình quá đơn giản
b. Sai số cao và phương sai thấp
c. Tất cả các yếu tố đều đúng vậy
d. Thiếu dữ liệu huấn luyện đủ
e. Tập dữ liệu huấn luyện không được làm sạch, chứa nhiễu
Vấn đề mà một mô hình học máy thường gặp phải là gì?
a. Tinh chỉnh các tham số
b. Nhiễu
c. Tất cả các vấn đề đã được đề cập
d. Lựa chọn sai số
Câu nào sau đây là SAI về vấn đề dự đoán? Lựa chọn:
a. Hồi quy là một nhiệm vụ của vấn đề dự đoán
b. Quá trình dự đoán thường dựa trên kinh nghiệm hoặc kiến thức, nhưng không phải lúc nào cũng vậy
c. Dự đoán dữ liệu bị thiếu hoặc không có sẵn cho một quan sát mới dựa trên dữ liệu quan sát được và một số giả định bổ sung
d. Quá trình dự đoán trả về một giá trị rời rạc
Thuộc tính tổng quát của một mô hình đối với dữ liệu mới cho phép nó thực hiện các dự đoán chính xác. Mô hình này được gọi là... Lựa chọn:
a. Tất cả các vấn đề đã được đề cập
b. Quá khớp
c. Dưới khớp
d. Phù hợp
Hồi quy là một ví dụ của... Lựa chọn:
a. Lựa chọn đặc trưng
b. Học tăng cường
c. Học có giám sát
d. Học không giám sát
Một tập hợp các trường hợp dữ liệu độc lập, nhưng tuân theo phân phối xác suất 'tương tự' của tập huấn luyện được gọi là ... Lựa chọn:
a. tập huấn luyện
b. tập caching
c. tập xác thực
d. tập kiểm tra
Nếu một mô hình học máy phù hợp với tập dữ liệu huấn luyện cũng phù hợp với tập dữ liệu kiểm tra, thì ... Lựa chọn:
a. đã xảy ra overfitting tối đa
b. đã xảy ra underfitting tối thiểu
c. đã xảy ra overfitting tối thiểu
d. đã xảy ra underfitting tối đa
Phân loại là một ví dụ về ... Lựa chọn:
a. Học tăng cường
b. Lựa chọn đặc trưng
c. Học có giám sát
d. Học không giám sát
Vấn đề phân loại đầu ra ... Lựa chọn:
a. Một số phức
b. Một giá trị hạng mục
c. Một giá trị liên tục
d. Một số thực
Vấn đề gì có thể xảy ra khi huấn luyện một mô hình học máy bằng cách cung cấp dữ liệu quan sát? Lựa chọn:
a. Không gian vượt quá và không gian thiếu
b. Không gian vượt quá
c. Không gian thiếu
d. Cả không gian vượt quá và không gian thiếu
Câu nào sau đây KHÔNG đúng về vấn đề phân loại và dự đoán? Lựa chọn:
a. Trong phân loại, đầu ra là một giá trị rời rạc.
b. Nhiệm vụ dự đoán về cơ bản là phân loại.
c. Phân loại là một nhiệm vụ dự đoán.
d. Trong dự đoán, đầu ra có thể là một giá trị liên tục hoặc một giá trị rời rạc.
Các thành phần chính khi xây dựng một mô hình học máy là gì? Lựa chọn:
a. Ngôn ngữ lập trình, hàm chi phí và các chỉ số đánh giá
b. Kiểm tra người dùng, hàm chi phí và ngôn ngữ lập trình.
c. Kiểm tra người dùng, ngôn ngữ lập trình và tập dữ liệu
d. Tập dữ liệu, hàm chi phí và các chỉ số đánh giá.
Quá trình giảm số chiều của tập đặc trưng được gọi là ... Lựa chọn:
a. Học không giám sát
b. Học tăng cường
c. Giảm số chiều
d. Học có giám sát
Phát hiện các mẫu giữa các điểm dữ liệu trong một tập dữ liệu hoặc phát hiện các mẫu giữa một lượng lớn các tập dữ liệu quan sát là mục tiêu của ... Lựa chọn:
a. Khoa học dữ liệu
b. Khai thác dữ liệu
c. Học máy
d. Phát hiện đối tượng
Trong ..., một mô hình dự đoán thường được xây dựng bằng cách huấn luyện một tập dữ liệu quan sát. Lựa chọn:
a. Khai thác dữ liệu
b. Hệ thống quản lý quan hệ khách hàng
c. Học máy
d. Khoa học dữ liệu
Gom cụm là một ví dụ về ... Lựa chọn:
a. Học có giám sát
b. Học tăng cường
c. Lựa chọn đặc trưng
d. Học không giám sát
Sai số dự đoán mà mô hình học máy gặp phải do đơn giản hóa quá mức, và gây ra sự khác biệt giữa các giá trị dự đoán và các giá trị thực tế. Điều này được gọi là ... Lựa chọn:
a. Nhiễu
b. Tín hiệu
c. Độ lệch
d. Phương sai
Giai đoạn nào trong CRISP-DM cần thiết để đảm bảo rằng mô hình không bị vấn đề overfitting hoặc underfitting? Lựa chọn:
a. Đánh giá
b. Hiểu về kinh doanh
c. Mô hình hóa
d. Triển khai
Những nguyên nhân của overfitting là gì? Lựa chọn:
a. Tất cả các nguyên nhân đã đề cập
b. Quá nhiều nhiễu trong dữ liệu huấn luyện
c. Phương sai cao và độ lệch thấp
d. Mô hình quá phức tạp
Loại tập dữ liệu nào thường cần thiết để xây dựng một mô hình học máy như một quy trình 'hoàn chỉnh'? Lựa chọn:
a. Tập huấn luyện và tập kiểm tra
b. Tập huấn luyện và tập xác thực
c. Tập huấn luyện, tập xác thực và tập kiểm tra
d. TCâu trả lời đúng là: Tập huấn luyện, tập xác thực và tập kiểm tra
Trong hồi quy logistic, đo lường nào thường được sử dụng để xác định mô hình "phù hợp nhất" cho dữ liệu? Chọn một:
a. Mất mát logarithmic
b. Sai số bình phương nhỏ nhất
c. Cross entropy
d. Xác suất hợp lý tối đa
Độ đo nào sau đây thường được sử dụng để đánh giá hiệu suất của một mô hình hồi quy logistic? Chọn một:
a. Độ chính xác
b. Tỷ lệ dương tính thực (TPR)
c. Tỷ Lệ âm giả (FNR)
d. Điểm F
Nếu nhãn y (đặc trưng mục tiêu) trong bài toán phân loại chỉ có hai giá trị có thể (0 hoặc 1), thì bài toán này được gọi là ...
a. Phân loại đa lớp
b. Phân loại nhị phân
c. Phân loại 3 lớp
d. Phân loại 4 lớp