Một ứng dụng học máy dự đoán giá nhà khu vực Hà Nội được huấn luyện trên một bảng dữ liệu của 1000 căn nhà đã được mua bán trong thời gian gần đây. Mỗi dòng của bảng ứng với một căn nhà và gồm các đặc trưng của căn nhà đó; ví dụ như: địa chỉ, diện tích, khoảng cách tới trung tâm, giá giao dịch.
Một số bạn học sinh đưa ra các phát biểu sau:
(Trong mỗi ý a, b, c, d, thí sinh chọn đúng hoặc sai.)
Lời giải chi tiết
Để giải quyết bài toán này, ta cần phân tích từng phát biểu được đưa ra.
1. Phương pháp (thuật toán) học máy là học có giám sát.
Trong ứng dụng này, ta đang dự đoán giá nhà dựa trên các đặc trưng khác. Điều này có nghĩa là chúng ta có nhãn (giá giao dịch) kèm theo dữ liệu đặc trưng trong huấn luyện. Đây là kiểu học có giám sát. Đúng.
2. Nhãn của dữ liệu là địa chỉ căn nhà.
Nhãn trong bài toán học máy này là giá giao dịch của căn nhà, không phải là địa chỉ. Địa chỉ là một tính chất (đặc trưng) của căn nhà. Sai.
3. Có thể sử dụng dữ liệu của 1000 căn nhà trên vừa để huấn luyện và vừa để kiểm thử ứng dụng dự đoán giá nhà.
Việc sử dụng dữ liệu cùng một lúc cho cả huấn luyện và kiểm thử có thể dẫn đến hiện tượng overfitting, vì mô hình có thể nhớ dữ liệu thay vì học các đặc trưng từ dữ liệu. Do đó, nên chia dữ liệu ra thành tập huấn luyện và tập kiểm thử. Sai.
4. Ứng dụng học máy trên có thể áp dụng dự đoán giá nhà ở TP Hồ Chí Minh mà không cần thay đổi bất cứ dòng lệnh nào, chỉ cần thay đổi bảng dữ liệu huấn luyện và dữ liệu kiểm thử.
Để mô hình hoạt động tốt trên dữ liệu từ khu vực khác như TP Hồ Chí Minh, cần có sự thích ứng và kiểm tra lại dữ liệu mới (có thể có phân phối khác với dữ liệu Hà Nội). Thay đổi dữ liệu có thể không đủ nếu các đặc trưng của dữ liệu khác nhau nhiều. Tuy nhiên, về mặt lý thuyết, nếu chỉ xét thay đổi dữ liệu và mô hình đã đủ khả năng, ta có thể xem là áp dụng được. Đúng.
Chú ý khi giải