Để xây dựng các bộ lọc thư rác dựa trên học máy, cần thu

Đề bài

Để xây dựng các bộ lọc thư rác dựa trên học máy, cần thu thập số lượng email đủ lớn đã được gán nhãn và chia tập email này thành hai tập: tập thứ nhất cho huấn luyện mô hình, tập thứ hai để kiểm thử mô hình. Hai tiêu chí sau để đánh giá mức độ sai số của một ứng dụng lọc email:

TC1= Số email rác trong hòm thư thường/Tổng số email trong hòm thư thường TC2 = Số email thường trong hòm thư rác/Tổng số email trong hòm thư rác Sau khi đọc nhận xét trên, một số bạn đã đưa ra các phát biểu dưới đây? (Các phát biểu đúng hay sai?)

1. Sử dụng chính tiêu đề của email để gán nhãn cho email đó.

2. Các thông tin như các từ khoá trong email và tiêu đề, mức độ uy tín của địa chỉ người gửi là các đặc trưng quan trọng trong việc lọc email rác.

3. Trước khi đưa ứng dụng lọc thư rác vào sử dụng chính thức, ứng dụng đó cần được đánh giá trên tập dữ liệu kiểm thử.

4. Một ứng dụng lọc email rác được đánh giá là tốt khi cả TC 1 và TC 2 đều thấp.

Đáp án đúng: 1S, 2Đ, 3Đ, 4Đ

Xem lời giải

Lời giải chi tiết

Để phân tích từng phát biểu, chúng ta cần xem xét các vấn đề liên quan trong quá trình lọc thư rác bằng học máy:

Sử dụng chính tiêu đề của email để gán nhãn cho email đó.
Phát biểu này là sai. Việc chỉ sử dụng tiêu đề email để gán nhãn là không đủ chính xác vì có nhiều email rác có tiêu đề rất hấp dẫn hoặc giống như email thường. Nhãn của email thường được gán dựa trên tổng hợp nhiều yếu tố khác nhau, không chỉ riêng tiêu đề.
Các thông tin như các từ khoá trong email và tiêu đề, mức độ uy tín của địa chỉ người gửi là các đặc trưng quan trọng trong việc lọc email rác.
Phát biểu này là đúng. Các yếu tố như từ khoá, tiêu đề và độ tin cậy của địa chỉ gửi là những đặc trưng quan trọng trong học máy để phân loại email, được dùng để xác định khả năng một email là rác hay không.
Trước khi đưa ứng dụng lọc thư rác vào sử dụng chính thức, ứng dụng đó cần được đánh giá trên tập dữ liệu kiểm thử.
Phát biểu này là đúng. Trong quá trình phát triển mô hình học máy, việc đánh giá mô hình trên tập dữ liệu kiểm thử là cần thiết để kiểm tra khả năng tổng quát hóa và hiệu suất của mô hình trước khi triển khai thực tế.
Một ứng dụng lọc email rác được đánh giá là tốt khi cả TC 1 và TC 2 đều thấp.
Phát biểu này là đúng. Tiêu chí TC1 và TC2 càng thấp cho thấy tỷ lệ lỗi lọt (email rác vào hòm thư thường) và lỗi nhầm (email thường bị lọc nhầm vào hòm thư rác) càng thấp, thể hiện độ chính xác cao của bộ lọc.

Chú ý khi giải

Hãy lưu ý tầm quan trọng của việc sử dụng nhiều yếu tố để gán nhãn đúng cho email, không chỉ dựa vào tiêu đề.
Khả năng phân loại tốt của ứng dụng rất phụ thuộc vào dữ liệu huấn luyện và công cụ đánh giá trước khi phát hành.
Đảm bảo rằng các tiêu chí đánh giá phải phản ánh rõ ràng độ chính xác và hiệu quả của bộ lọc email trong thực tế.

Đang Quan Tâm