Gán nhãn dữ liệu |
Gán nhãn dữ liệu là quá trình gắn trường ý nghĩa cho các loại dữ liệu kỹ thuật số khác nhau như tệp âm thanh, văn bản, hình ảnh, video và nhiều loại khác.
Đó là một quá trình mất nhiều thời gian, vì nó liên quan đến sự tương tác của con người để có kết quả chính xác nhất.
Chính vì vậy mà có rất nhiều bài toán khác nhau của gán nhãn dữ liệu, dưới đây là một số trường hợp thường gặp:
Gán nhãn từ loại (POS tagging)
Là xác định các chức năng ngữ pháp của từ trong câu. Đây là bước cơ bản trước khi phân tích sâu văn phạm hay các vấn đề xử lý ngôn ngữ phức tạp khác.Thông thường, một từ có thể có nhiều chức năng ngữ pháp, ví dụ:
Trong câu "con ngựa đá con ngựa đá", cùng một từ "đá" nhưng ở từ thứ nhất giữ chức năng động từ, nhưng từ thứ hai lại là danh từ.
Gán nhãn từ loại được xem là cơ sở phục vụ cho các bài toán về ngữ nghĩa cao hơn.
Gán nhãn tên thực thể (Named-Entity recognition)
Ví dụ: bà ba [CON NGUOI] bán bánh mì [THUC PHAM] ở phường 13 [DIA DIEM]Có giá trị về mặt ngữ nghĩa ở mức trung bình, thường được dùng đêt phân lớp văn bản
0 nhận xét:
Đăng nhận xét