Weekend: Learning To Count Everything (Pending)
Tóm tắt
Các model đếm hiện nay chỉ đếm được 1 thể loại, ví dụ người, cây cối, con vật,v..v. Để đếm được, cần trích xuất 1 vài trường hơp từ danh mục đó, như hình vẽ thì cần xác định vị trí 1 vài quả bóng bay, với cách làm này, có rất ít dữ liệu, nên phải dùng few-shot regression. [.]1. Mở đầu
Có 2 thử thách trong lĩnh vực counting computer vision (đếm vật thể, thị giác máy tính): + Đầu tiên là có hàng triệu đối tượng khác nhau. + Thứ hai là không thể có tập dữ liệu đủ lớn ở thời điểm hiện tại cho mọi đối tượng.
Bài báo này sẽ giải quyết cả 2 thử thách đó bằng cách tạo ra mạng Few Shot Adaptation and Matching Network (FamNet) gồm 2 trọng tâm là trích xuất module đặc trưng và dự đoán mật độ của module.
Tóm tắt lại: xác định vấn đề là few-shot regression task, tạo ra mạng FamNet xử lý few-shot counting, đưa ra bộ dữ liệu mới FSC-147 gồm 6000 hình ảnh với 147 danh mục để test.
Related Workds (Mình không biết dịch cái này ra tiếng Việt sao cho đúng)
Mục này nói chung là nói về các công trình liên quan đã làm việc về vấn đề tương tự vấn đề này, như mạng GMN, xong là nói ưu điểm, nhược điểm, mạng GMN này nó hoạt động tốt với các lớp đào tạo nhưng hoạt động không tốt với lớp mới.
Phân biệt few-shot image và few-shot detection, dựa vào dữ liệu đào tạo, MAML. (Thôi xin dừng, mình tìm hiểu đống này từ từ ...).
Mạng FamNet
Kiến trúc mạng
Đầu vào là một ảnh màu HxWx3 và 1 vài bounding box (cái này cũng không biết dịch tiếng Việt - nói chung nó là một cái đường bao quanh 1 vật thể nào đó). Đầu ra là số dự đoán có bao nhiêu đối tượng giống các cái bounding box bằng cách tính tổng trên tất cả các giá trị mật độ (density values).
Đến đây tôi thấy bài viết này không vừa sức với tôi rồi, tôi chỉ có kinh nghiệm trên mạng noron và CNN, cùng lắm là RNN, cái này..... Lưu ý: Bài viết tạm dừng do người viết cần phải nghiên cứu thêm, hẹn bạn ở tuần tiếp theo 1 bài báo "dễ thở" hơn.
Nhận xét
Đăng nhận xét