Nhận dạng hình ảnh, trong ngữ cảnh của Thị giác máy tính, là khả năng của phần mềm để xác định các đối tượng, địa điểm, con người, chữ viết và hành động trong hình ảnh. Máy tính có thể sử dụng công nghệ thị giác máy kết hợp với máy ảnh và phần mềm trí tuệ nhân tạo để nhận dạng hình ảnh.
Phân loại hình ảnh đề cập đến một quá trình trong thị giác máy tính có thể phân loại hình ảnh dựa trên nội dung trực quan của nó. Ví dụ, một thuật toán phân loại hình ảnh có thể được thiết kế để chỉ ra một hình ảnh có chứa hình người hay không. Mặc dù việc phát hiện đối tượng là không đáng kể đối với con người, việc phân loại hình ảnh mạnh mẽ vẫn là một thách thức đối với các ứng dụng thị giác máy tính.
Mục tiêu của nghiên cứu này là xác định điều gì làm cho một mạng nơron sâu xử lý dữ liệu phức tạp, chẳng hạn như dữ liệu hình ảnh / video, nhanh hơn và chính xác hơn, chúng tôi sẽ xem xét các kiến trúc mạng nơron thành công mới nhất để xác định cấu trúc nào là hiệu quả nhất (và nhanh nhất) (các) kiến trúc trong phân loại hình ảnh và chúng tôi cũng sẽ nghiên cứu kỹ thuật tối ưu hóa nào hoạt động tốt nhất trong loại dữ liệu này.
Chúng tôi cố gắng tìm hiểu cách các nhà nghiên cứu gần đây đã có một bước tiến lớn trong nhận dạng hình ảnh bằng cách phân loại hình ảnh và xem cách họ ghi được điểm số chính xác đáng kinh ngạc trong thử thách ImageNet. Tính đến cách chúng tôi có thể xử lý dữ liệu phức tạp như dữ liệu hình ảnh nhanh hơn, cách chúng tôi có thể xử lý vấn đề trang bị quá nhiều dữ liệu này và cách chúng tôi có thể giảm thiểu thời gian đào tạo kiến trúc của chúng tôi.