A anotação da imagem é o processo de adicionar informações às imagens para torná -las mais compreensíveis pelos computadores. Essas informações geralmente estão na forma de rótulos, caixas delimitadoras, polígonos, máscaras de segmentação semântica ou outros metadados. O objetivo é treinar modelos de visão computacional para reconhecer objetos, cenas e atividades dentro das imagens.
Aqui está um detalhamento dos diferentes tipos de anotação de imagem:
*
Caixas delimitadoras: Uma caixa retangular desenhada em torno de um objeto de interesse. Esta é uma forma comum e relativamente simples de anotação. Ele identifica a localização do objeto, mas não fornece informações detalhadas da forma.
*
polígonos: Mais preciso do que as caixas delimitadoras, os polígonos rastream o contorno de um objeto, capturando sua forma com mais precisão. Isso é útil para objetos com formas irregulares.
*
Segmentação semântica: Isso atribui um rótulo a cada pixel da imagem, classificando cada pixel como pertencente a um objeto ou classe específica. Isso fornece as informações mais detalhadas sobre o conteúdo da imagem.
*
Marcos/pontos -chave: Isso envolve marcar pontos específicos em um objeto (por exemplo, os cantos de um carro, os olhos e o nariz de um rosto). Isso é frequentemente usado para estimativa de pose e reconhecimento facial.
*
cubóides (caixas delimitadoras 3D): Usado para detecção de objeto 3D, especificando a localização e as dimensões do objeto no espaço tridimensional.
*
Legenda/transcrição: Adicionando descrições textuais às imagens, resumindo o conteúdo ou fornecendo contexto.
*
Classificação da imagem: Atribuindo uma única etiqueta a uma imagem inteira, descrevendo seu conteúdo geral.
O tipo de anotação usado depende do aplicativo específico e do nível de detalhe desejado. Por exemplo, um carro autônomo pode exigir a segmentação semântica para identificar com precisão as marcas e pedestres, enquanto uma pesquisa de imagem de produto pode precisar apenas de caixas delimitadoras. As imagens anotadas se tornam os dados de treinamento para algoritmos de aprendizado de máquina usados na detecção de objetos, classificação de imagens e outras tarefas de visão computacional.