? Reconhecimento Óptico de Caracteres (OCR ) é uma técnica de entrada de dados que usa um tipo de fonte específica e um scanner OCR para ler o conjunto de caracteres e enviá-lo para seu computador. O American National Standards Institute , ou ANSI, define o tipo de fonte como um conjunto de caracteres de 0-9 , de A a Z , e alguns caracteres especiais , cada uma contendo um tamanho e forma definidos . Fontes OCR são reprodutíveis , e os seres humanos e scanners OCR pode ler e distingui-los . Categorias
scanners OCR são ou entrada de texto ou scanners de captura de dados . Scanners de entrada de texto ler todo o documento , ou pelo menos grande parte dela. A entrada de dados pode ser alimentada manualmente, ou o scanner pode ter a alimentação automática de dados , leitura, classificação e empilhamento capacidades. Ao usar um scanner de entrada de texto , edição ocorre durante ou após a digitalização. Scanners de captura de dados de captura e formatar dados durante o processo de digitalização, e nenhuma edição humano de dados ocorre . Devido a isso, scanners de captura de dados deve ser mais preciso.
Tipos
tipos de scanner pode ser estacionária ou de mão. Scanners estacionários , tais como mesa, scanners folha a folha e tambor utilizam principalmente de entrada de texto para ler , processar e armazenar dados de imagens no seu computador, onde você pode então editar ou formatar o texto capturado contrário. Scanners de mão , como canetas digitais ou scanners de código de barras , usar entrada de texto ou de captura de dados para ler e processar informações de dados e , em seguida, armazená-lo para edição posterior, ou "bloqueio" de dados para evitar a edição.
Métodos
Resumidamente, um scanner OCR tira uma foto do documento e, em seguida, o software do scanner OCR olha para o OCR Fontes A imagem contém , em seguida, lê e converte-lo para texto utilizando um ajuste de matriz ou um método de extração de recursos. Matrix Matching é uma forma de casamento de padrões , onde o leitor olha para um personagem e as compara a um em sua biblioteca de personagens ou modelos de personagens. O recurso de extração de não contar com uma biblioteca pré-definida, mas em características gerais, tais como áreas abertas , formas fechadas e cruzam linhas quando decifrando caracteres. Extração de Características também atende pelo nome de Intelligent Character Recognition , ou ICR .
Benefícios
O benefício mais significativo do uso de um scanner OCR é a eliminação de erros de entrada de dados humanos . Scanners OCR ler dados em velocidades que podem chegar a mais de 200 caracteres por segundo . A taxa de precisão de um scanner OCR é 99,9975 por cento, ou um mal interpretado personagem em 40.000, em comparação com uma taxa de leitura errada humano de um em 300 caracteres . Validação automática dígito de verificação pode trazer a taxa de precisão de OCR para menos de um em 3.000.000.
Considerações
originais de má qualidade irá resultar em menos precisos documentos OCR. Documentos manuscritos , documentos contendo texto com estilo , os documentos mais antigos, fotocópias e documentos mais enviados por fax não funcionam bem com leitores de OCR. Recomendações para documentos aceitáveis incluem texto impresso em um tamanho de fonte menor do que 72 pontos , laser e tinta impressora jato de texto , documentos de fax com 200 pontos por polegada ( dpi) ou maior resolução e materiais impressos comercialmente, tais como livros , folhetos e revistas.