lojas Um computador cada letra e símbolo de texto como uma seqüência de bits - os binários e zeros. Sistemas de codificação do alfabeto, sinais de pontuação e outros símbolos evoluiu durante o século 20 , levando a ANSI e Unicode . ANSI , que surgiu antes, utiliza menos bits mas acomoda línguas não europeias com dificuldade; Unicode abrange muitos caracteres asiáticos e do Oriente Médio , bem como o conjunto romano utilizado para o Inglês e outros idiomas europeus . Tamanho
O conjunto ANSI codifica caracteres usando oito bits , ou um byte de dados , de modo que ele lida com até 256 símbolos diferentes ao mesmo tempo. O sistema Unicode usa 16 bits , ou dois bytes , acomodando 256 x 256 ou 65.536 símbolos . Além disso , tem de Unicode 17 planos de codificação , permitindo um total de mais do que 1 milhão de símbolos . Para idiomas com conjuntos de caracteres não-romanos , ANSI utiliza um número de 16 bits adicional chamado de uma página de código. Um computador armazena esse número uma vez , não com todos os personagens , dando mais flexibilidade para o esquema de codificação ANSI .
Idiomas
O conjunto ANSI conhecido como "Windows 1252 ", onde " 1252" refere-se ao número da página de código, é o mais popular , cobrindo Inglês e várias línguas europeias . Outras páginas de código definir idiomas adicionais, como 1254 para turco e 1255 para o hebraico. Unicode, devido ao seu tamanho maior personagem, inerentemente acomoda mais símbolos , incluindo aqueles para tailandês, Braille, Cherokee e persa antigo .
Plataformas
ANSI cresceu do sistema operacional Windows, da Microsoft , tendo sido desenvolvido pela Microsoft e IBM. Pesquisadores da Apple e Xerox colaborou em Unicode , que a Microsoft adotou mais tarde . No momento da publicação , o Windows suporta ANSI e Unicode . Mac OS X usa o seu próprio código de caracteres de oito bits , semelhante ao ANSI, e também suporta Unicode . O sistema operacional Linux também oferece suporte a Unicode .
Classificação
O conjunto de caracteres romanos tradicionalmente tem permitido aos usuários organizar e classificar as informações usando a ordem de seus personagens . ANSI; seguiu a ordem de caracteres romanos , de modo que o valor de um "T " é maior do que a de um " B ", fazendo tarefas de computador , tais como a triagem quase automático . Embora Unicode também pode classificar as informações com base na ordem de caracteres , é um processo mais complexo . Os primeiros 127 caracteres Unicode incluem - minúsculas superior e letras romanas , permitindo a classificação para o Inglês e outros idiomas europeus . Cada linguagem não- romano tem sua própria fórmula de classificação, ou algoritmo.