UTF-7 e UTF-8 são ambos os tipos de Unicode Transformation Format, o padrão usado para codificar caracteres Unicode de 16 bits, como letras internacionais e símbolos especiais, em um formato que pode ser transmitido através de sistemas de 7 ou 8 bits. UTF-8 é o formato de codificação mais usado, popular em páginas da Web e em muitos programas de e-mail. O UTF-7 fornece codificação para alguns protocolos de e-mail que não funcionam com o UTF-8.
Unicode
Unicode é um padrão internacional para representar caracteres como números inteiros. Ele usa 16 bits por caractere versus os sete bits usados pelo ASCII, o American Standard Code for Information Interchange. ASCII pode reproduzir apenas 128 caracteres contra os 65.000 caracteres únicos disponíveis em Unicode. Essa gama mais ampla de caracteres torna o Unicode mais apropriado para idiomas do Leste Asiático e outros com grandes conjuntos de caracteres, mas os caracteres Unicode devem ser codificados se forem transmitidos por meio de canais de 7 ou 8 bits.
UTF-8
UTF-8 é o formato de transformação universal mais comum usado para converter caracteres Unicode em segmentos de 8 bits para transmissão pela Web via e-mail ou por outros canais de 8 bits. Esse formato de codificação altera cada caractere Unicode em um a quatro octetos, dependendo do valor inteiro do caractere Unicode, e é muito eficiente para documentos que usam principalmente letras também encontradas no conjunto de caracteres ASCII. O UTF-8 tende a ocupar mais espaço do que a codificação de byte único para alfabetos não ocidentais.
UTF-7
UTF-7 é uma variante especial do Formato de Transformação Universal proposto pela primeira vez em meados da década de 1990. Ele foi projetado para representar texto Unicode com uma sequência de caracteres ASCII, produzindo um método de codificação mais eficiente para e-mail do que UTF-8, além da codificação para impressão entre aspas necessária para transmitir em um caminho de dados de 7 bits. O uso da codificação UTF-7 reduz significativamente o tamanho dos caracteres codificados.
Considerações
Embora o UTF-7 seja mais eficiente em canais de 7 bits do que o UTF-8 mais a impressão entre aspas, a maioria das autoridades, incluindo o Internet Mail Consortium e a Microsoft Developer Network, recomendam o uso de UTF-8 sobre UTF-7 sempre que possível. Isso ocorre porque o UTF-7 cria problemas de segurança e robustez não presentes em seu parente de 8 bits. O IMC também recomenda que todos os programas de exibição de mensagens criados após 1º de janeiro de 1999 sejam capazes de exibir mensagens em UTF-8.