Ir para conteúdo
Fórum Script Brasil
  • 0

Encoding


jader.marques

Pergunta

1 resposta a esta questão

Posts Recomendados

  • 0

Boa tarde!

Não existe uma forma de se descobrir pois não há na string um identificador.

Um exemplo seria o ISO-8859-1 e o UTF-8. Uma string apenas com os caracteres normais (letras sem acentuação, números) seria exatamente igual em ambas codificações. Já se tivesse um caracter acentuado, por exemplo, teria uma diferença.

Assim, o máximo que daria para fazer é tentar consistir os dados para verificar se o formato bate com algum padrão.

Exemplo: no UTF-8, os caracteres especiais podem ter até 4 bytes. A codificação é a seguinte:

Até 0x007F (7 bits), o valor resultante não é alterado: será apenas 1 byte, 0xxxxxxx em binário

Depois, até 0x07FF (11 bits), serão dois bytes no formato: 110xxxxx e 10xxxxxx

Ou seja: em uma string UTF-8, quando o oitavo bit de qualquer byte estiver ligado, indica que é um caracter com mais de 7 bits e portanto deverá obedecer a regra acima.

Pode ser um pouco complicado de entender mas, em resumo: sem saber a codificação original, o máximo que podemos fazer é tentar descobrir a codificação, sem qualquer garantia de estarmos certos ou não...

Link para o comentário
Compartilhar em outros sites

Participe da discussão

Você pode postar agora e se registrar depois. Se você já tem uma conta, acesse agora para postar com sua conta.

Visitante
Responder esta pergunta...

×   Você colou conteúdo com formatação.   Remover formatação

  Apenas 75 emoticons são permitidos.

×   Seu link foi incorporado automaticamente.   Exibir como um link em vez disso

×   Seu conteúdo anterior foi restaurado.   Limpar Editor

×   Você não pode colar imagens diretamente. Carregar ou inserir imagens do URL.



  • Estatísticas dos Fóruns

    • Tópicos
      152k
    • Posts
      651,8k
×
×
  • Criar Novo...