Saltar para o conteúdo

Mojibake

Origem: Wikipédia, a enciclopédia livre.
Texto emUTF-8apresentado comISO-8859-1
Texto em ISO-8859-1 apresentado com UTF-8

Mojibake( văn tự hóa け,mojicaractere +bakemudança, literalmente caracteres fantasmas ou caracteres mudados) é o termo da língua japonesa que se costuma utilizar para descrever o problema de caracteres incorretamente interpretados em sistemas de informática (Conhecido como "trubisco" ou "garatuja" em português).[1][2]Geralmente os caracteres são substituídos pelo símbolo �.

O Mojibake acontece quando algumprograma de computadorrecebe informação de texto cujos caracteres estão codificados por uma convenção com a qual não sabe lidar. Frequentemente isso acontece porque o programa foi feito antes que se chegasse a um padrão bem aceito para a representação de sinaisdiacríticosde uma língua estrangeira.

Uma defesa básica contra o problema de Mojibake é escrever ou converter os textos para transcrições romanizadas sem diacríticos (escrevendo, por exemplo, "Voce esta bem" ou "Voce estah bem?" em vez de "Você está bem?" ). A desvantagem, é claro, consiste em perda de elegância e possivelmente de clareza no texto.

Entre as línguas mais associadas ao Mojibake incluem-se o japonês, o chinês e o russo (que usa oalfabeto cirílico). Algumas vezes ocorre Mojibake entre duas codificações distintas da mesma língua, como por exemploEUC-JPeShift-JIS,ambos feitos para codificar alíngua japonesa.

O Mojibake chama-seluan ma( loạn mã ou loạn mã luan4 ma3), ou "código caótico" nalíngua chinesa.

Exemplo: "Văn tự hóa け" pode ser mostrado como "•¶Žš‰»‚¯" (é possível que este exemplo não seja mostrado corretamente, dependendo do software exato usado para ver este artigo).


Referências