No hay que usar tilde en los SMS

A todos les habrá pasado que están escribiendo un mensaje de texto en el celular (escribiendo medianamente bien, no esas marañas que necesitas tener un doctorado en criptoanálisis para entenderlo) y de repente acaban el limite de caracteres (unos 160 caracteres) o el teléfono les dice que se usarán dos sms concatenados. Lo que ocurre es que seguro iban por el caracter ~100 y escribieron alguna palabra con una tilde, u otro carácter que debe ser definido en otra especificación.

Lo que ocurre es que, al diseñarse el servicio de mensajes cortos (SMS por sus siglas en ingles) este quedo limitado a 140 octetos, es decir 140 bytes, tomando cada byte como 8 bits. Lo que resulta en un mensaje de 1120 bits. Estos mensajes al ser enviados pueden codificar su contenido en varios alfabetos: el alfabeto por defecto GSM 7-bit (cada carácter usa 7 bits para su codificación , el alfabeto de 8 bits (un carácter = 8 bits), y el alfabeto de 16 bits UCS-2 (un carácter = 16 bits). Haciendo una simple división (1120/7=160) vemos que para el primero el numero de caracteres queda limitado a 160, el segundo a 140 y el tercero a 70. ¿Que tiene que ver esto con los acentos/tildes? Que el alfabeto de 7-bits codifica los siguientes caracteres:

Basic Character Set[2]
0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Δ SP 0 ¡ P ¿ p
0x01 £ _ ! 1 A Q a q
0x02 $ Φ 2 B R b r
0x03 ¥ Γ # 3 C S c s
0x04 è Λ ¤ 4 D T d t
0x05 é Ω % 5 E U e u
0x06 ù Π & 6 F V f v
0x07 ì Ψ 7 G W g w
0x08 ò Σ ( 8 H X h x
0x09 Ç Θ ) 9 I Y i y
0x0A LF Ξ * : J Z j z
0x0B Ø ESC + ; K Ä k ä
0x0C ø Æ , < L Ö l ö
0x0D CR æ = M Ñ m ñ
0x0E Å ß . > N Ü n ü
0x0F å É / ? O § o à
  • LF is a Line Feed control.
  • CR is a Carriage Return control, or filler.
  • ESC is an Escape control.
  • SP is a Space character.

y una extencion:

Basic Character Set Extension[2]
0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 |
0x01
0x02
0x03
0x04 ^
0x05
0x06
0x07
0x08 {
0x09 }
0x0A FF
0x0B SS2
0x0C [
0x0D CR2 ~
0x0E ]
0x0F \

Usando solo esos caracteres tendremos un mensaje de 160 caracteres, pero si llegamos a usar otro que no este definido ahí lo mas probable es que pasemos a la codificación UCS-2, de 16 bits, que es la que deben usar otras lenguas, como el Árabe, Chino, Coreano, etc.

¿Y porque usar tanto para una sola tilde? Porque al usar UNA tilde en alguna palabra se debe usar el UCS-2, pero como no se deben mezclar las codificaciones, todo el mensaje es pasado a esa codificación  con la consiguiente reducción en el limite de caracteres disponibles para usar.

Hagan la prueba, escriban un mensaje largo, de alrededor de 160 caracteres y a uno de ellos agréguenle el acento, y van a ver como cambia a varios msjs más.

Otro detalle a tener en cuenta es que al usar dos mensajes concatenados se reducen los caracteres para agregar una cabecera en el mensaje que indica que es un mensaje segmentado, quedando en 153 para el de 7bits, 134 para el de 8 y 67 para el de 16.

Fuente: Wikipedia

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s