Diversidad de lenguas e Internet

Este sitio usa Unicode para poder mostrar correctamente todos los caracteres que usan las distintas lenguas. Si usted quiere ver si su navegador admite Unicode o cómo configurarlo, he escrito un pequeño instructivo.

Hacia una verdadera red mundial y participativa (14)

Seguridad informática, Web 2.0, privacidad, teletrabajo y comercio electrónico. Esos son los temas que más surgen en la prensa cuando se habla de Internet. Poco a poco, como antes el teléfono o la televisión, Internet se ha ido metiendo en nuestras vidas, aparentemente para quedarse, haciendo que cada vez más actos cotidianos tengan que ver con la Red de Redes.

Pero hay otro tema del que poco se habla en la prensa y que está influyendo casi tanto como los anteriores en las vidas de la creciente masa de usuarios de Internet: la internacionalización, la explosión de lenguas en Internet.

Dicen que en el principio fue el Verbo. Y el Verbo, en Internet, estaba escrito en inglés. Los primeros servidores y servicios de la red mundial comenzaron a funcionar en Estados Unidos y los que estamos conectados desde el siglo pasado seguramente recordaremos que si queríamos hacer algo tan simple como abrir una cuenta de correo electrónico (por ejemplo en Netscape o en el viejo Hotmail, antes que fuera adquirido por Microsoft) debíamos entender el inglés, porque no había versiones disponibles en otros idiomas.

El tiempo pasó, los usuarios de habla distinta al inglés fueron cada vez más... e Internet, fiel a su naturaleza, comenzó a adaptarse a los cambios.

Escenas de la vida cotidiana

El porqué de la internacionalización

Existe una opinión, muy extendida en ciertos ámbitos, que sugiere la inutilidad de apoyar la difusión de lenguas distintas al inglés. Se dice, basándose en hechos actuales, que el inglés es la lengua franca del mundo actual, como antes lo fueron el latín o el francés. Que es la lengua de intercambio en ámbitos internacionales como la diplomacia o el comercio exterior y que cualquiera que desee crecer, laboralmente hablando, debe estudiar inglés, sea del país que sea.

Es una opinión interesante, pero ya en las mismas razones por las que se la defiende se encuentran problemas. Se citan como ejemplos pasados al francés y al latín. Pero justamente fueron lenguas fuertes en el pasado. ¿El inglés se impondrá por siempre o en el futuro hablaremos chino mandarín o hindi como lenguas de intercambio? Nadie puede asegurarlo.

Una alternativa a esta posición es la que dice que debe darse difusión sólo a las lenguas "importantes", y se incluyen en esta categoría, acompañando al inglés, a un pequeño grupo que varía de acuerdo al que lo dice: francés, español, alemán, japonés, portugués y, ultimamente, el chino mandarín (1).

Pero esto es sólo si damos por sentado que unas lenguas son más importantes que otras.

¿Esto es así?

¿Qué determina esa supuesta importancia?:

Aparentemente las únicas razones de peso para dar más importancia a unas lenguas sobre otras son la economía y la política.

El derecho a la propia lengua

A partir de este punto, queda más claro entonces que todas las lenguas, sin importar su relativa importancia, tienen derecho a ser difundidas y apoyadas. Conviene recordar que "mucha de la vida cultural, espiritual e intelectual de la gente se vive a través del idioma. Esto va desde rezos, mitos, ceremonias, poesía, oratoria y vocabulario técnico, hasta las formas de saludo diario, estilos conversacionales, humor, formas de hablar a los niños y términos únicos para hábitos, comportamientos y emociones. Cuando un idioma se pierde, todo esto se tiene que reacomodar en el nuevo idioma (con categorías diferentes de palabras, sonidos y estructuras gramaticales) si es que se conserva." (3)

Cada lengua es un reflejo de una cultura, una forma de ver el mundo, y cada vez que una lengua se pierde, un trozo de esa gran familia que es la raza humana se pierde para siempre.

Un tema, muchos problemas

Una vez que comprendimos la importancia del tema, veremos que la tarea es enorme y variada.

Los caminos para lograrlo son varios y complementarios, la mayoría de ellos muy técnicos para el común de los lectores, pero veremos dos claves para esto: la codificación de las lenguas y la estandarización de caracteres.

Codificación de lenguas

Para poder identificar las lenguas, debemos darle un código único a cada una.

Luego de varios intentos previos, en 1988 la Organización Internacional de Estándares (ISO, sigla de International Standard Organization) creó la norma internacional ISO 639-1 que identificaba a las lenguas más comunes con un código de dos letras (5). Pronto resultó claro que faltaba identificar muchas lenguas y que el sistema de dos letras no alcanzaba para todas (ISO 639-1 identificaba sólo 136 idiomas), por lo que, en el año 1991 se lanzó la norma ISO 639-2 (4) que le da un código de tres letras a unos 400 idiomas. (6)

Pero... la ISO 639-2 seguía sin incluír a todas las lenguas, solo agrandaba el espectro de las clasificadas y nada más (7). En el caso de muchas lenguas de Latinoamérica, la norma las agrupa por regiones. Así, la mayoría de las lenguas de Sudamérica se las agrupa bajo el código genérico de sai y, en caso de Centroamérica, cai. Para intentar solucionar este problema, en el año 2005 se dio a conocer el borrador de la norma ISO 639-3 que le da un código individual de tres letras a cada una de las lenguas (8).

Ante este conjunto de normas, si escribimos información en una página, deberemos buscar en la norma ISO 639-1 el código de dos letras que le corresponda al idioma en que está escrita dicha información. Si dicha norma no define un código para ese idioma, deberemos buscarlo en ISO 639-2 y, si en dicha norma se define un código genérico en vez de uno específico, buscaremos en la ISO 639-3 el código que se define para esa lengua. (9)

Estandarización de caracteres

El lenguaje inicial de construcciones de páginas web, HTML, comenzó estando orientado al inglés y a todas las lenguas que usan caracteres de este idioma (a través del conjunto de caracteres ISO-8859-1), por lo que caracteres conocidos por nosotros como las vocales acentuadas, consonantes como ñ o ç o signos como de comienzo de oración de admiración o interrogación (¡ y ¿ respectivamente) quedaban fuera de las páginas web. Recién en la versión 2.0 de esta norma se permitió la opción de que una página pueda ofrecer un conjunto de caracteres distinto.

¿Cómo incluíamos caracteres especiales en nuestras páginas entonces? Con los llamados "caracteres de escape" (por ejemplo á para á), un parche que nos permitía solucionar el problema, pero que nos genera otros, como dificultades a la hora de buscar, indexar o al querer usar iniciativas más innovadoras, como la Web Semántica.

Además, seguía siendo imposible incluír todos los caracteres existentes en un solo conjunto. Esto recién se logra con el conjunto de caracteres Unicode (10) y su implementación tuvo que esperar hasta la versión 4.0 del lenguaje HTML.

Unicode nos permite crear páginas web en cualquier lengua que use cualquier tipo de caracteres, aunque los problemas aún persisten ya que a veces los navegadores no muestran bien algunos caracteres Unicode (11), pero esto se debe más a razones de compatibilidad del propio navegador que del estándar.

Así, conviene aclarar que si vamos a hacer un sitio que contenga sólo caracteres occidentales, con declarar que vamos a usar el conjunto de caracteres ISO-8859-1, será suficiente (12). Ahora, si vamos a usar otro tipo de caracteres (armenios, árabes, cirílicos, chinos, hebreos, japoneses, etc.), conviene declarar el conjunto de caracteres Unicode o UTF-8 (13).

Y más

Pero ante todo siempre debemos recordar el porqué de toda esta tarea: el colaborar con nuestro granito de arena para lograr una verdadera red mundial y participativa, en donde todas las lenguas, aún las más "minoritarias", tengan su lugar para difundirse y mantenerse vivas.

Notas al pie

(1) La lengua más hablada en el mundo actualmente con 885 millones de hablantes, el 13,69 % de la población mundial. Fuente: http://es.wikipedia.org/wiki/Anexo:Lista_de_lenguas_por_número_de_hablantes .(Volver al texto principal)
(2) Fuente: http://en.wikipedia.org/wiki/Guaraní_language .(Volver al texto principal)
(3) "Endangered languages", Woodbury, Anthony, Geoffrey Numberg y Thomas Wason, citado y traducido en el sitio del Archivo de los Idiomas Indígenas de Latinoamérica de la Universidad de Texas (AILLA) en en la dirección http://www.ailla.utexas.org/site/welcome_sp.html .(Volver al texto principal)
(4) Podemos encontrar el listado completo en las páginas http://lcweb.loc.gov/standards/iso639-2/langcodes.html y http://www.oasis-open.org/cover/iso639a.html. (Volver al texto principal)
(5) Asi, para el inglés, se debe usar en, para español, es, para portugués, pt y para francés, fr,ay para el aymará, gn para el guaraní y qu para el quechua. (Volver al texto principal)
(6) Ante la posibilidad que un mismo lenguaje tenga un código de dos letras y otro de tres letras, como sucede en varios casos, la norma RFC 3066, complementando la anteriormente citada, recomienda usar el código de dos letras. Podemos encontrar el listado completo de esta norma en la página http://www.ietf.org/rfc/rcf3066.txt. (Volver al texto principal)
(7) Define nueVOS códigos como arn para el mapudungun, roa para el caló o gitano y car para el caribe. (Volver al texto principal)
(8) Para llevar a cabo la tarea, La ISO toma de referencia el sistema de codificación de una organización llamada SIL (sigla en inglés de Summer Institute Linguistics y cuyo sitio en Internet es http://www.sil.org), que intenta catalogar todas las lenguas del mundo. A través de su sitio en Internet llamado Ethnologue (en http://www.ethnologue.com), ofrece información en línea sobre más de 6.900 lenguas catalogadas. Los datos brindados por Ethnologue son usados por organismos internacionales como las Naciones Unidas y UNESCO, además de la ISO. (Volver al texto principal)
(9) Como esta norma aún no se ha convertido en un estándar, y aprovechando una opción que la norma RFC 3066 ofrece para lenguas no estandarizadas, en HTML y XHTML se deberá escribir de la siguiente forma:
<html lang="x-sil-xxx">
Y en XML deberá usarse:
xml:lang="x-sil-xxx"
Donde xxx es el código de tres letras brindado por ISO 639-3. Así, si queremos definir un texto escrito en Aoniken o Tehuelche, los respectiVOS códigos serían:
<html lang="x-sil-teh">
Y...
xml:lang="x-sil-teh" (Volver al texto principal)
(10) Una amplia explicación del tema se puede hallar en la página http://unicode.org/standard/translations/spanish.html. (Volver al texto principal)
(11) Si tenemos nuestro navegador configurado con Unicode, a continuación podremos ver algunos ejemplos de textos en otros idiomas (si se tiene algún problema de visualización, he hecho un pequeño instructivo de cómo configurar el navegador en esta página del Albergue):
Árabe: صلة في جميع أعضاء الأسرة البشرية وبحقوقهم المتساوية الثابتة هو أساس الحرية والعدل والسلام في العالم.
Armenio: յան Մարդուիրավունքների համընդհանուր հռչակա·րում թվականի դեկտեմբերի
Bengalí: র ভিত্তি; যেহেতু মানব অধিকারের প্রতি অবজ্ঞা এবং ঘৃণার ফলে মানুবের বিবেক লাঞ্ছিত বোধ করে এমন
Chino mandarín: 序言 鉴于对人类家庭所有成员的固有尊严及其平等的和不移的权利的承认
Coreano: 의 도래가 모든 사람들의 지고한 열망으로서 천명되어 왔으며, 인간이 폭정과 억압에 대항하는
Griego: ένειας, καθώς και των ίσων και αναπαλλοτρίωτων δικαιωμάτων τους αποτελεί το θεμέλιο της ελευθερίας
Hebreo: כל יצורי אנוש מחירות הדיבור והאמונה ומן החירות מפחד וממחסור, הוכרז כראש שאיפותיו של כל אדם. הואיל והכרח חיונ
Hindi: गया है । इस ऐतिहासिक कार्य के बाद ही असेम्बली ने सभी सदस्य देशों से अपील की कि वे इस घोषणा का प्रचार करें
Japonés: ない世界の到来が、一般の人々の最高の願望として宣言されたので、人間が専制と圧迫とに対す
Ruso: знание достоинства, присущего всем членам человеческой семьи, и равных и неотъемлемых
Sánscrito: वर्षे डिसेम्बर-मासे अभ्युपगत: अभिघोषितश्च, महासभाया: 217-अ-{3}-इत्याय्व्य: प्रस्ताव:। प्रस्तावना यत्र जगति (Volver al texto principal)
(12) Con la línea <meta http-equiv="Content-type" content="text/html; charset=ISO-8859-1" /> en el código. (Volver al texto principal)
(13) Con la línea <meta http-equiv="Content-type" content="text/html; charset=utf-8" />. (Volver al texto principal)
(14) Este artículo fué originalmente publicado en el sitio Caminando Utopías del Centro de Teletrabajo y Teleformación de la Universidad de Buenos Aires, el 15 de julio de 2007. (Volver al texto principal)

Volver a la página principal
 Volver arriba

Derecho de Autor © 2004 - 2009 Claudio Segovia
Licencia Creative Commons
Lenguas e Internet by Claudio Segovia ha licenciado esta obra bajo una Licencia Creative Commons Atribución-No Comercial-Compartir Obras Derivadas Igual 2.5 Argentina

Esta página adhiere a la campaña "Se ve mejor con cualquier navegador - Campaña para un WWW no específico de un navegador (http://www.anybrowser.org/campaign/anybrowser_es.html)".
Por favor, hágame saber si ha encontrado algo en mi sitio que no funcione con su navegador (especifíqueme qué navegador está usando y qué no funcionó) y trataré de arreglarlo.
Se ve mejor con cualquier navegador - Enlace a página de Campaña (D)

Todos los nombres propios, distintivos, logos, marcas, sistemas, hardware, equipos, etc. que aparecen en estas páginas web enlazando a sitios, son marcas registradas de sus respectivas compañias, empresas, organizaciones y/o propietarios. El hecho que aparezcan no implica ningún tipo de compromiso monetario o moral de dichas organizaciones con el autor de éstas páginas, ya que fueron colocadas por éste por simple gusto personal, como colaboración desinteresada para promocionar dichos sitios.

Webmaster: Claudio Segovia - Buenos Aires, San Justo y Lago Puelo - Argentina
Nacimiento de Lenguas e Internet: 2 de noviembre de 2008
Ultima actualización: Domingo 2 de noviembre de 2008
Dirección de correo electrónico: claudiosegovia@gmail.com

A Ema, Matilde y Cecilia
A la memoria de mi viejo, Rafa y Deby.