Projet Babel forum Babel
Contact - Règles du forum - Index du projet - Babéliens
INSCRIPTION - Connexion - Profil - Messages personnels
Clavier - Dictionnaires

Dictionnaire Babel

recherche sur le forum
Diacritiques et informatique - Langues d'ici & d'ailleurs - Forum Babel
Diacritiques et informatique

Créer un nouveau sujet Répondre au sujet Forum Babel Index -> Langues d'ici & d'ailleurs
Voir le sujet précédent :: Voir le sujet suivant
Auteur Message
Outis
Animateur


Inscrit le: 07 Feb 2007
Messages: 3510
Lieu: Nissa

Messageécrit le Tuesday 14 Oct 08, 16:02 Répondre en citant ce message   

Pour affiner la description de leur système phonétique au moyen de l'alphabet romain, certaines langues (par le biais des États) ont préféré utiliser des polygrammes (pol. Szczecin, all. Schmierfett, fr. chair), mais d'autres des diacritiques (fr. çà), beaucoup un mélange des deux, rares cependant sont celles qui ont été jusqu'à introduire des caractères nouveaux (all. Fußgänger, néerl. Rijksmuseum (*), fr. fœtus).

Tout ceci trouvait bien sûr sa place dans les casses de plomb des éditeurs concernés, voire sur les touches des machines à écrire, et n'a posé aucun problème jusqu'à l'arrivée de l'informatique.

Confondants d'internationalisme, les étazuniens, longtemps seuls maîtres à bord de la discipline et omnipotents dans les instances de normalisation, ont évidemment considéré tout signe diacritique comme suspect d'anti-américanisme et, dès le départ (ASCII 7-bits), ceux-ci n'ont pas été codés.

On pourrait croire qu'après un demi-siècle de bricolages puis de renormalisations, l'arrivée d'abord de ISO Latin-1, puis d'Unicode a résolu les problèmes. Hélas, ce n'est pas le cas et, les décideurs des comités de normalisation étant le plus souvent d'incultes ingénieurs, certains caractères manquent toujours à l'appel.

Pour ISO Latin-1, on pourra se régaler et s'effarer à la lecture de cet article commentant l'absence de nos français Ÿ, œ et Œ ou des néerlandais ij et IJ :
http://www.gutenberg.eu.org/pub/GUTenberg/publicationsPDF/25-andre.pdf

Ceux-ci sont heureusement dans Unicode (sinon je n'aurais pu les écrire) mais c'est loin d'être le cas de tous les diacritiques, en particulier les combinaisons de ceux-ci.

Un exemple cocasse est celui des caractères de longue accentuée comme ḗ, ḕ, ṓ, ṑ, Ḗ, Ḕ, Ṓ et Ṑ. Ils ont été introduits dans Unicode pour permettre aux hellénistes (ceux qui transcrivent le grec ancien en caractères romains) de transcrire ή, ὴ, ώ, ὼ, Ή, Ὴ, Ώ et Ὼ.

C'est très gentil mais les ingénieux ingénieurs ont ignoré que, en grec ancien, même si cela n'apparaissait pas dans l'écriture, les autres voyelles, α, ι et υ, étaient aussi susceptibles d'être longues ou brèves et que c'est une distinction importante, aussi bien pour la versification que pour l'étymologie. Or, on a bien la possibilité d'écrire ά, ᾱ, á ou ā, mais surtout pas de combiner les deux !

Et ça ne concerne pas que le grec ancien ! Unicode contient tous les caractères permettant l'écriture romanisée du sanskrit (et donc d'un bon nombre de langues indiennes modernes) tels que ā, ṛ, ṝ, ṅ, ñ, ṭ, ḍ, ś, etc., mais les ingénieux ingénieurs ont ignoré que le plus fondamental des textes sacrés de l'hindouïsme, le Rg Veda, indiquait les accents toniques dans son écriture (tout comme la Torah et le Coran notent les voyelles) et que, là aussi, on avait besoin de longues accentuées !

Impossible donc actuellement d'écrire du sanskrit védique correctement, sauf à utiliser des outils d'édition comme LaTeX dont le paquetage tipa fournit toutes les possibilités requises par l'A.P.I.

Et c'est justement mon problème. Travaillant en vue d'un cours de védique je n'ai que deux (**) possibilités :
- ignorer les accents …
- produire du .pdf (avec LaTeX)
et ça m'énerve !

notes
(*) vous pouvez vérifier en déplaçant le curseur que ij est ici un seul caractère !
(**) en HTML on peut plus ou moins bricoler une mise en page plaçant des accents dans le paysage textuel mais le rendu est hélas dépendant des navigateurs, c'est en général assez moche …
Voir le profil du Babélien Envoyer un message personnel
gilou



Inscrit le: 02 Jan 2007
Messages: 1528
Lieu: Paris et Rambouillet

Messageécrit le Tuesday 14 Oct 08, 19:08 Répondre en citant ce message   

Outis, le défaut n'en revient pas à Unicode, qui a des pages d'accents (par exemple ici: http://www.unicode.org/charts/PDF/Unicode-3.2/U32-0300.pdf ) qui devraient pouvoir se combiner à plusieurs avec les caractères ordinaires, mais au support incomplet de cette norme dans la couche logicielle gérant l'affichage.
Moi aussi, ça m'énerve, lorsque je tape un texte sous un éditeur unicode, de voir mes accents se déplacer ailleurs, lorsque j'en fais un couper-coller dans la zone d'édition d'un browser web.


Dernière édition par gilou le Tuesday 14 Oct 08, 19:12; édité 1 fois
Voir le profil du Babélien Envoyer un message personnel
András
Animateur


Inscrit le: 20 Nov 2006
Messages: 1487
Lieu: Timişoara, Roumanie

Messageécrit le Tuesday 14 Oct 08, 19:12 Répondre en citant ce message   

Outis a écrit:
certaines langues (par le biais des États) ont préféré utiliser des polygrammes (pol. Szczecin, all. Schmierfett, fr. chair), mais d'autres des diacritiques (fr. çà), beaucoup un mélange des deux

Le polonais est plutôt à ranger dans la catégorie "mélange des deux", puisque à côté des polygrammes il y a ą, ć, ę, ł, ń, ó, ś, ź, ż.
Voir le profil du Babélien Envoyer un message personnel
Outis
Animateur


Inscrit le: 07 Feb 2007
Messages: 3510
Lieu: Nissa

Messageécrit le Tuesday 14 Oct 08, 20:13 Répondre en citant ce message   

@ András : je ne faisais pas de catégories, je donnais des exemples, c'est tout …

@ gilou : tout le problème des « diacritiques à tout faire » que sont les caractères de préparation, c'est que toutes les polices ne les implémentent pas et qu'ils ne sont pas associatifs (essaye de faire un a long accent aigu, tu verras) ; c'est pourquoi je les évite systématiquement et préfère utiliser les caractères qui ont déjà leur accent, ce qui est d'ailleurs le standard conceptuel d'Unicode.
Voir le profil du Babélien Envoyer un message personnel
gilou



Inscrit le: 02 Jan 2007
Messages: 1528
Lieu: Paris et Rambouillet

Messageécrit le Tuesday 14 Oct 08, 21:55 Répondre en citant ce message   

C'est encore un problème d'implémentation: ils sont associatifs, et la spécification unicode le montre à travers divers exemples. Par contre, nombre d'implémentations ne sont pas capables de traiter correctement cette associativité et en particulier, la majorité de celles qui utilisent un composant logiciel "texte formaté" fourni avec une librairie standard, composant dont le moteur de rendu ("rasterizer") sous-jacent ne gère pas correctement cette associativité mais utilise un des modes dégradé prévu dans la spec unicode.
[Plus précisément, c'est la couche logicielle faisant appel au moteur de rendu qui ne fait pas la gestion correcte des diacritiques, à priori]
Bon, si un jour, Adobe ou Bitstream mettent en open-source le code de leurs moteurs de rendu propriétaires, le problème de la bonne gestion des diacritiques disparaitra, mais je ne pense pas que ce soit pour demain.

Citation:
ce qui est d'ailleurs le standard conceptuel d'Unicode
Initialement, le standard conceptuel était de passer par un codage caractères+diacritiques, et de n'incorporer à la norme unicode que les caractères composites qui existaient déja dans d'autres jeux de caractères standard. Mais depuis la version 1.0 de la norme, cette position n'est pas restée immuable, et comme ça fait bientot 5 ans que je n'ai pas parlé à des gens impliqués dans l'évolution de cette norme, je ne sais ce qu'il en est de nos jours.
Voir le profil du Babélien Envoyer un message personnel
yves



Inscrit le: 07 Aug 2007
Messages: 397
Lieu: Nevers

Messageécrit le Tuesday 21 Oct 08, 23:25 Répondre en citant ce message   

Pour le "ij" néerlandais, cela pose-t-il problème de considérer séparément les deux lettres comme produisant un son, comme les autres polygrammes cités.
Voir le profil du Babélien Envoyer un message personnel
hunnamkuerf



Inscrit le: 20 Feb 2008
Messages: 248
Lieu: Berlin

Messageécrit le Wednesday 22 Oct 08, 10:09 Répondre en citant ce message   

Là où l'affaire se complique, c'est quand je cherche des horaires sur différents sites Internet.
Quand je recherche sur le site de la Deutsche Bahn, et que j'entre "Genève", je me vois opposer une fin de non-recevoir. C'est "Geneve" qu'il faut écrire.
Sur le site ZVON "Communauté de transports intégrés Haute-Lusace-Basse-Silésie", si je cherche à "Weisswasser", rien ne se passe. C'est "Weißwasser" qu'il faut écrire.
Et quant aux sites d'horaires polonais, c'est du délire: hors du ą, ć, ę, ł, ń, ó, ś, ź, ż. point de salut.
Les Tchèques sont plus raisonnables. Ils acceptent les entrées sans signes diacritiques, que du bonheur!
Voir le profil du Babélien Envoyer un message personnel
Montrer les messages depuis:   
Créer un nouveau sujet Répondre au sujet Forum Babel Index -> Langues d'ici & d'ailleurs
Page 1 sur 1









phpBB (c) 2001-2008