Diacritiques et informatique

Outis · Animateur Inscrit le: 07 Feb 2007 Messages: 3510 Lieu: Nissa

Pour affiner la description de leur système phonétique au moyen de l'alphabet romain, certaines langues (par le biais des États) ont préféré utiliser des polygrammes (pol. Szczecin, all. Schmierfett, fr. chair), mais d'autres des diacritiques (fr. çà), beaucoup un mélange des deux, rares cependant sont celles qui ont été jusqu'à introduire des caractères nouveaux (all. Fußgänger, néerl. Rĳksmuseum (*), fr. fœtus).

Tout ceci trouvait bien sûr sa place dans les casses de plomb des éditeurs concernés, voire sur les touches des machines à écrire, et n'a posé aucun problème jusqu'à l'arrivée de l'informatique.

Confondants d'internationalisme, les étazuniens, longtemps seuls maîtres à bord de la discipline et omnipotents dans les instances de normalisation, ont évidemment considéré tout signe diacritique comme suspect d'anti-américanisme et, dès le départ (ASCII 7-bits), ceux-ci n'ont pas été codés.

On pourrait croire qu'après un demi-siècle de bricolages puis de renormalisations, l'arrivée d'abord de ISO Latin-1, puis d'Unicode a résolu les problèmes. Hélas, ce n'est pas le cas et, les décideurs des comités de normalisation étant le plus souvent d'incultes ingénieurs, certains caractères manquent toujours à l'appel.

Pour ISO Latin-1, on pourra se régaler et s'effarer à la lecture de cet article commentant l'absence de nos français Ÿ, œ et Œ ou des néerlandais ĳ et Ĳ :
http://www.gutenberg.eu.org/pub/GUTenberg/publicationsPDF/25-andre.pdf

Ceux-ci sont heureusement dans Unicode (sinon je n'aurais pu les écrire) mais c'est loin d'être le cas de tous les diacritiques, en particulier les combinaisons de ceux-ci.

Un exemple cocasse est celui des caractères de longue accentuée comme ḗ, ḕ, ṓ, ṑ, Ḗ, Ḕ, Ṓ et Ṑ. Ils ont été introduits dans Unicode pour permettre aux hellénistes (ceux qui transcrivent le grec ancien en caractères romains) de transcrire ή, ὴ, ώ, ὼ, Ή, Ὴ, Ώ et Ὼ.

C'est très gentil mais les ingénieux ingénieurs ont ignoré que, en grec ancien, même si cela n'apparaissait pas dans l'écriture, les autres voyelles, α, ι et υ, étaient aussi susceptibles d'être longues ou brèves et que c'est une distinction importante, aussi bien pour la versification que pour l'étymologie. Or, on a bien la possibilité d'écrire ά, ᾱ, á ou ā, mais surtout pas de combiner les deux !

Et ça ne concerne pas que le grec ancien ! Unicode contient tous les caractères permettant l'écriture romanisée du sanskrit (et donc d'un bon nombre de langues indiennes modernes) tels que ā, ṛ, ṝ, ṅ, ñ, ṭ, ḍ, ś, etc., mais les ingénieux ingénieurs ont ignoré que le plus fondamental des textes sacrés de l'hindouïsme, le Rg Veda, indiquait les accents toniques dans son écriture (tout comme la Torah et le Coran notent les voyelles) et que, là aussi, on avait besoin de longues accentuées !

Impossible donc actuellement d'écrire du sanskrit védique correctement, sauf à utiliser des outils d'édition comme LaTeX dont le paquetage tipa fournit toutes les possibilités requises par l'A.P.I.

Et c'est justement mon problème. Travaillant en vue d'un cours de védique je n'ai que deux (**) possibilités :
- ignorer les accents …
- produire du .pdf (avec LaTeX)
et ça m'énerve !

notes
(*) vous pouvez vérifier en déplaçant le curseur que ĳ est ici un seul caractère !
(**) en HTML on peut plus ou moins bricoler une mise en page plaçant des accents dans le paysage textuel mais le rendu est hélas dépendant des navigateurs, c'est en général assez moche …

gilou · Inscrit le: 02 Jan 2007 Messages: 1528 Lieu: Paris et Rambouillet

Outis, le défaut n'en revient pas à Unicode, qui a des pages d'accents (par exemple ici: http://www.unicode.org/charts/PDF/Unicode-3.2/U32-0300.pdf ) qui devraient pouvoir se combiner à plusieurs avec les caractères ordinaires, mais au support incomplet de cette norme dans la couche logicielle gérant l'affichage.
Moi aussi, ça m'énerve, lorsque je tape un texte sous un éditeur unicode, de voir mes accents se déplacer ailleurs, lorsque j'en fais un couper-coller dans la zone d'édition d'un browser web.

András · Animateur Inscrit le: 20 Nov 2006 Messages: 1487 Lieu: Timişoara, Roumanie

Outis · Animateur Inscrit le: 07 Feb 2007 Messages: 3510 Lieu: Nissa

@ András : je ne faisais pas de catégories, je donnais des exemples, c'est tout …

@ gilou : tout le problème des « diacritiques à tout faire » que sont les caractères de préparation, c'est que toutes les polices ne les implémentent pas et qu'ils ne sont pas associatifs (essaye de faire un a long accent aigu, tu verras) ; c'est pourquoi je les évite systématiquement et préfère utiliser les caractères qui ont déjà leur accent, ce qui est d'ailleurs le standard conceptuel d'Unicode.

gilou · Inscrit le: 02 Jan 2007 Messages: 1528 Lieu: Paris et Rambouillet

C'est encore un problème d'implémentation: ils sont associatifs, et la spécification unicode le montre à travers divers exemples. Par contre, nombre d'implémentations ne sont pas capables de traiter correctement cette associativité et en particulier, la majorité de celles qui utilisent un composant logiciel "texte formaté" fourni avec une librairie standard, composant dont le moteur de rendu ("rasterizer") sous-jacent ne gère pas correctement cette associativité mais utilise un des modes dégradé prévu dans la spec unicode.
[Plus précisément, c'est la couche logicielle faisant appel au moteur de rendu qui ne fait pas la gestion correcte des diacritiques, à priori]
Bon, si un jour, Adobe ou Bitstream mettent en open-source le code de leurs moteurs de rendu propriétaires, le problème de la bonne gestion des diacritiques disparaitra, mais je ne pense pas que ce soit pour demain.

yves · Inscrit le: 07 Aug 2007 Messages: 397 Lieu: Nevers

Pour le "ij" néerlandais, cela pose-t-il problème de considérer séparément les deux lettres comme produisant un son, comme les autres polygrammes cités.

hunnamkuerf · Inscrit le: 20 Feb 2008 Messages: 248 Lieu: Berlin

Là où l'affaire se complique, c'est quand je cherche des horaires sur différents sites Internet.
Quand je recherche sur le site de la Deutsche Bahn, et que j'entre "Genève", je me vois opposer une fin de non-recevoir. C'est "Geneve" qu'il faut écrire.
Sur le site ZVON "Communauté de transports intégrés Haute-Lusace-Basse-Silésie", si je cherche à "Weisswasser", rien ne se passe. C'est "Weißwasser" qu'il faut écrire.
Et quant aux sites d'horaires polonais, c'est du délire: hors du ą, ć, ę, ł, ń, ó, ś, ź, ż. point de salut.
Les Tchèques sont plus raisonnables. Ils acceptent les entrées sans signes diacritiques, que du bonheur!