| |
4,3,3 Buchstabenkodierung in den Wesen Jedes externe analysierte Wesen in einem XML-Dokument kann eine andere kodierung für seine Buchstaben verwenden. Alle XML-Prozessoren müssen in der LageSEIN, Wesen die Encodings in Utf-8 und in Utf-16 zu lesen. Die Bezeichnungen "Utf-8" und "Utf-16" in dieser Spezifikation treffen nicht auf Buchstabenencodings mit irgendwelchen anderen Aufklebern zu, selbst wenn die Encodings oder die Aufkleber Utf-8 oder Utf-16 sehr ähnlich sind. Die Wesen, die in Utf-16 kodiert werden, müssen mit der Byteauftragsmarkierung anfangen, die durch Anhang F von beschrieben wird [ ISO/IEC 10646] [ p.47 ], Anhang H von [ ISO/IEC 10646-2000 ] [ p.47 ], Abschnitt 2,4 von [ Unicode ] [ p.48 ] und Abschnitt 2,7 von [ Unicode3 ] [ p.48 ] (der unterbrechungsfreie RAUM-Buchstabe DER NULLCBreite, # xFEFF). Dieses ist kodierenunterzeichnung, nicht Teil entweder des Preisaufschlags oder der Textdaten des XML-Dokumentes. XML die Prozessoren müssen in der LageSEIN, diesen Buchstaben zu benutzen, um zwischen Utf-8 und Utf-16 zu unterscheiden kodiert Dokumente. Obgleich ein XML-Prozessor angefordert wird, nur Wesen die Encodings in Utf-8 und in Utf-16 zu lesen, ist er erkannt, daß andere Encodings um die Welt verwendet werden und es kann für XML-Prozessoren zu gewünscht werden lesen Sie Wesen, die sie benutzen. In Ermangelung der kodiereninformationen des externen Buchstabens (wie MIME Überschriften), analysierte Wesen, die in einer kodierung anders als Utf-8 oder Utf-16 gespeichert werden, müssen mit a anfangen Texterklärung (sehen Sie 4,3,1 die Texterklärung [ p.37 ]) eine kodierenerklärung enthalten: KodierencErklärung [ 80 ] EncodingDecl ::= S [ p.8 ] ' kodieren' Eq [ p.12 ] (' "' EncName [ p.38 ] ' "'|"'" EncName [ p.38 ] "'") [ 81 ] EncName ::= [ A-Za-z ] ([ A-Za-z0-9. _ ]| '-')* /* kodierenname enthält nur Lateinische Buchstaben */ Im Dokumentwesen [ p.44 ], ist die kodierenerklärung ein Teil der XML-Erklärung [ p.11 ]. EncName [ p.38 ] ist der Name der verwendeten kodierung. In einer kodierenerklärung die Werte "Utf-8 ", "Utf-16 ", "Iso-10646-ucs-2 "und "Iso-10646-ucs-4 "sollte für die verschiedenen Encodings und die Umwandlungen von Unicode verwendet werden/ ISO/IEC 10646, die Werte "Iso-8859-1 ", "Iso-8859-2 "... "Iso-8859- n "(wo n ist das Teil Zahl) sollte für die Teile von ISO 8859 und die Werte "Iso-2022-jp verwendet werden ", "Shift_JIS "und "Euc-jp "sollte für die verschiedenen kodierten Formen von JIS X-0208-1997 verwendet werden. Es wird dem empfohlen Buchstabenencodings registrierten (als charset S) mit dem Internet Assigned Numbers Authority [ IANA-charsets ] [ p.47 ], anders als die, die gerade verzeichnet werden, beziehen Sie, ihre Registerbezeichnungen verwendend; anderes Encodings sollten Namen beginnend mit einem "x verwenden -" Präfix. XML-Prozessoren sollten Buchstaben zusammenbringen kodierennamen in einer Schachtel-unempfindlichen Weise und sollten irgendein einen IANA-eingetragenen Namen als deuten die kodierung, die an IANA für diesen Namen registriert wird oder, behandeln ihn als Unbekanntes (Prozessoren werden selbstverständlich nicht angefordert alle IANA-eingetragenen Encodings stützen). 38 4,3 Analysierte Wesen |  |
|
| |
|
|