Главная // Актуальные документы // ГОСТ Р (Государственный стандарт)
СПРАВКА
Источник публикации
М.: Стандартинформ, 2014
Примечание к документу
Документ введен в действие с 01.01.2015.
Название документа
"ГОСТ Р ИСО 24616-2013. Национальный стандарт Российской Федерации. Менеджмент языковых ресурсов. Многоязычная информационная система"
(утв. и введен в действие Приказом Росстандарта от 08.11.2013 N 1385-ст)

"ГОСТ Р ИСО 24616-2013. Национальный стандарт Российской Федерации. Менеджмент языковых ресурсов. Многоязычная информационная система"
(утв. и введен в действие Приказом Росстандарта от 08.11.2013 N 1385-ст)


Содержание


Утвержден и введен в действие
Приказом Федерального агентства
по техническому регулированию
и метрологии
от 8 ноября 2013 г. N 1385-ст
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
МЕНЕДЖМЕНТ ЯЗЫКОВЫХ РЕСУРСОВ.
МНОГОЯЗЫЧНАЯ ИНФОРМАЦИОННАЯ СИСТЕМА
Language resources management.
Multilingual information framework
ISO 24616:2012
Language resources management - Multilingual
information framework
(IDT)
ГОСТ Р ИСО 24616-2013
ОКС 01.020
Дата введения
1 января 2015 года
Предисловие
1 ПОДГОТОВЛЕН ЗАО "Проспект" на основе собственного аутентичного перевода на русский язык международного стандарта, указанного в пункте 4
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 55 "Терминология, элементы данных и документация в бизнес-процессах и электронной торговле"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 8 ноября 2013 г. N 1385-ст
4 Настоящий стандарт идентичен международному стандарту ИСО 24616:2012 "Менеджмент языковых ресурсов. Многоязычная информационная система" (ISO 24616:2012 "Language resources management - Multilingual information framework").
При применении настоящего стандарта рекомендуется использовать вместо ссылочных международных стандартов соответствующие им национальные стандарты Российской Федерации, сведения о которых приведены в дополнительном приложении ДА
5 ВВЕДЕН ВПЕРВЫЕ
Правила применения настоящего стандарта установлены в ГОСТ Р 1.0-2012 (раздел 8). Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (gost.ru)
1 Область применения
Настоящий стандарт предоставляет общую платформу для моделирования и организации многоязычной информации в различных областях применения, таких как локализация, перевод, мультимедийное аннотирование, управление документооборотом, поддержка электронных библиотек и разнообразные прикладные информационные модели и моделирование предприятий. Описываемая в стандарте многоязычная информационная система MLIF (multilingual information framework) содержит в себе метамодель и совокупность общих категорий данных (по ИСО 12620:2009) для различных областей применения. В рамках MLIF описываются также соответствующие стратегии связывания и обеспечения взаимодействия, в частности, между моделями XLIFF, TMX, smilText и ITS.
2 Нормативные ссылки
В настоящем стандарте использованы нормативные ссылки на следующие стандарты, которые необходимо учитывать при использовании настоящего стандарта. В случае ссылок на документы, у которых указана дата утверждения, необходимо пользоваться только указанной редакцией. В случае, когда дата утверждения не приведена, следует пользоваться последней редакцией ссылочных документов, включая любые поправки и изменения к ним.
ИСО 12620:2009, Терминология, другие языковые ресурсы и ресурсы содержания. Спецификация категорий данных и ведение реестра категорий данных для языковых ресурсов (ISO 12620:2009, Terminology and other language and content resources - Specification of data categories and management of a Data Category Registry for language resources)
ИСО 8879, Обработка информации. Текстовые и офисные системы. Стандартный обобщенный язык разметки (SGML) (ISO 639-1:2002, Information processing; Text and office systems; Standard Generalized Markup Language (SGML))
3 Термины и определения
3.1 обрамление (adornment): Категория данных, присваиваемая компоненту метамодели.
3.2 внутристрочный код (inline code): Команда, встроенная в первичный документ.
Примечание - такой внутренний код может содержать в себе инструкции по оформлению (например, коды HTML).
3.3 субтитр (subtitle): Текстовое представление диалога в кинофильмах, телепрограммах, видеоиграх и т.п., обычно отображаемое в нижней строке экрана.
3.4 рабочий язык (working language): Язык, на котором представляются лингвистические последовательности.
4 Принципы представления спецификации
4.1 Ключевой нормативный документ спецификации - унифицированный язык моделирования UML (Unified Modeling Language)
Спецификация MLIF соответствует принципам моделирования UML, которые определены Консорциумом по разработке и продвижению объектно-ориентированных технологий Object Management Group (OMG) [UML]. В спецификации используется подмножество языка UML, подходящее для целей MLIF.
4.2 Метамодель и ее расширение
Как и в системе терминологической разметки TMF (Terminological Markup Framework), описанной в ИСО 16642, спецификация MLIF определяет метамодель, которая "обрамлена" категориями данных, определенными в ИСО 12620.
4.3 Сериализация XML
Наряду со средствами языка XML, определенными в ИСО 8879, спецификация MLIF вместе с метамоделью и ее обрамлением обеспечивает тип представления на языке XML, называемый "сериализацией XML".
5 Спецификация метамодели
Метамодель MLIF представлена в виде диаграммы объектов на рисунке 1.
Рисунок 1 - Метамодель MLIF
Метамодель MLIF определяется следующими шестью "центральными компонентами", представленными ниже в том порядке, который задается сериализацией XML:
- <MLDC> (Multilingual Data Collection) - многоязычная коллекция данных, которая содержит общую информацию и несколько многоязычных блоков;
- <GI> (Global Information) - общая информация, содержащая сведения технического и административного характера, касающиеся всей коллекции многоязычных данных;
- <GroupC> (Grouping components) - компоненты группировки, представляющие собой подчиненную коллекцию многоязычных данных с общим источником или с общим целевым назначением в рамках конкретного проекта;
- <MultiC> (Multilingual Component) - многоязычный компонент, в рамках которого сгруппированы все варианты данного текстового контента;
- <MonoC> (Monolingual Component) - одноязычный компонент, в рамках которого сгруппирована информация, относящаяся к одному языку, и который является частью многоязычного компонента (MultiC);
- <HistoC> (History Component) - компонент предыстории, отслеживающий изменения того компонента, к которому он привязан (т.е. отслеживающий версии);
- <SegC> (Segmentation Component) - компонент сегментации, позволяющий производить сегментацию текстовой информации на любом уровне; такая сегментация может быть рекурсивной.
6 Соответствие MLIF
Для обеспечения соответствия настоящему стандарту необходимо, чтобы в рамках используемого формата метамодель MLIF применялась одним из двух возможных способов:
- путем ее полномасштабной реализации, начиная с уровня <MLDC> или
- посредством специального вложения информации, совместимой с MLIF, в другую модель путем реализации одного из элементов MLIF более низкого уровня, а именно - <GroupC>, <MultiC> или <MonoC>.
7 Обрамление метамодели
7.1 Вводные замечания
ИС МЕГАНОРМ: примечание.
В официальном тексте документа, видимо, допущена опечатка: имеется в виду приложение Ж, а не J.
В результате выполнения XML-сериализации метамодели MLIF получается совокупность элементов и атрибутов XML, которые описываются в последующих разделах, где символы "<" и ">" являются разделителями имени элемента. В соответствии с рекомендациями TEI (http://www.tei-c.org), некоторые атрибуты определяются их классом, с учетом соглашения, что имени атрибута "класс" должен предшествовать префикс "att." (например, "att.xlink"). Перечисление других XML-атрибутов осуществляется в соответствии с соглашением о заключении имени атрибута в кавычки (например, "xml:lang"). При этом должны применяться спецификации, представленные в приложении J.
7.2 Общие принципы использования обобщенных атрибутов консорциума W3C
Во всех приложениях, соответствующих спецификации MLIF, подлежат использованию следующие атрибуты W3C:
- согласно рекомендациям W3C, для представления рабочего языка следует использовать атрибут xml:lang, особенно при систематическом повторении реализации MonoC;
- согласно рекомендациям W3C, в качестве уникального идентификатора элемента метамодели MLIF должен использоваться атрибут xml:id.
7.3 Рекомендуемое обрамление для компонентов GI
- <domain>
- <project>
- <source>
- <sourceType>
- <sourceLanguage>
- <sourceFormat>
- <targetLanguage>
- <formatVersion>
- <legalStatus>
- <creationTool>
- <creationToolVersion>
- <creationDate>
- <creationIdentifier>
- <changeDate>
- <changeIdentifier>
7.4 Рекомендуемое обрамление для компонентов GroupC
- <groupType>
7.5 Рекомендуемое обрамление для компонентов MultiC
- <class>
- <changeDate>
- <changeIdentifier>
- <creationTool>
- <creationToolVersion>
- <creationIdentifier>
- <creationDate>
- <translationStatus>
- <matchQuality>
7.6 Рекомендуемое и обязательное обрамление для компонентов MonoC
- att.lang
- <translationRole>
- <segmentation>
- att.xlink
Атрибут языка обязателен только в случае компонента MonoC. Во всех остальных случаях этот атрибут не обязателен.
7.7 Рекомендуемое обрамление для компонентов SegC
- <traslationRole>
- <beginPairedTag>
- <endPairedTag>
- <genericGroupPlaceholder>
- <placeholder>
- <genericPlaceholder>
- <transnlate>
- att.linguistic
- att.xlink
7.8 Рекомендуемое обрамление для компонентов HistoC
HistoC - это обобщенный компонент, отслеживающий изменения того компонента, к которому он привязан (например, его создание, модификацию и контроль). В метамодели MLIF компонент HistoC может быть привязан к компонентам GI, MultiC или MonoC. Это обеспечивает возможность регистрации всех изменений или расширений контролируемого компонента.
Компонент HistoC может быть обрамлен четырьмя элементами:
- <author>
- <version>
- <transaction>
- <date>
7.9 Рекомендуемое обрамление для оперативного аннотирования
Многоязычные текстовые документы зачастую бывают всего лишь одним из этапов формирования сложного информационного потока, в котором задействованы внешние источники документов, представленных в самых разных форматах. Поэтому часто возникает потребность во внутреннем механизме разметки, который указывает, какие свойства представляемой информации подлежат сохранению в целевом переводном документе. Отсюда следует, что в приложениях, совместимых с MLIF, применительно к элементам <SegC>, которые отображаются на аналогичные подмножества в TMX и XLIFF, должны использоваться следующие элементы:
- <beginPairedTag>
- <endPairedTag>
- <genericGroupPlaceholder>
- <genericPlaceholder>
- <placeholder>
7.10 Рекомендуемое обрамление для локализации
Для предоставления информации, имеющей отношение к локализации, должны использоваться все следующие элементы:
- <translationRole>
- <translationStatus>
7.11 Рекомендуемое обрамление для интернационализации
- <translate>
7.12 Рекомендуемое обрамление для временной синхронизации
В тех случаях, когда текстовый контент подлежит передаче (в письменной или устной форме) вместе с действующими ограничениями, должны использоваться следующие элементы:
- <duration>
- <begin>
- <next>
8 Связи с другими стандартами
Подобно структуре терминологической разметки TMF в сфере терминологии [ИСО 16642], многоязычная информационная структура MLIF представляет собой метамодель, которая в сочетании с определенными категориями данных обеспечивает взаимодействие между несколькими многоязычными приложениями и корпусами. MLIF работает с многоязычными корпусами, многоязычными фрагментами, которые связаны между собой отношениями перевода. Применительно к каждой сфере использования MLIF могут устанавливаться конкретные ограничения по крупности разбиения для целей сегментации и описания. Два этих процесса могут выполняться на основе MAF [ИСО 24611], SynAF [ИСО 24615] и TMF - для морфологического описания, синтаксического аннотирования и терминологического описания, соответственно.
MLIF поддерживает функции создания и организации взаимодействия ресурсов локализации и ресурсов памяти переводов, а также обеспечивает описание метамодели многоязычного контента. В рамках MLIF не предлагается какой-то исчерпывающий перечень элементов такого описания, а лишь устанавливается список категорий данных, который может легко обновляться и расширяться. Этот список является отправным пунктом для содержательной многоязычной информации в контексте многочисленных сценариев приложений.
Однако MLIF не только описывает элементарные лингвистические сегменты (например, предложение, синтаксический фрагмент, слово или часть речи), но может также использоваться для представления структуры документа (к примеру, заголовка, аннотации, абзаца и раздела). Кроме того, MLIF позволяет устанавливать внешние и внутренние связи (через аннотации и ссылки).
MLIF предназначается для обеспечения удобной общей основы взаимодействия систем, работающих с разными форматами, такими как TMX (LISA OSCAR) и XLIFF (OASIS). MLIF может рассматриваться как родительский уровень этих форматов, поскольку каждый из них присущ многоязычным данным, выраженным в форме сегментов или текстовых единиц, и может храниться, участвовать в разных операциях и переводиться одинаковым способом. Примеры использования MLIF приведены в приложениях А - Е.
Приложение А
(справочное)
ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ MLIF В СИСТЕМАХ АВТОМАТИЗИРОВАННОГО
ПЕРЕВОДА (CAT)
Основная причина использования таких элементов, как лемма, часть речи и морфологические особенности, состоит в том, чтобы обеспечить инструментальным средствам CAT систем переводческой памяти (translation memory) возможность перевода новых слов и предложений, отсутствующих в базе переводов.
Например, в рамках памяти переводов, которая содержит английское предложение "The meal is nice" и его перевод на французский язык "Le repas est bon", существующие инструментальные средства наподобие модуля Translator's Workbench системы SDL TRADOS <1> не способны самостоятельно вывести перевод предложения "The meals are nice", даже несмотря на то, что текстовые леммы "The meal is nice" и "The meals are nice" фактически совпадают. Причина подобной слабости систем CAT заключается в том, что в них в процессе перевода используется строго ограниченный набор лингвистических критериев.
--------------------------------
<1> SDL TRADOS Translator's Workbench является примером подходящего продукта, имеющегося в продаже. Эта информация приведена исключительно для удобства пользователей настоящего стандарта и не может рассматриваться как рекомендация ИСО относительно использования вышеуказанного продукта.
Так, информация, порождаемая модулем TRADOS, который называется "Translator's Workbench", выглядит следующим образом:
<tmx version="1.4">
<header
creationtool="TRADOS Translator's Workbench for Windows"
creationtoolversion="Edition 8 Build 863"
segtype="предложение"
o-tmf="формат TW4Win 2.0"
adminlang="EN-US"
srclang="EN-GB"
datatype="rtf"
creationdate="20100528T144322Z" creationid="ПОЛЬЗОВАТЕЛЬ">
<body>
<tu creationdate="20100528T144322Z" creationid="USER">
<tuv xml:lang="EN-GB">
<seg>The meal is nice.</seg>
</tuv>
<tuv xml:lang="FR-FR">
<seg>Le repas est bon.</seg>
</tuv>
</tu>
</body>
</tmx>
Для перевода заканчивающегося точкой предложения "The meals are nice" MLIF-совместимое инструментальное средство должно реализовать процедуру, представленную ниже.
Шаг 1: представить в рамках MLIF и добавить соответствующие лингвистические свойства применительно ко всем словам, находящимся в памяти переводов.
Шаг 2: запустить программу разметки частей речи для работы над предложением с целью получения правильных категорий морфосинтаксических категорий слов.
Шаг 3: перевести леммы, используя двуязычный англо-французский словарь.
Шаг 4: обратиться к французскому словарю форм склонения для извлечения корректной падежной формы с учетом леммы и морфологических особенностей.
Шаг 5: дать перевод предложения "The meals are nice" посредством замены каждого английского слова его французской падежной формой по следующей схеме:
"The meals are nice." => "Les repas sont bons."
Данные на языке XML должны содержать объявление структуры элемента путем определения набора тегов (например, для "nS"), сегментированное слово и набор тегов, определенный в MAF:
<MLDC xmlns="http://www.tei-c.org/ns/1.0">
<tei:fLib>
<tei:f xml:id="nS" name="grammaticalNumber" fVal="единственное число"/>
<tei:f xml:id="gM" name="grammaticalGender" fVal="мужской род"/>
<tei:f xml:id="mP" name="verbFormMood" fVal="настоящее время"/>
<tei:f xml:id="p1" name="лицо" fVal="третьеЛицо"/>
<tei:f xml:id="nS" name="grammaticalNumber" fVal="единственное число"/>
</fLib>
<GroupC>
<MultiC>
<creationIdentifier>SEMMAR</creationIdentifier>
<creationDate>20090922T140653Z</creationDate>
<MonoC xml:lang="en">
<SegC>The meal is nice.</SegC>
</MonoC> <MonoC xml:lang="fr">
<SegC>Le repas est bon.</SegC>
</MonoC>
</MultiC>
<MultiC class="translation">
<MonoC xml:lang="en">
<SegC class="word" lemma="the" pos="definiteArticle">The</SegC>
<SegC
class="word"
lemma="meal"
pos="commonNoun"
tag="#nS">meal</SegC>
<SegC
class="word"
lemma="be"
pos="verb"
tag="#mP #p1 #nS">is</SegC>
<SegC class="word" lemma="nice" pos="qualifierAdjective">nice</SegC>
<SegC class="word" lemma="." pos="mainPunctuation">.</SegC>
</MonoC>
<MonoC xml:lang="fr">
<SegC
class="word"
lemma="le"
pos="definiteArticle"
tag="#gM #nS">Le</SegC>
<SegC
class="word"
lemma="repas"
pos="commonNoun"
tag="#gM #nS">repas</SegC>
<SegC
class="word"
lemma=
pos="verb"
tag="#mP #p1 #nS">est</SegC>
<SegC
class="word"
lemma="bon"
pos="qualifierAdjective"
tag="#gM #nS">bon</SegC>
<SegC class="word" lemma="." pos="mainPunctuation">.</SegC>
</MonoC>
</MultiC>
</GroupC>
</MLDC>
Приложение Б
(справочное)
ПРИМЕР: ПРЕДСТАВЛЕНИЕ ДАННЫХ В ФОРМАТЕ TMX
Б.1 Введение
TMX (Translation Memory eXchange) - это открытый стандарт среды XML для обмена данными памяти переводов (Translation Memory), созданными в рамках системы автоматизированного перевода (CAT) и инструментальными средствами локализации. Назначение стандарта TMX состоит в том, чтобы упростить такой обмен между CAT и поставщиками переводческих услуг, минимизировав или полностью исключив в рамках этого процесса потерю критической информации. Формат TMX, присутствующий на рынке с 1998 года, представляет собой стандарт, по которому осуществляется сертификация. Он был разработан и поддерживается Специальной группой OSCAR по открытым стандартам для информационных контейнеров и контента повторного использования (Open Standards for Container/Content Allowing Re-use) Ассоциации по стандартам в области локализации (LISA).
Б.2 Отображение формата TMX на формат MLIF
Формат TMX практически изоморфен метамодели MLIF. Ключевые элементы макроструктуры TMX отображаются на формат MLIF следующим образом:
- элемент <tmx> отображается на элемент <MLDC>;
- элемент <header> отображается на элемент <GI>;
- элемент <body> становится контейнером для элемента <tuv> и отображается на элемент <GroupC>;
- элемент <tu> отображается на элемент <MultiC>;
- элемент <tuv> отображается на элемент <MonoC>;
- <seg> отображается на элемент <SegC>;
- элемент <hi> описания шрифта отображается на шрифтовой элемент <SegC>.
Далее порядок отображения элементов TMX и их атрибутов на элементы MLIF следующий:
- Атрибут "creationtool" отображается на элемент <creationTool>;
- Атрибут "creationdate" отображается на элемент <creationDate>;
- Атрибут "tuid" отображается на элемент <creationIdentifier> внутри MultiC.
- Элемент <prop> не отображается ни на какой конкретный элемент, поскольку он представляет собой заполнитель для данных, зависящих от приложения. При возможности конкретный элемент <prop> явным образом отображается на элементы MLIF или на стандартизованную категорию данных комитета ISO/TC 37, доступную в ISOCat.
Б.3 Пример данных
В приведенном ниже примере, относящемся к TMX версии 1.4, внимание сосредоточивается на многоязычных блоках TMX-документа, и не воспроизводятся все детали заголовка.
<tmx version="1.4">
<header
adminlang="en"
creationdate="20040731T164933Z"
creationtool="Heartsome TM Server"
creationtoolversion="1.0.1"
datatype="xml"
o-tmf="unknown"
segtype="block"
srclang="*all*"/>
<body>
<tu creationdate="20020930T004233Z" tuid="1091303313515">
<tuv xml:lang="fr">
<seg>Le processus de <hi xml:id="X3" type="term">
de </hi> en dix qu'il a il y a plus
de 1300 ans est beaucoup plus complet et que ceux
existant aujourd'hui.</seg>
</tuv>
<tuv xml:lang="en">
<seg>His 10-stage <hi corresp="#X3" type="term">quality
control</hi> process initiated more than 1300 years
ago is far more thorough and exacting than any existing
today.</seg>
</tuv>
<tuv xml:lang="es">
<seg>El proceso de <hi corresp="#X3" type="term">control de
calidad</hi> en diez pasos que hace de
1300 es mucho completo y preciso que los que
existen en la actualidad.</seg>
</tuv>
<tuv xml:lang="it">
<seg>ll suo metodo di <hi corresp="#X3" type="term">controllo di
</hi> in 10 fasi risale a 
di 1300 anni fa ed
molto accurato e preciso di
qualsiasi metodo attuale.</seg>
</tuv>
<tuv xml:lang="ko">
<seg> <hi corresp="#X3"
type="term">
</hi> .</seg>
</tuv>
</tu>
</body>
</tmx>
Соответствующее представление в MLIF, выбираемое по умолчанию, будет иметь вид:
<MLDC>
<GI> <sourceFormat>TMX</sourceFormat>
<formatVersion>1.4</formatVersion>
<creationDate>20040731T164933Z</creationDate>
<creationTool>Heartsome TM Server</creationTool>
<creationToolVersion>1.0.1</creationToolVersion>
</GI>
<GroupC>
<MultiC>
<creationIdentifier>1091303313515</creationIdentifier>
<creationDate>20020930T004233Z</creationDate>
<MonoC xml:lang="fr">
<SegC>Le processus de <SegC xml:id="X3" type="term">
de </SegC> en dix qu'il a il y a
plus de 1300 ans est beaucoup plus complet et que
ceux existant aujourd'hui.</SegC>
</MonoC>
<MonoC xml:lang="en">
<SegC>His 10-stage <SegC corresp="#X3" type="term">quality
control</SegC> process initiated more than 1300
years ago is far more thorough and exacting than any
existing today.</SegC>
</MonoC>
</MultiC>
</GroupC>
</MLDC>
Б.4 Пример взаимодействия между TMX и MLIF
Рисунок Б.1 иллюстрирует взаимодействие между TMX и MLIF. Этот процесс состоит из последовательных шагов извлечения, перевода и слияния. Начинается он с рассмотрения TMX-документа (TMX-Document) с лингвистическим контентом на английском (en) и немецком (de) языках. Процедура извлечения (Extract) (1) порождает так называемый "скелетный файл" (2), содержащий всю информацию о форматировании памяти переводов (TM), и лингвистический контент документа MLIF (3), в котором хранится лишь релевантная лингвистическая информация. Так как большинство переводчиков (каковыми могут быть и люди, и автоматические программные модули) работает с инструментальными средствами TMX, ориентированными на использование программных модулей, список стилей XSL делает возможным преобразование документа MLIF к документу TMX. Файл стилей не содержит никакой информации о форматировании. Как только переводчик добавляет соответствующий японский перевод (ja), другим списком стилей XSL осуществляется преобразование (Transformation) TMX-документа к документу MLIF (4). Наконец, новый документ MLIF (содержащий перевод на японский язык) сливается со скелетным файлом для получения нового документа в формате TMX (5).
Рисунок Б.1 - Схема взаимодействия TMX и MLIF
Приложение В
(справочное)
ПРИМЕР ПРЕДСТАВЛЕНИЯ ДАННЫХ В ФОРМАТЕ XLIFF
В.1 Введение
Формат XLIFF предназначен для определения и продвижения приемлемой спецификации обмена объектами локализуемых программ и документов, а также соответствующими метаданными.
В.2 Отображение XLIFF на MLIF
Формат XLIFF отличается от метамодели MLIF тем, что он четко обозначает различие между исходным и целевым языками для моноязычной информации. Такое различие проводится путем соответствующего применения категории данных <translationRole> в элементе <MonoC> совместно с объявлениями языков (<sourceLanguage> и <targetLanguage>) в элементе <GI>.
Отображение ключевых элементов макроструктуры XLIFF на MLIF производится следующим образом:
- элемент <xliff> отображается на элемент <MLDC>;
- элемент <header> отображается на элемент <GI>;
- элемент <body> является контейнером для элемента <tuv> и отображается на элемент <GroupC>;
- элемент <phase> отображается на элемент <HistoC>;
- элемент <trans-unit> отображается на элемент <MultiC>;
- элемент <source> отображается на элемент <MonoC> и одновременно задает значение элемента <translationRole> для элемента <sourceLanguage>. Надлежащий текстовый контент помещается в элемент <SegC>;
- элемент <target> отображается на элемент <MonoC> и одновременно задает значение элемента <translationRole> для элемента <targetLanguage>. Надлежащий текстовый контент помещается в элемент <SegC>;
- элемент <alt-trans> отображается на элемент <MultiC> и одновременно задает значение элемента <translationStatus> для изменения.
Далее элементы и атрибуты XLIFF отображаются на элементы MLIF так:
- атрибут инструментария XLIFF отображается на элемент <creationTool>.
В.3 Пример данных
В следующем примере, основанном на XLIFF версии 1.2, основное внимание сосредоточено на двуязычной части документа XLIFF:
<xliff
xmlns="urn:oasis:names:tc:xliff:document:1.2"
version="1.2"
xml:lang="en"
xsi:schemaLocation="urn:oasis:names:tc:xliff:document:1.2 xliff-core-schema-1.2.xsd"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<file
source-language="en"
target-language="fr"
datatype="winres"
original="Sample1.rc">
<header/>
<body>
<group
restype="dialog"
resname="IDD_DIALOG1"
coord="0;0;186;57"
font="MS Sans Serif;8">
<trans-unit
id="1" restype="caption">
<source
xml:lang="en">Title</source>
<target
xml:lang="fr">Titre</target>
</trans-unit>
<trans-unit
id="2"
restype="label"
resname="IDC_STATIC"
coord="8;4;19;8">
<source
xml:lang="en">Path</source>
<target
xml:lang="fr">Chemin</target>
</trans-unit>
<trans-unit
id="3"
restype="check"
resname="IDC_CHECK1"
coord="8;40;41;10">
<source
xml:lang="en">Validate</source>
<target
xml:lang="fr">Valider</target>
</trans-unit>
<trans-unit
id="4"
restype="button"
resname="IDOK"
coord="129;7;50;14">
<source
xml:lang="en">OK</source>
<target
xml:lang="fr">OK</target>
</trans-unit>
<trans-unit
id="5"
restype="button"
resname="IDCANCEL"
coord="129;24;50;14">
<source
xml:lang="en">Cancel</source>
<target xml:lang="fr">Annuler</target>
</trans-unit>
</group>
</body>
</file>
</xliff>
Соответствующее стандартное представление MLIF будет иметь вид:
<MLDC>
<GI>
<sourceFormat>XLIFF</sourceFormat>
<formatVersion>1.2</formatVersion>
</GI>
<GroupC>
<GI>
<sourceLanguage>en</sourceLanguage>
<targetLanguage>fr</targetLanguage>
</GI>
<groupType>file</groupType>
<GroupC>
<groupType>body</groupType>
<MultiC xml:id="id1" >
<MonoC xml:lang="en">
<translationRole>sourceLanguage</translationRole>
<SegC>Title</SegC>
</MonoC>
<MonoC xml:lang="fr">
<translationRole>targetLanguage</translationRole>
<SegC>Titre</SegC>
</MonoC>
</MultiC>
<MultiC xml:id="id2">
<MonoC xml:lang="en">
<translationRole>sourceLanguage</translationRole>
<SegC>Path</SegC>
</MonoC>
<MonoC xml:lang="fr">
<translationRole>targetLanguage</translationRole>
<SegC>Chemin</SegC>
</MonoC>
</MultiC>
<MultiC xml:id="id3">
<MonoC xml:lang="en">
<translationRole>sourceLanguage</translationRole>
<SegC>Validate</SegC>
</MonoC>
<MonoC xml:lang="fr">
<translationRole>targetLanguage</translationRole>
<SegC>Valider</SegC>
</MonoC>
</MultiC>
<MultiC xml:id="id4">
<MonoC xml:lang="en">
<translationRole>sourceLanguage</translationRole>
<SegC>OK</SegC>
</MonoC>
<MonoC xml:lang="fr">
<translationRole>targetLanguage</translationRole>
<SegC>OK</SegC>
</MonoC>
</MultiC>
<MultiC xml:id="id5">
<MonoC xml:lang="en">
<translationRole>sourceLanguage</translationRole>
<SegC>Cancel</SegC>
</MonoC>
<MonoC xml:lang="fr">
<translationRole>targetLanguage</translationRole>
<SegC>Annuler</SegC>
</MonoC>
</MultiC>
</GroupC>
</GroupC>
</MLDC>
Приложение Г
(справочное)
ПРИМЕР: ПРЕДСТАВЛЕНИЕ ДАННЫХ МОДУЛЯ smilText
Г.1 Введение
В рамках рекомендаций консорциума W3C по языку разметки для создания интерактивных мультимедийных презентаций SMIL 3.0 (http://www.w3.org/TR/2008/REC-SMIL3-20081201), модули smilText предоставляют текстовый контейнерный элемент с явно определенной моделью контента для описания синхронизируемого текста (http://www.w3.org/TR/2008/REC-SMIL3-20081201/smil-text.html). Модуль smilText может стать важным прикладным контекстом для MLIF, так как связывает и синхронизирует мультимедийный и текстуальный типы контента.
Г.2 Использование общих атрибутов SMIL в MLIF
Общие схемы синхронизации, определенные в рекомендации по SMIL (Synchronized Multimedia Integration Language), могут применяться в рамках MLIF-совместимого контента для обеспечения механизмов синхронизации в текстовом контенте. Для этого в общую спецификацию MLIF интегрируются такие элементы SMIL, как "begin" (начать), "next" (следующий) и "dur" (длительность).
Г.3 Упрощенное отображение моноязычного контента
Типичным применением MLIF в соединении со SMIL является создание моноязычного результирующего продукта SMIL из многоязычной презентации в MLIF-совместимом формате. Такая потребность возникает при выборке контента, соответствующего конкретному языку, и его интеграции в один или несколько контейнеров <smilText> - например, в конструкцию <seq>. По возможности, существующая информация, касающаяся синхронизации, продвигается в информационные представления SMIL.
В этом плане ключевые отображения между MLIF и спецификацией smilText выполняются следующим образом:
- элементы <MonoC> отображаются на спецификацию <smilText> вместе со всеми соответствующими атрибутами (в частности - с характеристиками языка);
- элементы <SegC> отображаются однозначно на элементы <tev> вместе со всеми соответствующими дескрипторами (особенно - с дескрипторами временного типа).
Процедура вложения многоязычного контента в целостное информационное представление SMIL основана на использовании конструкций <switch> (переключатель) в рамках следующей скелетной схемы:
<switch xmlns:its="http://www.w3.org/2005/11/its">
<par systemLanguage="en">
<smilText
xml:id="TE30"
region="Contents"
dur="12s"
its:dir="ltr"
xml:lang="en"
its:translate="yes"> This is a sentence.</smilText>
</par>
<par systemLanguage="fr">
<smilText
xml:id="TF30"
region="Contents"
dur="12s"
its:dir="ltr"
xml:lang="fr"
its:translate="yes">Ceci est une
phrase.</smilText>
</par>
</switch>
Другие атрибуты, не относящиеся ко времени, как, например, регион, спецификацией MLIF не охватываются и, следовательно, должны формироваться отдельно от MLIF-совместимой структуры.
Возможно и обратное использование отображений - для формирования MLIF-совместимого контента из информационного представления SMIL. Такое применение ассоциируется обычно с подготовкой MLIF-совместимой структуры, которая в дальнейшем должна содержать в себе дополнительные переводы.
Г.4 Отображение элементов smilText на MLIF
Отображение элементов smilText на элементы MLIF выполняются следующим образом <2>:
--------------------------------
<2> Используемые определения взяты из рекомендации консорциума W3C по языку SMIL: http://www.w3.org/TR/2008/REC-SMIL3-20081201/smil-text.html.
- элемент <smilText> функционирует как логический и временной структурирующий компонент, который позволяет включать в SMIL-презентацию внутристрочный текстовый контент. Элемент smilText может также использоваться как внешний автономный синхронизируемый текстовый формат; это достигается путем применения профиля элемента smilText из версии SMIL 3.0;
- элемент <tev> определяет нужный "момент времени" внутри содержимого элемента smilText; в зависимости от значений атрибутов "begin" или "next" он планирует время, в течение которого должен воспроизводиться соответствующий текстовый контент (вплоть до следующего элемента <tev> либо <clear>, или до конца элемента smilText);
- производя отображение на элемент <SegC>, элемент <clear> определяет внутри блока контента smilText "момент времени", в который все блоки контента воспроизводимой области подвергаются очистке.
Перечисленные ниже атрибуты SMIL отображаются следующим образом:
- атрибут "dur" отображается на элемент <duration>;
- атрибут "begin" отображается на элемент <begin>;
- атрибут "next" отображается на элемент <next>.
Приложение Д
(справочное)
ПРИМЕР ИСПОЛЬЗОВАНИЯ MLIF ДЛЯ СУБТИТРИРОВАНИЯ
(ВСТАВКИ ТИТРОВ)
Д.1 Введение
Субтитры - это текстовые варианты диалогов в кинофильмах, телевизионных программах, видеоиграх и т.п., отображаемые иногда в нижней части экрана. Они могут представлять собой либо письменное представление диалога на том же языке, либо воспроизведение в письменной форме того же диалога на ином языке по сравнению с исходным языком диалога. В субтитры может включаться дополнительная информация - для оказания помощи глухим или плохо слышащим зрителям в отслеживании происходящего на экране диалога [SUB].
Специалисты по субтитрированию обычно работают со специализированными компьютерными программами и аппаратными средствами, где видеокадры хранятся в оцифрованной форме, благодаря чему нужный кадр отыскивается мгновенно. В дополнение к созданию субтитров такой специалист обычно определяет точные положения, в которых каждый субтитр должен появиться и исчезнуть. Применительно к кинофильму эта задача традиционно решается отдельным техническим персоналом. В конечном итоге создается файл, содержащий текст субтитров и позиционные маркеры, указывающие, когда каждый субтитр появляется и исчезает. Применительно к электронным носителям (телепередачам, видеофильмам и DVD-дискам) эти маркеры обычно шифруются временным кодом, а если субтитры предназначены для обычной кинопленки, то маркеры наносятся по длине ленты (с указанием расстояния в футах или метрах и номеров кадров).
Д.2 Использование MLIF для представления информации субтитров
Существует несколько форматов для субтитров. Одни из них стали стандартами де-юре (как, например, MPEG-4 TT), другие же, хотя и не являются стандартами де-юре, широко применяются во всем мире (например, формат SubRip, идентифицируемый расширением SRT). Формат SRT, видимо, наиболее популярен для внешних источников файлов субтитров.
Все форматы субтитров должны обеспечивать тот или иной способ синхронизации видео кадров с показом субтитров. Очевидно, что синхронизация означает привязку временных маркеров к текстовой информации.
Ниже приводится в качестве примера очень короткий фрагмент SRT-файла.
Фрагмент-1:
1
00:00:20,000
00:00:24,400
Субтитр номер один...
2
00:00:24,600
00:00:27,800
Субтитр номер два...
В настоящем приложении показывается, каким образом MLIF может использоваться применительно к субтитрам. Примеры Фрагмент-2 и Фрагмент-3 построены в соответствии с самой последней спецификацией SMIL, в частности, smilText.
Возможность использования MLIF для работы с многоязычными субтитрами очевидна, так как анализ любых представляемых MLIF-документов для извлечения SRT-файлов не представляет никаких проблем.
Однако в зависимости от заложенного сценария (или алгоритма) записи информация субтитров может представляться двумя разными способами.
При первом из них (Фрагмент-2) определяется одиночный элемент <MultiC>, и внутрь него вкладываются два элемента <MonoC> следующим образом:
Фрагмент-2:
<MLDC>
<GI/>
<GroupC>
<MultiC>
<MonoC/>
<MonoC/>
</MultiC>
</GroupC>
</MLDC>
При втором способе MLIF (Фрагмент-3) определяются два элемента <MultiC>, каждый из которых содержит внутри себя одиночный элемент <MonoC> соответствующей структуры:
Фрагмент-3:
<MLDC>
<GI/>
<GroupC>
<MultiC>
<MonoC/>
</MultiC>
<MultiC>
<MonoC/>
</MultiC>
</GroupC>
</MLDC>
Первый подход может быть более удобен в случае нескольких языковых пар, тогда как второй может оказаться удобней для фильтрации и отбора одного языка (например, можно легко выделить моноязычный блок).
Возможны и другие реализации - в зависимости от того, как должна извлекаться временная информация, ассоциируемая с представлением субтитров. В приведенных ниже примерах атрибуты SMIL используются двумя разными способами: с маркерами <end> (Фрагмент-4) или с маркерами <duration> (Фрагмент-5).
Фрагмент-4
<MLDC>
<GroupC>
<MultiC>
<MonoC xml:lang="ru">
<begin>00:12:28,928</begin>
<end>00:12:32,515</end>
<SegC>- Доброе утро.</SegC>
<SegC>- Д-р Лектор, меня зовут Кларис Старлинг.</SegC>
</MonoC>
<MonoC xml:lang="fr">
<begin>00:12:01,800</begin>
<end>00:12:05,270</end>
<SegC>- Bonjour.</SegC>
<SegC>- Dr Lecter, je m'appelle Clarice Starling.</SegC>
</MonoC>
</MultiC>
</GroupC>
</MLDC>
Фрагмент-5
<MLDC>
<GroupC>
<MultiC>
<MonoC xml:lang="ru">
<begin>00:12:28,928</begin>
<duration>3.607</duration>
<SegC>- Доброе утро.</SegC>
<SegC>- Д-р Лектор, меня зовут Кларис Старлинг.</SegC>
</MonoC>
<MonoC xml:lang="fr">
<begin>00:12:01,800</begin>
<duration>3.47</duration>
<SegC>- Bonjour.</SegC>
<SegC>- Dr Lecter, je m'appelle Clarice Starling.</SegC>
</MonoC>
</MultiC>
</GroupC>
</MLDC>
Д.3 Полномасштабный пример
Д.3.1 Введение
В следующем примере осуществляется привязка SRT-представления с совместимым форматом на базе MLIF.
Д.3.2 Исходные SRT-файлы
Д.3.2.1 Английские субтитры
Английские субтитры имеют вид:
1
00:00:32,560
00:00:35,119
The world is changed.
2
00:00:35,640
00:00:38,200
I see it in the water.
Д.3.2.2 Французские субтитры
Французские субтитры имеют вид:
1
00:00:32,560
00:00:35,119
Le monde a .
2
00:00:35,640
00:00:38,200
Je le vois dans l'eau.
Д.4 MLIF-представление - парные предложения
Результирующие данные MLIF на основе структуры Фрагмента-2 будут выглядеть так:
<MLDC>
<GI>
<HistoC>
<date>2008-11-30T17:31:57+01:00</date>
<author>Samuel CRUZ-LARA</author>
<version>0.1</version>
</HistoC>
</GI>
<GroupC>
<MultiC class="subtitles">
<MonoC xml:lang="en">
<SegC xml:id="id1en">
<SegC class="sentence">
<begin>00:00:32.560</begin>
<end>00:00:35.119</end>
<SegC class="word"> The</SegC>
<SegC class="word">world</SegC>
<SegC class="word">is</SegC>
<SegC class="word">changed</SegC>
<SegC class="punctuation">.</SegC>
</SegC>
</SegC> <SegC xml:id="id2en">
<SegC class="sentence">
<begin>00:00:35.640</begin>
<end>00:00:38.200</end>
<SegC class="word">I</SegC>
<SegC class="word">feel</SegC>
<SegC class="word">it</SegC>
<SegC class="word">in</SegC>
<SegC class="word">the</SegC>
<SegC class="word">water</SegC>
<SegC class="punctuation">.</SegC>
</SegC>
</SegC>
</MonoC>
<MonoC xml:lang="fr">
<SegC xml:id="id1fr">
<SegC class="sentence">
<begin>00:00:32.560</begin>
<end>00:00:35.119</end>
<SegC class="word">Le</SegC>
<SegC class="word">monde</SegC>
<SegC class="word">a</SegC>
<SegC class="word"></SegC>
<SegC class="punctuation">.</SegC>
</SegC>
</SegC>
<SegC xml:id="id2fr">
<SegC class="sentence">
<begin>00:00:35.640</begin>
<end>00:00:38.200</end>
<SegC class="word">Je</SegC>
<SegC class="word">le</SegC>
<SegC class="word">vois</SegC>
<SegC class="word">dans</SegC>
<SegC class="word">l'</SegC>
<SegC class="word">eau</SegC>
<SegC class="punctuation">.</SegC>
</SegC>
</SegC>
</MonoC>
</MultiC>
</GroupC>
</MLDC>
Д.5 MLIF-представление сценария вставки заголовков
Результирующие данные MLIF на основе структуры Фрагмента-3 будут выглядеть так:
<MLDC>
<GI>
<HistoC>
<date>2008-11-30T17:31:57+01:00</date>
<author>Samuel CRUZ-LARA</author>
<version>0.1</version>
</HistoC>
</GI>
<GroupC>
<MultiC class="subtitles">
<MonoC xml:lang="en">
<SegC xml:id="id1en">
<SegC class="sentence">
<begin>00:00:32.560</begin>
<end>00:00:35.119</end>
<SegC class="word">The</SegC>
<SegC class="word">world</SegC>
<SegC class="word">is</SegC>
<SegC class="word">changed</SegC>
<SegC class="punctuation">.</SegC>
</SegC>
</SegC>
<SegC xml:id="id2en">
<SegC class="sentence">
<begin>00:00:35.640</begin>
<end>00:00:38.200</end>
<SegC class="word">I</SegC>
<SegC class="word">feel</SegC>
<SegC class="word">it</SegC>
<SegC class="word">in</SegC>
<SegC class="word">the</SegC>
<SegC class="word">water</SegC>
<SegC class="punctuation">.</SegC>
</SegC>
</SegC>
</MonoC>
</MultiC>
<MultiC class="subtitles">
<MonoC xml:lang="fr">
<SegC xml:id="id1fr">
<SegC class="sentence">
<begin>00:00:32.560</begin>
<end>00:00:35.119</end>
<SegC class="word">Le</SegC>
<SegC class="word">monde</SegC>
<SegC class="word">a</SegC>
<SegC class="word"></SegC>
<SegC class="punctuation">.</SegC>
</SegC>
</SegC>
<SegC xml:id="id2fr">
<SegC class="sentence">
<begin>00:00:35.640</begin>
<end>00:00:38.200</end>
<SegC class="word">Je</SegC>
<SegC class="word">le</SegC>
<SegC class="word">vois</SegC>
<SegC class="word">dans</SegC>
<SegC class="word">l'</SegC>
<SegC class="word">eau</SegC>
<SegC class="punctuation">.</SegC>
</SegC>
</SegC>
</MonoC>
</MultiC>
</GroupC>
</MLDC>
Приложение Е
(справочное)
ИСПОЛЬЗОВАНИЕ МЕТАМОДЕЛИ MLIF ДЛЯ ПРЕДСТАВЛЕНИЯ ДАННЫХ MAF
Метамодель MLIF может использоваться для включения в контент существующих данных в формате, отличном от MLIF, - например порождаемых процессором естественного языка. Цель приводимого ниже примера состоит в том, чтобы показать, как надо представлять автономную аннотацию, выходящую из процесса морфосинтаксического анализа. Входная информация представляет собой текстовый фрагмент на английском языке "to eventually decide", в котором фигурирует разрывная глагольная форма. Проблема здесь заключается в сохранении положения каждого элемента в потоке словоформ. В следующем XML-фрагменте MLIF включение XML-элементов проводится без использования каких-либо трансформаций.
<MLDC
xmlns:maf="http://www.iso.org/ns/MAF">
<GroupC>
<MultiC>
<MonoC>
<maf:token xml:id="t1">to</maf:token>
<maf:token xml:id="t2">eventually</maf:token>
<maf:token xml:id="t3">decide</maf:token>
<maf:wordForm lemma="to decide" tokens="#t1 #t3"/>
<maf:wordForm lemma="eventually" tokens="#t2"/>
</MonoC>
</MultiC>
</GroupC>
</MLDC>
Приложение Ж
(обязательное)
ДЕТАЛИЗИРОВАННАЯ СПЕЦИФИКАЦИЯ
Ж.1 Общие положения
Настоящим стандартом в основном определяются общие принципы построения и применения метамодели MLIF. В настоящем приложении подробно рассматриваются различные классы MLIF и отношения, в которых они участвуют.
В данной спецификации каждый компонент метамодели реализуется как конкретный элемент, связывающий определенными отношениями другие элементы, участвующие в реализации метамодели MLIF.
Эта спецификация описывает также ряд категорий данных, который должен рассматриваться как нормативный в рамках любого применения MLIF. Такие категории можно также найти в реестре категорий данных, который ведется техническим комитетом ISO/TC 37 (на веб-странице www.isocat.org).
Ж.2 Классы моделей
Ж.2.1 Класс model.GIPart
model.GIPart
Группы элементов, которые могут присоединяться на уровне GI.
Использующий элемент
<GI>
Члены класса
<changeDate> <changeIdentifier> <creationDate> <creationIdentifier> <creationTool> <creationToolVersion> <domain> <formatVersion> <legalStatus> <project> <source> <sourceFormat> <sourceLanguage> <sourceType> <targetLanguage>
Ж.2.2 Класс model.GroupCPart
model.GroupCPart
Группы элементов, которые могут присоединяться на уровне GroupC.
Использующий элемент
<GroupC>
Члены класса
<groupType>
Ж.2.3 Класс model.HistoCPart
model.HistoCPart
Группы элементов, которые могут присоединяться на уровне HistoCI.
Использующий элемент
<HistoC>
Члены класса
<author> <date> <transaction> <version>
Ж.2.4 Класс model.I18N
model.I18N
Группирует вместе всю информацию, которая может использоваться в приложениях, ориентированных на интернационализацию.
Использующий элемент
Члены класса
<translate>
Ж.2.5 Класс model.L10N
model. L10N
(Элементы, связанные с локализацией) Отображает информацию для целей локализации.
Использующий элемент
Члены класса
<matchQuality> <translationRole> <translationStatus>
Примечание
Основные входные данные принимаются из спецификации XLIFF
Ж.2.6 Класс model.MonoCPart
model.MonoCPart
Группирует элементы, которые могут быть присоединены на уровне MonoC.
Использующий элемент
<MonoC>
Члены класса
<segmentation> <translationRole>
Ж.2.7 Класс model.MultiCPart
model.MultiCPart
Группирует элементы, которые могут быть присоединены на уровне MultiC.
Использующий элемент
<MultiC>
Члены класса
<changeDate> <changeIdentifier> <class> <creationDate> <creationIdentifier> <creationTool> <creationToolVersion> <translationStatus>
Ж.2.8 Класс model.SegCPart
model.SegCPart
Группирует элементы, которые могут быть присоединены на уровне SegC.
Использующий элемент
<SegC>
Члены класса
model.inline [<beginPairedTag> <endPairedTag> <genericGroupPlaceholder> <qenericPlaceholder> <placeholder>] <segmentation> <translate>
Ж.2.9 Класс model.inline
model.inline
(Внутренние элементы). Группирует информацию, которая может появиться внутри компонента SegC. За исключением элементов <hi> и <sub>, все остальные элементы содержат внутри себя либо замещают любые форматные или управляющие коды, которые не являются текстовыми, но постоянно хранятся в компоненте SegC.
Использующий элемент
model.SegCPart
Члены класса
<beginPairedTag> <endPairedTag> <genericGroupPlaceholder> <genericPlaceholder> <placeholder>
Примечание
Источник: TMX; используется также в XLIFF
Ж.2.10 Класс model.temporal
model.temporal
Группирует вместе все элементы и атрибуты, требуемые для синхронизации временной информации и текстового контента.
Использующий элемент
model. MonoCPart model.SegCPart
Члены класса
<begin> <duration> <end> <next>
Примечание
Большинство элементов, относимых к этому классу, являются атрибутами в спецификации SMIL.
Ж.2.11 Класс model.workflow
model.workflow
(Элементы, связанные с информационным потоком). Служит для создания контента и управления им.
Использующий элемент
Члены класса
<changeDate> <changeIdentifier> <creationDate> <creationIdentifier> <creationTool> <creationToolVersion>
Ж.3 Классы атрибутов
Ж.3.1 Класс att.classed
att.classed
Определяет иерархию компонента, к которому этот атрибут привязан.
Члены класса
<MonoC> <MultiC> <SegC>
Атрибуты
class
Статус
факультативный
Тип данных
текст
Ж.3.2 Класс att.id
att.id
Предоставляет общее определение элемента xml:id для однозначной идентификации компонентов в рамках метамодели MLIF.
Члены класса
<HistoC> <MonoC> <MultiC> <SegC>
Атрибуты
xml:id
Статус
факультативный
Тип данных
текст
corresp
Указывает на эквивалентный текстовой сегмент в другом языке
Статус
факультативный
Тип данных
текст
Примечание
Этот атрибут эквивалентен атрибуту corresp в TEI.
Ж.3.3 Класс att.lang
att.lang
Предоставляет общее определение элемента xml:lang для описания рабочего языка в метамодели MLIF и соответствующих категорий данных, когда это необходимо.
Члены класса
<MonoC>
Атрибуты
xml:lang
Статус
факультативный
Тип данных
текст
Ж.3.4 Класс att.linguistic
att.linguistic
Определяет лингвистические атрибуты.
Члены класса
<SegC>
Атрибуты
pos (часть речи)
Указывает грамматическую категорию слова, подлежащего разметке.
Статус
факультативный
Тип данных
текст
lemma
Предоставляет абстрактную ссылку на лексическую единицу, которая может ассоциироваться со словом, подлежащим разметке.
Статус
факультативный
Тип данных
текст
tag
Определяет атрибут морфологических свойств, относящийся к словоформе, подлежащей разметке. Конкретное значение должно указывать на определение структур элементов.
Статус
факультативный
Тип данных
текст
Ж.3.5 Класс att.xlink
att.xlink
Обеспечивает определение всех атрибутов XLink, необходимых для MLIF.
Члены класса
<MonoC> <SegC>
Атрибуты
label
Помечает ресурс элемента указателя.
Статус
факультативный
Тип данных
text
Примечание
атрибут отслеживания XLink
href
Предоставляет данные для поиска удаленного ресурса.
Статус
факультативный
Тип данных
текст
Примечание
Определяет документ (URI) и указатель XPointer
type
Указывает тип элемента XLink.
Статус
факультативный
Включаемая выборка значений
simple
Создает простую ссылку.
extended
Создает расширенную ссылку.
locator
Создает ссылку на идентификатор, который указывает на ресурс.
arc
Создает дугу, ведущую к множественным ресурсам, со многими путями отслеживания.
resource
Создает ссылку, указывающую на конкретный ресурс.
title
Создает ссылку на заголовок. Такие элементы полезны для целей интернационализации.
title
Разрешает описание на естественном языке.
Статус
факультативный
Тип данных
текст
from
Идентифицирует исходный ресурс дуги.
Статус
факультативный
Тип данных
текст
Примечание
атрибут отслеживания XLink
to
Идентифицирует целевой ресурс дуги.
Статус
факультативный
Тип данных
текст
Примечание
атрибут отслеживания XLink
Ж.4 Элементы
Ж.4.1 Элемент <GI>
<GI> (Global Information/Глобальная информация) Представляет техническую и административную информацию, применяемую ко всей коллекции многоязычных данных.
Использующий элемент
<GroupC> <MLDC>
Возможное содержание
<HistoC> <changeDate> <changeIdentifier> <creationDate> <creationIdentifier> <creationTool> <creationToolVersion> <domain> <formatVersion> <legalStatus> <project> <source> <sourceFormat> <sourceLanguage> <sourceType> <targetLanguage>
Объявление
element GI {(model.GIPart | <HistoC>)*}
Примечание
Пример: заголовок коллекции данных, история пересмотра, контекст...
Ж.4.2 Элемент <GroupC>
<GroupC> (Grouping components/Компоненты группы) Представляет частичную коллекцию многоязычных данных имеющих общий источник или связанных общим назначением в рамках данного проекта.
Использующий элемент
<GroupC> <MLDC>
Возможное содержание
<GI> <GroupC> <MultiC> <groupType>
Объявление
element GroupC {<GI>?, model.GroupCPart*, (<GroupC>* | <MultiC>*)}
Примечание
Эта модель для элемента GroupC не допускает смешения элементов GroupC и SegC.
Ж.4.3 Элемент <HistoC>
<HistoC> (History Component/Компонент предыстории) Отслеживает изменения того компонента, к которому привязан (т.е. следит за версиями).
Дополняет глобальные атрибуты
att.id (@id, @corresp)
Использующий элемент
<GI> <MonoC> <MultiC>
Возможное содержание
<author> <date> <transaction> <version>
Объявление
element HistoC {att.id, model.HistoCPart*}
Примечание
Пример: автор изменения, дата изменения, номер версии...
Ж.4.4 Элемент <MLDC>
<MLDC> (Multilingual Data Collection/Многоязычная коллекция данных) Представляет коллекцию данных, в которых содержится глобальная информация и несколько многоязычных блоков.
Использующий элемент
Возможное содержание
<GI> <GroupC>
Объявление
element MLDC <GI>?, <GroupC>*}
Ж.4.5 Элемент <MonoC>
<MonoC> (Monolingual Component/Моноязычный компонент) Группирует информацию, относящуюся к одному языку, и является частью многоязычного компонента (MultiC).
Дополняет глобальные атрибуты
att.lang (@lang) att.id (@id, @corresp) att.xlink (@label, @href, @type, @title, @from, @to) att.classed (@class)
Использующий элемент
<MultiC>
Возможное содержание
<HistoC> <SegC> <segmentation> <translationRole>
Объявление
element MonoC
{
att.lang,
att.id, att.xlink,
att.classed,
<HistoC>*, (<SegC> | model.MonoCPart)*
}
Ж.4.6 Элемент <MultiC>
<MultiC> (Multilingual Component/Многоязычный компонент) Группирует вместе все варианты данного текстового контента.
Дополняет глобальные атрибуты
att.id (@id, @corresp) att.classed (@class)
Использующий элемент
<GroupC> <MultiC>
Возможное содержание
<HistoC> <MonoC> <MultiC> <changeDate> <changeIdentifier> <class> <creationDate> <creationIdentifier> <creationTool> <creationToolVersion> <translationStatus>
Объявление
element MultiC
{
att.id,
att.classed,
<HistoC>*,
model.MultiCPart*,
<MonoC>*,
<MultiC>*
}
Ж.4.7 Элемент <SegC>
<SegC> (Segmentation Component/Сегментирующий компонент) Допускает любой уровень сегментации для текстовой информации, возможно, рекурсивной.
Дополняет глобальные атрибуты
att.id (@id, @corresp) att.xlink (@label, @href, @type, @title, @from, @to) att.classed (@class) att.linguistic (@pos, @lemma, @tag)
Использующий элемент
<MonoC> <SegC>
Возможное содержание
<SegC> <beginPairedTag> <endPairedTag> <genericGroupPlaceholder> <genericPlaceholder> <placeholder> <segmentation> <translate>
Объявление
element SegC {att.id, att.xlink, att.classed, att.linguistic, (text | <SegC> | model.SegCPart)*}
Ж.4.8 Элемент <author>
<author> Указывает имена лиц, ответственных за создание контента. Этот элемент отображается на категорию данных "originator" [ИСО 12620:2009; TC37 DCR], доступную через каталог ISOCat.
Использующий элемент
model.HistoCPart
Возможное содержание
только символьные данные
Объявление
element author {text}
Ж.4.9 Элемент <begin>
<begin> Определяет абсолютное время активизации контролируемого компонента.
Использующий элемент
model.temporal
Возможное содержание
только символьные данные
Объявление
element begin {текст}
Ж.4.10 Элемент <beginPairedTag>
<beginPairedTag> (начало парного тега) Отмечает начало парной последовательности внутренних кодов. В рамках сегмента каждому тегу <beginPairedTag> соответствует свой элемент <endPairedTag>.
Использующий элемент
model.inline
Возможное содержание
только символьные данные
Объявление
element beginPairedTag {text}
Примечание
Реализуется в TMX и XLIFF как <bpt>
Ж.4.11 Элемент <changeDate>
<changeDate> (изменение даты) Изменяет дату последней модификации контролируемого компонента с использованием формата представления, определенного в ИСО 8601. Этот элемент отображается на категорию данных "modification date" [ИСО 12620:2009; TC37 DCR], доступную в каталоге ISOCat.
Использующий элемент
model.GIPart model.MultiCPart model.workflow
Возможное содержание
только символьные данные
Объявление
element changeDate {text}
Примечание
Ж.4.12 Элемент <changeIdentifier>
<changeIdentifier> (смена идентификатора) Определяет идентификатор пользователя, который последним внес изменение в контролируемый компонент. Этот элемент отображается на категорию данных "updater" (инициатор изменения) [ИСО 12620:2009; TC37 DCR], доступную в каталоге ISOCat.
Использующий элемент
model.GIPart model.MultiCPart model.workflow
Возможное содержание
только символьные данные
Объявление
element changeIdentifier {текст}
Ж.4.13 Элемент <class>
<class> Определяет иерархическое описание компонента, к которому этот элемент привязан.
Использующий элемент
model.MultiCPart
Возможное содержание
только символьные данные
Объявление
element class {текст}
Ж.4.14 Элемент <creationDate>
<creationDate> (дата создания) определяет дату создания элемента в формате ИСО 8601. Этот элемент отображается на категорию данных "origination date" [ИСО 12620:2009; TC37 DCR], доступную в каталоге ISOCat.
Использующий элемент
model.GIPart model.MultiCPart model.workflow
Возможное содержание
только символьные данные
Объявление
element creationDate {text}
Пример
Например, запись date="20020125T210600Z" указывает 25 января 2002 года, 9 часов 6 минут вечера по Гринвичу; 2 часа 6 минут дня 25 января 2002 года по горному времени США и 6 часов 6 минут утра 26 января 2002 года по японскому стандартному времени
Примечание
Дата представлена в формате ИСО 8601. Рекомендуемый для использования шаблон имеет вид: YYYYMMDDThhmmssZ, где YYYY - это год (4 цифры), MM - месяц (2 цифры), DD - число месяца (2 цифры), hh - часы (2 цифры), mm - минуты (2 цифры), ss - секунды (2 цифры), а Z обозначает всеобщее скоординированное время.
Ж.4.15 Элемент <creationIdentifier>
<creationIdentifier> (идентификатор создателя) Определяет идентификатор пользователя, который создал отслеживаемый компонент. Этот элемент отображается на категорию данных "originator" по ИСО 12620:2009; TC37 DCR, доступную в каталоге ISOCat.
Использующий элемент
model.GIPart model.MultiCPart model.workflow
Возможное содержание
только символьные данные
Объявление
element creationIdentifier {текст}
Ж.4.16 Элемент <creationTool>
<creationTool> (Creation tool) Идентифицирует инструментарий, с помощью которого был создан контент отслеживаемого компонента.
Использующий элемент
model.GIPart model.MultiCPart model.workflow
Возможное содержание
только символьные данные
Объявление
element creationTool {текст}
Ж.4.17 Элемент <creationToolVersion>
<creationToolVersion> (версия инструментария) Идентифицирует номер версии инструментального средства, с помощью которого был создан моноязычный или многоязычный контент. Возможные значения идентификатора версий данным стандартом не определяются, но каждый поставщик инструментальных средств обязан публиковать используемый им строковый идентификатор.
Использующий элемент
model.GIPart model.MultiCPart model.workflow
Возможное содержание
только символьные данные
Объявление
element creationToolVersion {text}
Ж.4.18 Элемент <date>
<date> Определяет дату создания элемента HistoC в формате ИСО 8601.
Использующий элемент
model.HistoCPart
Возможное содержание
только символьные данные
Объявление
element date {текст}
Примечание
Дата представляется в формате ИСО 8601. Рекомендуемый для использования шаблон имеет вид: YYYYMMDDThhmmssZ, где YYYY - это год (4 цифры), MM - месяц (2 цифры), DD - число месяца (2 цифры), hh - часы (2 цифры), mm - минуты (2 цифры), ss - секунды (2 цифры), а Z обозначает всеобщее скоординированное время.
Ж.4.19 Элемент <domain>
<domain> Определяет предметную область, от которой зависит многоязычная коллекция данных MLDC.
Использующий элемент
model.GIPart
Возможное содержание
только символьные данные
Объявление
element domain {текст}
Ж.4.20 Элемент <duration>
<duration> Указывает продолжительность действия отслеживаемого компонента (SegC, MonoC или MultiC), выраженную в обычных единицах времени.
Использующий элемент
model.temporal
Возможное содержание
только символьные данные
Объявление
element duration {текст}
Ж.4.21 Элемент <end>
<end> Определяет абсолютное время, когда действие отслеживаемого компонента должно быть прекращено.
Использующий элемент
model.temporal
Возможное содержание
только символьные данные
Объявление
element end {текст}
Ж.4.22 Элемент <endPairedTag>
<endPairedTag> (конечный тег пары) Обозначает конец парной последовательности внутренних кодов. Внутри сегмента каждому тегу <endPairedTag> соответствует парный элемент <beginPairedTag>.
Использующий элемент
model.inline
Возможное содержание
только символьные данные
Объявление
element endPairedTag {text}
Примечание
Реализуется в TMX и XLIFF как <ept>
Ж.4.23 Элемент <formatVersion>
<formatVersion> Указывает, когда это уместно, соответствующую версию формата, из которого были сформированы данные MLIF совместимого приложения. Эта информация должна использоваться в сочетании с данными sourceFormat.
Использующий элемент
model.GIPart
Возможное содержание
только символьные данные
Объявление
element formatVersion {text}
Ж.4.24 Элемент <genericGroupPlaceholder>
<genericGroupPlaceholder> (универсальный групповой заполнитель) Замещает любой код первичного документа, который имеет начало и конец, не перекрывая другие парные внутренние коды, и может перемещаться внутри родительского структурного элемента.
Использующий элемент
model.inline
Возможное содержание
только символьные данные
Объявление
element genericGroupPlaceholder {текст}
Примечание
Реализуется в TMX и XLIFF как <g>
Ж.4.25 Элемент <genericPlaceholder>
<genericPlaceholder> (универсальный заполнитель) Замещает любой внутренний код первичного документа.
Использующий элемент
model.inline
Возможное содержание
только символьные данные
Объявление
element genericPlaceholder {текст}
Примечание
Реализуется в TMX и XLIFF как <x>
Ж.4.26 Элемент <groupType>
<groupType> (тип группы) Определяет основу для группирования информации MultiC.
Использующий элемент
model.GroupCPart
Возможное содержание
только символьные данные
Объявление
element groupType {текст}
Ж.4.27 Элемент <legalStatus>
<legalStatus> Определяет юридический статус организации, которая участвует в создании ресурса, инструментария или услуги, управлении ими или предоставлении доступа к ним.
Использующий элемент
model.GIPart
Возможное содержание
только символьные данные
Объявление
element legalStatus {текст}
Ж.4.28 Элемент <matchQuality>
<matchQuality> (соответствие стандартам качества) Указывает уровень качества перевода исходного текста на разные языки, возможно, в процентном выражении или с помощью произвольного неколичественного показателя (например, match-quality="высокое").
Использующий элемент
model.L10N
Возможное содержание
только символьные данные
Объявление
element matchQuality {текст}
Ж.4.29 Элемент <next>
<next> Определяет относительное время активизации, отсчитываемое от момента запуска родительского компонента MonoC или от момента активизации самого последнего компонента SegC в рамках родительского компонента.
Использующий элемент
model.temporal
Возможное содержание
только символьные данные
Объявление
element next {текст}
Ж.4.30 Элемент <placeholder>
<placeholder> (заполнитель) Разделяет последовательность внутренних кодов в сегменте, который содержит вложенный текст, подлежащий переводу, или начальную либо конечную часть парных тегов, для которой в рамках сегмента нет соответствующей второй части.
Использующий элемент
model.inline
Возможное содержание
только символьные данные
Объявление
element placeholder {текст}
Примечание
Реализуется в TMX и XLIFF как <ph>
Ж.4.31 Элемент <project>
<project> Определяет проект в рамках предметной области, от которой зависит MLDC.
Использующий элемент
model.GIPart
Возможное содержание
только символьные данные
Объявление
element project {текст}
Ж.4.32 Элемент <segmentation>
<segmentation> Определяет временные указатели или метки, индицирующие процесс сегментации.
Использующий элемент
model.SegCPart model.MonoCPart
Возможное содержание
пустой элемент
Ж.4.33 Элемент <source>
<source> Определяет полную цитату библиографической информации, переносимую в документ или в иной ресурс согласно ИСО 12620:1999.
Использующий элемент
model.GIPart
Возможное содержание
только символьные данные
Объявление
element source {текст}
Примечание
Ссылка на ресурс, из которого был извлечен данный ресурс.
Ж.4.34 Элемент <sourceFormat>
<sourceFormat> Указывает формат, из которого MLIF-совместимым приложением были сформированы данные MLIF.
Использующий элемент
model.GIPart
Возможное содержание
только символьные данные
Объявление
element sourceFormat {текст}
Ж.4.35 Элемент <sourceLanguage>
<sourceLanguage> определяет (в рамках языкового ресурса, ориентированного на перевод, или терминологической базы данных) исходный язык рассматриваемого текста в соответствии с ИСО 12620:1999.
Использующий элемент
model.GIPart
Возможное содержание
только символьные данные
Объявление
element sourceLanguage {текст}
Ж.4.36 Элемент <sourceType>
<sourceType> определяет (в рамках многоязычного ресурса, ориентированного на перевод или на управление терминологической базой данных), характер текста, который используется для документирования выборки лексических или терминологических эквивалентов, коллокаций и т.п.
Использующий элемент
model.GIPart
Возможное содержание
только символьные данные
Объявление
element sourceType {текст}
Примечание
Для документирования многоязычных терминологических статей в качестве источников информации служат как параллельные, так и предварительно подготовленные тексты.
Ж.4.37 Элемент <targetLanguage>
<targetLanguage> определяет (в рамках языкового ресурса, ориентированного на перевод, или в рамках терминологической базы данных) язык, на который переводится исходный текст.
Использующий элемент
model.GIPart
Возможное содержание
только символьные данные
Объявление
element targetLanguage {текст}
Ж.4.38 Элемент <transaction>
<transaction> представляет один из этапов создания, одобрения и использования конкретного компонента (утверждение, проверка, эксплуатация, импорт данных, ввод данных, модификация, генерация данных, стандартизация, организация пользовательского доступа, извлечение данных).
Использующий элемент
model.HistoCPart
Возможное содержание
только символьные данные
Объявление
element transaction {текст}
Ж.4.39 Элемент <translate>
<translate> представляет информацию о том, надо или не надо переводить контент контролируемого компонента SegC. Возможные значения этого элемента - "да" (переводить) и "нет" (не переводить).
Использующий элемент
model.I18N model.SegCPart
Возможное содержание
пустой элемент
Ж.4.40 Элемент <translationRole>
<translationRole> (переводная роль) определяет в процессе перевода, соответствует ли контролируемый компонент MonoC исходному или целевому языку.
Использующий элемент
model.L10N model.MonoCPart
Возможное содержание
пустой элемент
Ж.4.41 Элемент <translationStatus>
<translationStatus> (статус перевода) указывает, находится ли компонент MultiC в конкретном состоянии процесса перевода. Одно из возможных значений может быть переменным.
Использующий элемент
model.L10N model.MultiCPart
Возможное содержание
пустой элемент
Ж.4.42 Элемент <version>
<version> однозначно определяет уникальный номер, используемый для целей управления версиями.
Использующий элемент
model.HistoCPart
Возможное содержание
только символьные данные
Объявление
element version {текст}
Приложение ДА
(справочное)
СВЕДЕНИЯ О СООТВЕТСТВИИ ССЫЛОЧНЫХ МЕЖДУНАРОДНЫХ СТАНДАРТОВ
ССЫЛОЧНЫМ НАЦИОНАЛЬНЫМ СТАНДАРТАМ РОССИЙСКОЙ ФЕДЕРАЦИИ
Таблица ДА.1
Обозначение ссылочного международного стандарта
Степень соответствия
Обозначение и наименование соответствующего национального стандарта
ИСО 12620:2009
-
<*>
ИСО 8879
-
<*>
<*> Соответствующий национальный стандарт отсутствует. До его утверждения рекомендуется использовать перевод на русский язык данного международного стандарта. Перевод данного международного стандарта находится в Федеральном информационном фонде технических регламентов и стандартов.
БИБЛИОГРАФИЯ
[1]
The Object Management Group (OMG); The Unified Modeling Language (UML) Version 2.3. May 2010
[2]
TEI Consortium, eds. Guidelines for Electronic Text Encoding and Interchange. November 1, 2007. http://www.tei-c.org/P5/
[3]
RUMBAUGH, J., JACOBSON, I. and BOOCH, G. The unified modeling language reference manual, 2nd ed., Addison Wesley, 2004
[4]
Википедия http://en.wikipedia.org/wiki/Subtitle (captioning) по сост. на 2 октября 2009 г.
[5]
ИСО 24611, Управление языковыми ресурсами. Система морфосинтаксического аннотирования
[6]
ИСО 12620, Терминология, другие языковые ресурсы и ресурсы содержания. Спецификация категорий данных и ведения реестра категорий данных для языковых ресурсов
[7]
ИСО 16642:2003, Применение компьютера в терминологических целях. Структура терминологической разметки
[8]
ИСО 24615, Управление языковыми ресурсами. Система синтаксического аннотирования (SynAF)
[9]
ИСО 8601:2004, Элементы данных и форматы для обмена информацией. Обмен информацией. Представление дат и времени
[10]
W3C, Date and Time Formats: http://www.w3.org/TR/NOTE-datetime по сост. на 7 мая 2010 г.
[11]
ИСО/МЭК 14496-17:2006, Информационные технологии. Кодирование аудиовизуальных объектов. Часть 17. Формат потокового текста
[12]
Organization for the Advancement of Structured Standards (OASIS); XML Localization Interchange File Format (XLIFF), версия 1.2 от 1 февраля 2008 г.
[13]
Open Standard Codes and Routines (OSCAR); The Translation Memory Exchange (TMX) версия 1.4b. апрель 2004. The Localisation Industry Standards Association (LISA) <3>
--------------------------------
<3> В марте 2011 г. Ассоциация отраслевых стандартов локализации LISA (Localization Industry Standards Association) была объявлена несостоятельным должником. В результате этого портфель стандартов LISA было решено передать некоммерческой творческой организации Creative Commons Attribution в рамках открытой лицензии 3.0 License, которая разрешает повторно использовать и создавать производные документы на базе стандартов LISA. Следует отметить, что LISA назначила своим правопреемником портфеля стандартов Группу промышленных спецификаций (ISG) в области стандартов локализации (LIS) Европейского института телекоммуникационных стандартов (ETSI).
УДК 001.4:006.354
ОКС 01.020
Ключевые слова: управление языковыми ресурсами, многоязычная информационная система, обобщенные атрибуты, детализированная спецификация, терминология