JATSからBITSへ 中西秀彦 (2014年11月 秋季研究発表会)

JATSからBITSへ――多言語対応構造化組版の規格制定をめぐって

中西秀彦
(中西印刷株式会社・学術情報XML推進協議会)

XMLとJATS
 XMLは文書の構造化記述のために幅広く使われている規格である。現在,数多くの文書がXMLで作成されようになってきている。特に電子文書では必須の技術であって,文書交換が紙からインターネットにシフトするにつれ重要度が増してきている。
 JATSはJournal Article Tag Suiteの略であり,学術雑誌を記述するためのXMLのスキーマ言語である。現在,NISO規格(NISO Z39.96-2012.)となっており,世界中の多くのオンラインジャーナルが学術論文をJATSで記載することを求めている。この結果,学術雑誌の事実上のスタンダードとなっている。日本の科学技術振興機構のJ-STAGEが,データ入稿にJATS形式での記載を指定しており,日本でも急速に重要度が増している。

JATSの多言語化
 JATSは前身のNLM DTDから進展する際,多言語化はもっとも重要な課題とされた。世界には英語以外の言語で表現される学術論文が数多いからである。日本ではSPJワーキンググループをたちあげ,こうした多言語化仕様に要望を出した。
 これらの提案をとりいれた形で,2011年3月17日にはJournal Article Tag Suite(JATS)0.4として公表された。
 JATS0.4の多言語化拡張は以下のようなものであった。
(1)@xml:lang
 著者名や所属機関を多言語で表現することが可能となった。
(2)繰り返し項目の拡張
 〈kwd-group〉,〈publisher-name〉,〈series-text〉などが繰り返し可能項目となったので,例えば,キーワードを英語と日本語で記述できるようになった。
(3)ラッパー
 著者名と所属機関において,同一の実体に対して複数の言語のデータを記述できるように,これにより,同一人(同一機関)の異なった言語や表記による表現を並べて書くことができることになった。

JATSの日本語表現に向けて
 JATS0.4はまだ試行的なものであった。2011年9月30日,SPJワーキンググループでは仕様を検討した結果,以下の4つの提案を行っている。
(1)グループ著者の多言語化のための〈collab-alternatives〉の導入
(2)ふりがな記述を可能に
(3)非グレゴリー暦(和暦,イスラム暦など)の記述方法の導入
(4)引用文献の多言語化のための〈ref-alternatives〉の導入
 またSPJワーキンググループからの提案ではなかったが,日本語の傍点の表現についての提案がなされている。
 これらの提案を受け,2012年8月9日にNISO標準規格として,JATS1.0が制定された。しかしこの中で,採用されたのは(1)のcollab-alternativesのみで,それ以外の日本語関係提案はいずれも採用されなかった。日本からの提案をこうした国際規格に盛り込もうとするならば,早い時期での提案と,趣旨説明を充分に行う必要があることが痛感された。
 SPJワーキンググループは,この提案で解散したが,今後も規格策定の日本側窓口として,学術情報XML推進協議会(2012年6月28日発足)の一分科会として引き継がれることになった。
 XSPAではこの日本語関係タグ不採用の結果を受けて,引き続き日本語表現の問題について提案を続けた結果,2013年12月のVersion1.1ドラフトでは,ルビと非グレゴリー暦については採用されることになった。ただし傍点は採用されなかった。

表記と構造
 日本語表記について,提案がなされていながら,唯一採用されなかった傍点についてのNISO JATS Standing Committee から次のように伝えられた。
 「一般的な〈emphasis〉は〈styled-content〉がすでに利用できるので追加しない」
 傍点は強調のひとつということは認識されている。ただ,強調タグとしては〈bold〉〈italic〉〈underline〉とは同列には扱えないとしているということになる。
 ここにXML DTDによる記述の意味づけが「構造であって表記」ではないということが明確なポリシーとして現れている。構造さえしっかり記述できれば実際にどのような表現がなされるかは表現するときの裁量であるということだ。
 傍点がその意味で,表現上の差異なのか,それとも〈bold〉のように構造に関わるのかは日本語の表記と構造についての検討が必要だろう。日本語は表現と構造が分かちがたく結びついている。傍点が単なる強調のための一形式であるというのが,アメリカでの討議結果であるが,傍点を他の表現に代えた場合,文書の持つ意味内容そのものが変化するのであればそれは構造と考えるべきである。このあたりのニュアンスをいかに伝えるべきか今後の対応がもとめられる。

BITS規格
 現在,学術雑誌専用の規格であったJATSを拡張し,あらたにBITS(Book Interchange Tag Suite)がJATS1.1ドラフトに準じて提案されている。現在の所NISOでは規格化されていない。
 BITSにおいても日本語独自の構造表現がありうる。上記,JATSの例でもわかる通り,今後,BITS規格に対しても国際規格の中で,日本語の表現と構造を守るためには,日本からの積極的なアプローチが望まれる。