
みなさんは古い文献を手にしたとき、その魅力をどう伝えますか?
古文書は、まるで時を超えた船のように、私たちを遠い世界へ連れて行ってくれます。しかしその船が壊れてしまえば、旅は終わってしまう──だからこそデジタルの海に船を浮かべ直す必要があります。そのための設計図がTEI(Text Encoding Initiative)です。本記事では、古文のデジタル化に関心のあるアーカイブ担当者やデジタル人文学者に向けて、TEIとその周辺ツールの紹介と、私がこの方法に辿り着いた経緯をお話しします。
誰に向けた記事か
この投稿は、特定の方を想定しています。
- 古文や古典籍をデジタル化し、検索や分析に活用したい図書館・博物館の担当者
- デジタル人文学やアーカイブ学の授業で、実際の資料を扱ってみたい研究者や学生
- 既存のOCR技術では読み取りが難しい古文を、デジタル記述に落とし込みたい人
一般的なブログ読者向けではありません。しかし、特定の分野、専門家向けの記事となっています。
なぜこの記事を書いたのか
私たちがTEIに出会ったのは、図書館のデジタルアーカイブの仕事で古文のデジタル化を担当している大学の先生からの連絡がきっかけでした。世の中にはPDF化された古文はたくさんあるものの、ページ画像の集まりでは全文検索や構造分析ができない。そこで、古文を“機械が読める”形式に変換する必要がありました。
弊社はコンテンツの構造化、XML、DITAについては専門であるものの、最初はTEIも知らず、古文と機械の間に橋を架ける方法を模索しました。調べていくことで、TEIは古文の多様な構造や注釈を表現するのに理想的であること、私たちが取り扱い、販売しているoXygen XML Editorがその作業を強力に支援してくれることを知りました。このブログでは、その遠回りの旅で学んだことを共有したいと思います。例えるなら、古文をテープレコーダーの巻き戻し機能で何度も再生しながら、新しいアルバムを制作する過程の記録です。
TEIとXMLの概要
TEI(Text Encoding Initiative)は、古文を含む学術テキストを構造化して記述するための国際的なガイドラインです。中核にあるのは汎用マークアップ言語のXMLであり、XMLではタグを自由に定義して階層構造のデータを表現できます。TEIはXMLの一種で、<TEI>というルート要素の中に、メタデータを記述する<teiHeader>と本文を記述する<text>の二部構成が定められています。これにより、書誌情報、本文、注釈、詩歌など、古文特有の複雑な要素を整然と記述できます。
oXygen XML Editorの役割
oXygen XML Editorは、XMLやTEI文書を作成・検証・変換するための総合開発環境です。特に次の点で役立ちます。
- スキーマ検証:TEIガイドラインに沿っているかリアルタイムでチェックできるので、エラーを早期に発見できます。
- 検索・置換とXSLT:正規表現やXSL変換を使って、仮の記号を正式なTEIタグに置き換えるなど大量の置換を効率化できます。
- 視覚的な編集支援:文書構造をツリーで表示し、テキストとタグの関係を直感的に把握できます。
- バージョン管理:GitやSubversionと連携し、複数人での編集や履歴管理をサポートします。
こうした機能により、古文のTEI化という地道な作業をスムーズに進められます。
古文をTEIに変換するワークフロー
古文をTEIにする手順を、大まかに次のように整理しました(図は概念図です)。
- 準備:古文の画像や資料を集め、必要ならIIIFのmanifestを取得してページごとの画像を整理します。OCRが困難な場合は、人力でWordやテキストエディタに転写し、ページ番号や巻の区切りを記号で示します。
- モデル設計:どの部分を
<div>で区切り、どこに<note>や<pb/>を挿入するかなど、TEI文書の構造をあらかじめ決めます。 - 疑似コード記述:Wordやエディタで転写したテキストに、後で置換するための記号やスタイルを付けます。例えば、章見出しの行頭に
###を付けるなど。 - 自動変換:OxGarageや自作スクリプトを用いて、疑似コード入りのテキストをTEIタグに変換します。
iiif-to-teiのようなツールを使えば、IIIF manifestから<facsimile>やページタグを自動生成できます。 - 編集・検証:oXygenを使ってTEI文書を開き、スキーマに沿っているか確認しながら誤記や注釈を修正します。必要に応じてデータベースやビューアと連携させ、画像と本文を対応付けます。
- 公開:完成したTEI文書をリポジトリやデジタルアーカイブに登録し、後続の研究者が利用できるようにします。メタデータを充実させることが長期的な価値を高めます。
おわりに
古文をデジタルの海に航行させるには、船底を修理し、風を読み、地図を準備する必要があります。TEIはそのための羅針盤であり、oXygenは作業を助ける道具箱です。この記事が、同じ航海に乗り出す方々の道しるべになれば嬉しいです。質問やご意見があればぜひお寄せください。