青空文庫のテキスト構造を読む 鈴木親彦 (2015年5月 春季研究発表会)

青空文庫のテキスト構造を読む――人文情報学による試み

鈴木親彦
(東京大学人文社会系研究科博士課程)

1.目的と対象
 本研究は,青空文庫で収集され公開されているテキストを,人文情報学で活用されているツールを利用して解析するものである。青空文庫にはどのようなテキスト空間が広がり,どのような用語的な特徴を持っているかを,人文情報学の手法を用いて分析する。本研究は実験的な試みであり,テキストの構造を読み解く手法そのものを示すことも目的としている。
 青空文庫は,「誰にでもアクセスできる自由な電子本を,図書館のようにインターネット上に集めようとする活動」であり,活動の成果として公開されているサイトの名称でもある。ネット上の図書館としての役割に加え,商用利用や情報学におけるサンプルとして活用もされている。もちろん,テキストを特に重要な対象として扱ってきた人文学にとっても研究対象として大きな可能性を持っており,ネット上で自由に利用できる点,日本語の出版物のテキストが1万点以上収録されている点など,研究対象としてのテキストの幅を大きく広げる素材となる。

2.問題と研究方法
 しかしながら,人文学で利用することを想定した場合,青空文庫には複数の問題がある。例えばメタデータについて,デジタル化に利用した底本に関するものと,デジタル化作業に関するものは一定の水準で整備されているが,人文学研究としてテキストそのものを同定するために十分な内容が備わっているとは言えない。また,2012年末にネット上で起きた議論が一つの代表例ではあるが,底本との違いについて問題が提起されたこともある。さらに,公開されているxhtmlのマークアップ方針も,底本に近い形で読みやすく公開するためには合理的なものであるが,そのまま研究に利用できるルールとはなっていない。これらの問題解決を含め,人文学の研究に利用するためには,いくつかの手続きが必要となる。
 これらの細かい作業を伴う研究の前段階,または並行して行われるべき動きとして,テキスト全体の関係性や構造を見ることも必要である。これはデジタル素材を活用する人文学の方法論「人文情報学」においても重要な整理作業にあたる。
 本研究では東京大学知の構造化センターで開発されたシステムMIMA Search(Mining Information for Management and Acquisition Search)を活用し,青空文庫に収められているテキスト全体の解析を試みる。MIMA Searchは用語抽出をはじめとしたテキストマイニング機能と,結果をネットワーク図で示す可視化インターフェイスが統合されたテキスト解析システムである。特徴的な用語の抽出と,テキスト間の関係を見出すことで,青空文庫の構造を読み解いてみる。

3.解析結果と解釈
(発表で用いた解析結果のネットワーク図は省略。報告要旨の分量を考えると,判読可能なサイズで掲載できないと発表者自身が判断したためである。該当の図が掲載されているスライドを,http://www.slideshare.net/chikahikosuzuki/ss-48462190で公開しているので参照願いたい。)
 全テキストを対象に「出版社」というキーワードで検索をかけた結果,それぞれ「一円」「出版社」という用語が付された大きな二つのクラスタ(いずれも10以上のテキストが含まれている)と,その他11個の小規模なクラスタが確認された。「一円」クラスタに属するノードは全て宮武外骨『一円本流行の害毒と其裏面談』になっている。一円本流行の問題と当時の出版界の内実を痛烈に批判した宮武の著作が大きなクラスタを作ることは象徴的ではあるが,これはMIMA Searchの機能制限によって『一円本流行の害毒と其裏面談』を分割して登録したために起きた結果であり,そこから読み取れるものはあまりない。
 むしろ注目すべきはもう一つの「出版社」クラスタである。坂口安吾が読売新聞に連載した「街はふるさと」,宮本百合子のプロレタリア文学作品,Le Petit Princeを大久保ゆうが新たに訳した『あのときの王子くん』,青空文庫の歴史をつづった『青空文庫ものがたり』,そして富田倫生による『本の未来』が一つのクラスタとしてまとまっている。実験的なキーワードによる検索の結果からだけでも,青空文庫の持つテキストの時間的,思想的な横断性を見出すことができる。
 これらのキーワードが実際の文章内でどのような意味を持っているのかについては,個々のテキストを読み込んでいく必要がある。今後の研究では,具体的な作品の内容,用語の使われ方まで踏み込んだ分析が必要となるが,本研究の目指す青空文庫のテキスト構造を考える上でも,多様性を再確認できたことは重要である。

4.まとめにかえて
 以上のように,本研究では人文情報学による試みとしてMIMA Searchを活用した青空文庫のテキスト構造を分析した。結果は限定的で予備的なものであり,テキストの投入方法や検索方法など改良の余地はある。しかし,出版学の対象としての青空文庫の研究の一歩,また青空文庫で公開されたテキストを人文学の研究に利用するための一歩として,一定の方向性を示すことができた。