Top/Unsworth

拠点の活動 > デジタル化時代における知識基盤の構築と人文学の役割

2011年11月29日 国際シンポジウム「デジタル化時代における知識基盤の構築と人文学の役割 ――デジタル・ヒューマニティーズを手がかりとして――」講演日本語訳

(日本語訳:滝浪佑紀・東京大学大学院情報学環、永崎研宣・(財)人文情報学研究所)

デジタル化と人文学研究

John Unsworth (イリノイ大学図書館情報学研究科長(当時))

「デジタル化」とは物理的なもののデジタルな代替物(surrogate)を作成するということを含意している。言うまでもなく、既にデジタルなものをデジタル化するということではない。本日の我々の議論の文脈では、ボーンデジタルなものではなく、デジタル化された作品がもっとも重要となる。というのは、今日の図書館所蔵品におけるデジタル化された作品のうちで最も一般的に見られるものは、物理的な作品のデジタルな代替物だからである。そういった理由から、デジタルな作品の価値に関する最も重要な問題というのは、その代替物としての人工物に関連する問題である。そのような問題のなかで主なものは、以下のとおりである。

  • どういう場合にデジタル代替物というのは原資料の代用たり得るのか
  • どういう場合にデジタル代替物というのは原資料に完全に置き換わることができるのか。
  • どういう場合にデジタル代替物というのは原資料に優越できるのか。 デジタル代替物の製作コスト、維持コストはどれくらいなのか。
  • デジタル代替物がもたらすリスクとはどういうものなのか。

これらの問題の多くは、ポールコンウェイがThe Handbook for Digital Project, A Management Tool for Preservation and Access の中で扱っている。その中で、コンウェイは以下のように書いている。

「デジタル化による保存の目的とは、オリジナルを保護し、それを表現し、そしてそのオリジナル作品を超えることである。少数だが増えてきている応用例としては、デジタル画像処理によって、原資料では実現できない目的に利用できるものが作り出せるようになってきている。こういった応用例の中には、経年変化したり実際に利用されたり環境の影響を受けたりして不鮮明になった細部を、特別な照明を用いた画像化処理によって明らかにするものも含まれる。あるいは専門の写真媒体を用いるような画像、あるいは高解像度によって人工物の特性を吟味することが可能になるようなものが含まれる。」

このようにデジタル代替物の様々な展望についてコンウェイは言及しているが、リスクもあると言われている。Angelika Menne-Haritz と Nils Brübachは The Intrinsic Value of Archive and Library Material の中で、リスクについて述べている。

「証拠が失われる危険がある。物理的な劣化のみならず、その文脈、あるいはそれらの起源の状況に関する無意識の証拠の破壊が起こりうる。デジタル変換の際に起こりうることであり、したがって本質的な価値を事前に分析することによってそれを防止する必要がある。」

こういった問題というのは、デジタル代替物に特有のものではない。たとえば印刷物であっても悪い版であれば同じようなリスクがある。そして初期の印刷の歴史とは、ある意味で、(原資料はもう記録もなく、回収も不能な)印刷物によって手書きの資料を「置き換える」ことによっていろいろな喪失や破壊を繰り返してきた歴史でもある。いずれにしても、これらのドイツのアーキビストは、デジタル代替物の価値について最も還元主義的な見解を示している。

「証拠としての価値と恒久的アクセスが喪失してしまうことから、これらのデジタルな形式やOCRによってテキスト変換されたデータというのは、保存媒体としては排除される。それらは、利便性を高めるためだけに、フィルムでの保存を補完する物として用いられるべきである。」

また別の場所では次のように明確に述べている。

「デジタル画像処理というのは恒久的な保管には適さない。」

デジタル代替物を写真画像の頒布のみに使い、完全にフィルムに頼るような保存プログラムというのは現実的ではないこともある。この時点で、図書館と公文書館の使命の違いを考えなければならない。アーカイブズの場合、デジタル形式あるいは文字の変換によって証拠的な価値がなくなるということを懸念してそれを推進しないかもしれない。一方で、図書館は、情報の保存とアクセシビリティの確保という使命があるためにデジタル代替物は十分その要件を満たせると判断するかもしれない。

実際、デジタル代替物の価値というのは何なのか、という問いについて一つの答えはない。というのは、これは原資料の特性と利用状況によって左右される問題だからである。したがって、図書館においてデジタル代替物の価値と適切な利用を決定する手段としては、まず、原資料を分類することで考えてみるのが有益だろう。すなわち、資料が希少であるか希少でないかという分類と、そして使用頻度の高いものとそうでないものとの分類である。すなわち、合計で四つの分類があり得る。

1.希少ではないが利用頻度の高い資料

こういったものの例は、プロジェクトグーテンベルグで見られるような資料である。すなわち、複数の版が存在するような文芸作品で、代替の形式でも普及しているようなものである。こういった場合には、原資料が希少ではないため、原資料の保存は特に高いプライオリティーの問題ではないと考えられる。しかしながら、そのようなものに対するデジタル代替物というのは、いくつかの理由で製作する価値があるかもしれない。

  • その作品を書庫に再び格納するコストを削減できる。
  • 複数のユーザーに対して同時提供することもできる。(電子予約デスクなどを通して提供できる。)
  • 完全にその物理的なオリジナルを置き換えることで保管コストをなくすことができる。

最初の二つは、明白で議論の余地のない利点である。三つ目に関しては、対象物が希少でなくてもやはり問題があるかもしれない。というのは、原資料のすべての機能性、情報、あるいは美的な価値というのがデジタル代替物にあるとは限らないからである。したがって、デジタル代替物の使用を、コスト削減や、あるいは利用頻度の高い所蔵作品提供しやすくするために推奨していくということは理にかなっているが、物理的な所蔵物の完全な処分とデジタル代替物への完全な置き換えという決定は慎重にしなければならない。というのは、オリジナル作品が利用者にどう使われているかを評価しなければならないからである。デジタル代替物は原資料と全く同じ特質や同じ機能をもつ必要はないが、それでも、利用者の主要なニーズ、あるいは期待を満たす必要は少なくともある。

2.稀少ではなく利用頻度も低い資料

例えばEnglish Woman’s Journal というのがある。これはイリノイ大学の図書館には所蔵されていないが、Worldcatによれば世界で57カ所の図書館で所蔵されており、またイリノイ州では二つの図書館で提供されている。多くの図書館では利用頻度の低い本を長期保管庫で所蔵している。それらの資料というのは検索可能であり、回収可能であり、利用者への貸し出しも可能である。この場合、図書館間の貸し出しプログラムもあるが、数日間待つ必要がある。そのような作品あるいは資料に関しては、デジタル代替物によって、以下のことが可能になるだろう。

  • 長期保管庫から取り出してくるのを待つ価値が、そして、図書館が骨折りする価値があるかどうかを利用者が決定するのを助けられるだろう。
  • 利用頻度も高めることができるだろう。(例えば検索可能なメタデータを提供することによって)
  • デジタル代替物に置き換えることで保管コストが削減できるだろう。

やはり、最初の二つは明白で議論の余地のない利点であり、三つ目は条件が付く。すなわち、デジタル代替物は、原資料を高頻度に利用する一部の人々に共通のニーズと期待を満たさなければならないからである。もちろん、何らかの時点で、希少ではなく利用頻度の低い資料については、図書館はその機能性と実際の使用頻度のバランスを判断していく必要があり、そのための基準を開発しなければならない。すなわち、どの場合にデジタル代替物が原資料に代わるものとして受け入れ可能であるかということをそれに基づいて判断していかなければならない。例えばEnglish Woman’s Journalのデジタル代替物は、Nineteenth-Century Serials Edition, NCSE という形で大英図書館が無料でオンライン公開している。

ここで知っておかなければならないポイントは、所蔵作品の中でも最も市場価値の低いものに関する懸念である。図書館というのは、一つの組織として、あるいは文化的な共同体として、あまり利用されずに広く普及しているような資料が本当に誰かの手によって原資料の形態として意識的に保存されているかを見極める必要がある。そうでない場合には、現在広く存在する原資料であったとしても、明日には全く存在しない、あるいは希少になる危険もある。このことが理由でNicholson Baker は図書館が新聞資料を破棄することに反対しているのである。50カ所の図書館が同じ新聞の同じ号を原資料として持っていたとしてもコストが膨大で利用が少ない場合には、全ての図書館がその原資料を所蔵し保管し保存するコストを負担すべきとはなかなか言えない。しかしそのうち49件の図書館が時間の経過とともに物理的な所在からデジタルデータに完全に置き換えてしまったならば50番目の図書館がその所蔵の希少さを認識してくれることをひたすら望むことになってしまうのである。

3.希少で利用頻度の高い資料

この場合には、デジタル代替物の主たる(そしてとても明らかな)利点とは、

  • 保存。一部の利用を代用することでデジタル代替物は原資料の劣化損傷を防止できる。
  • アクセス。原資料の摩耗劣化をもたらさないためにデジタル代替物は希少な資料のアクセス性を高める代替になる。

真に希少な資料をデジタルで置き換えるというようなことは誰も言わないだろう。デジタル技術そしてデジタル化の技術というのはまだ新しく日進月歩であり、したがって、現時点では、完全に確信をもって最良の方法でアナログ資料からデジタル化しているということは誰も言えないからである。それは、プリントされたページであれ、オーディオテープであれ、フィルムであれ、同様である。しかしながら、デジタル代替物というのは多くの場合、それでも希少で引用されるような資料の代用にはなり得るのであり、そうすることによって、オリジナル品の保存を助けることが可能である。一つの例としてWilliam Blake Archiveの例に後で触れたい。

4.希少であり、利用頻度の低い資料

一見すると、このような資料は最もデジタル代替物に置き換わる可能性が低そうに見える。というのもデジタル化というのはコストがかかるからである。その一方でデジタル化のコストが十分に低くなってくれば代替物によってその資料の認知度あるいは利用が上がるかもしれない。またこういったものの保管コストが十分高くなればデジタル化とその作品の処分というのが魅力的な選択肢として浮かび上がってくるかもしれない。ここでもやはり、上述の2のケースと同様に、一つの共同体として、図書館が、今は利用頻度が低い資料であっても、その実際の、あるいは潜在的な希少性について認識すべきである。というのは、明日にはもしかしたら、そういった資料というのは最も貴重な作品になるかもしれず、現在では予測できないような利用方法が出てくるかもしれないからである。Blakeの挿絵あるいは絵画などがその一つの例になるだろう。これらは代替物に完全に置き換わるという可能性はないだろう。そして、幅広い作品の中に、これほど明白ではない事例が隠れているかもしれないのである。

さて、これまで四つの状況について考えてみたが、最初のデジタル代替物の問題に立ち帰って問い直し、答えを見いだしてみたい。

どういう場合にデジタル代替物というのは原資料の代用たり得るのか

私の答えとしては、ユーザーのニーズに応えられるとき、としておきたい。二つ目の質問、

どういう場合にデジタル代替物というのは原資料に完全に置き換わることができるのか。

答えは原資料が希少でない場合である。三つ目の質問、

どういう場合にデジタル代替物というのは原資料に優越できるのか。 デジタル代替物の製作コスト、維持コストはどれくらいなのか。

への答えは、作品へのリモートあるいは同時のアクセスが必要な場合、あるいはソフトウェアを通して物理的な閲覧以上の何かが得られるような場合である。たとえば、デジタル代替物の記録情報が原資料を検索できないような目録あるいはサーチエンジンで見出せるような場合である。デジタル代替物の作成コストというのはいろいろな状況、たとえば、原資料の均質性、処分のしやすさ、判読可能性に左右される。維持コストは、使用頻度あるいはフォーマットの特異性に依存する。またそれ以上に技術的あるいは社会的な組織的な因子であり、また予測できないようなものにも依存する。したがって、物理的な資料を置き換える場合には慎重になる必要がある。これらに関しては、維持コストというのは既知でだが、デジタル代替物に関しては維持コストというのは十分にはわかっていないものだからである。

最後の質問は、

デジタル代替物がもたらすリスクとはどういうものなのか

である。主たるリスクとしては、原資料の不完全な代替物を完璧だと思いこんでしまってオリジナル品を処分してしまうというリスクである。そして、もう一つのリスクとしては、あたかも完全であるように見える部分的な視点を提供するリスクというのもある。すなわち、デジタル代替物が理解に必要な文脈から完全に切り離されてしまって、文脈不在の中で理解されてしまうというリスクがある、ということである。

デジタル化と人文学研究

ここまでの話は、図書館の視点から見たデジタル化の費用対効果の話であった。今度は人文学者の観点で考えてみよう。図書館というのは、資料を収集し保存する場合に、今まで話してきたこと以外の目的をもって行っている場合がある。学術図書館の場合には学術研究がその一つの目的になる。学問の世界では図書館が最も重要なのは人文学だと言えるだろう。人文学にとって図書館というのは実験室のようなものである。しかし、実験室での活動のコストとか利点というのは運用する側と利用者側とでは違って見えるかもしれない。

デジタル化の最も大きな便益は、人文学においては一次資料へのアクセスだと言えるだろう。これらの資料のデジタル形態での集約というのは、人文学の研究や教育にとって新しい資料を提供することになる。例えば、Blakeの彩色絵画、天国と地獄の結婚を11種類提供しているWebサイトがあるが、これは六つの組織と一つの個人コレクションから構成されており、それらを比較して研究や教育を行う機会を提供している。これは、Erdman版のブレイクの資料や、あるいはBlake Trust、あるいはプリンストン大学出版局のIlluminated Books of Williams Blakeでは実現できないことである。

一次資料へのアクセスのもう一つの便益というのは、当初から明白だったがますます理解されるようになってきている。ここで少し、一次資料がデジタル化されたことによって広く作り出されている伝統的な学問にとっての新たな機会について述べてみたい。

今日、あらゆる学術研究には何らかのデジタルツールが使われている。図書館の目録やサーチエンジン、グーグルなどである。そのようなツールを使って検索した資料の中には完全な全文電子版が提供されているものもある。現在では多くの一次資料がウェブ上にデジタルな形式で提供されている。民間のもの、商業的なもの、ライセンスされたもの、あるいは無償のもの、非商業的なものもある。実際に、個々の作品がデジタルかそうでないかということは分類できたとしても、学問自体は連続したものであり、中間的なものである。何一つとして完全に非アナログ、完全に非デジタルというものはない。

それでは、デジタルでの一次資料の提供によって、学問においてどういう新しい機会が提供されているのだろうか。人文学研究、特に文学研究における我々の慣習は、次のような新しいものによって影響され、ある場合には、刷新され、意味をなくしたりすることがある。

  • 研究のための新しい資料
  • これまで扱ってきた資料への新しい視点
  • 新しい方法論やツール

デジタルな一次資料というのは、まず一つ目の項目で非常に興味深い。文化遺産の資料のデジタル化によって多数の希少な資料、未利用の資料の提供が広く可能になった。人文学系では、多くの研究者が過去数十年の間にデジタルリサーチプロジェクトを行ってきており、研究を行うために、まず自ら、こういったデジタルの一次資料の作成を要するという問題に直面してきた。しかし、状況は変わってきている。非常に充実したコレクションが一次資料に関して提供されるようになっており、デジタル化されていない形式であれば探しにくかった、取得しにくかった、使いにくかったようなものも提供できるようになってきている。これは特に大学院とか出張予算のない研究者にとってとても重要である。

デジタル一次資料を作成することで、これまでよく用いられてきた資料に関する新しい視点が出てくる可能性もある。例えば、The William Blake Archiveに戻ってみよう。ここではフルカラーの画像、そして新たに転写したテキスト、そして解説など、すべてのBlakeの彩色本に関するもの、あるいはそれ以外の原稿や、それぞれの版画とか絵画とか印刷物などが提供されている。これがすべてオンラインで提供されている。ウェブ上で再現することは経済的に容易であるというだけの理由で、The William Blake Archiveを用いてBlakeを視覚芸術家として教えることが可能になったのである。これは、私がBlakeを教わった時の、Erdmanのテキストのみの版(これもウェブ上で閲覧可能だが)を使ったやり方とは全く異なっている。

もう一つ、より深い意味で、デジタル化は、よく用いられる資料について新しい視点を提供している。少なくとも最初のうちは、より少数の人々にとって深い影響を与えている。というのは、デジタル化のプロセスそのものに学問的な関わりが必要だからである。人文学では、研究の対象は、画像や、テキスト、音声、地図、動作、概念、三次元のオブジェクトなど様々なものがあり得る。これらのデジタル代替物を作成する際には、その目標は常に、出来る限り忠実に再現するということであり、そのプロセスでは干渉やノイズは極力へらしたいのである。しかし、研究者としてこれらのデジタル代替物を扱ったり、自作したりした時、そのような純粋な再現行為などあり得ないということに気づくだろう。すべてを再現するということは、一つの解釈にすぎないのである。

例えば、「この詩が個別の作品なのか、あるいはまた詩集の中の一つなのか」という単純な問いであっても、たとえば、マークアップにおいては避けることができないものであり、ここでの作品の理解にとって重要な問題を提起するかもしれない。そして、関連する問題が続いて生じた際には、我々がどのようにその問いを解決しようとも、我々はその解決の仕方に影響され制約されることになる。例えば画像に関して、我々がデジタル化するときには、その画像にとって価値があり意義があると我々が考えたものに基づいて、その画像のファイル形式、圧縮方式、色補正、その他の設定を選択することになる。そして、我々の方針がある画像群全体に適用される時や、あるいは、誰か他の人が、我々が共有したり予測したりできなかった目的で我々のデジタル代替物に取り組む時、我々は、我々の代替物が、それを作り出した時点での見通しによって形成されてきたという事実に直面せざるを得ない。この意味で、人文学研究にとってのデジタル化の真の価値とは、我々が取り組んでいる資料について我々が知っていると考えたことを外在化することになるという点であり、そしてその際に、デジタル化は、それらの資料の意義ある特徴を我々がどこで見過ごしたり誤解したり、あるいは誤って再現したりしてきたのかを示してくれるのである。

私の考えるところ、NCSEのウェブサイトの「編集者注記」の欄ほど、この点を示すのに適切な例はない。そこでは、〔デジタル化によって〕代理される資料の取り扱いに関して、編集理論と実務上の現実の間の齟齬が極めて詳細に述べられている。その難しさと有意義性の両方を示すために、ここではいくつかのセクションを引用しておこう。

逐次刊行物は、それを、タイトルごとに全く異なっており時間と共に変わっていくテクストとしてでなく、一つの対象であると認識しようとした時に問題を抱えることになる。そのテクストが逐次刊行であるということによって、各号の形式は決定されるのだし、図書館といった組織や各読者によってアーカイブされる仕方も変わってくる。また方法論的に言えば、逐次刊行物を途上にあるものとして捉える視点も重要だろう。すなわち、それは常に、今日に残っている形式であったわけではないのである。それをどう編集するかを決めるにあたって(すなわち、そのテクストのどの部分が重要であるかを考えるにあたって)、私たちは、そのジャーナルが過去に持っていた形式をそのまま保持しようと努力している。例えばNCSEをブラウジングすると、そこには〔そうした試みとして〕、様々な版、広告、補完物、あるいは分野、号、巻などが挙げられている。デジタル化にあたっては、資料に一定の秩序を課すという介入がしばしば必要になるが、その雑誌や新聞がそれら自身の歴史を可能な限り伝えることができるよう編集してきた。

こうした言明は極めて秩序立っているように思われるが、資料の細部へと綿密に接近した瞬間、それは実際にはかなり雑然としたものであることがわかる。

複数の版があるということは、その逐次刊行物にはいくつもの文脈があるということを意味している。〔…〕例えば、『ノーザンスター』は土曜日発行の週刊誌だが、実際には、その版に応じて、木曜日の夕方、金曜日の朝、土曜日の朝ないしは午後に発行されていた。同様に、『リーダー』誌も都市版では土曜日発行ということになっているが、地方版は前日の金曜日に発行されていた。また、これら二つの雑誌は週刊だが、それは常に同じ版を見ているときに限る。例えば、いくつかの記事は都市版と田舎版に共通しているが、直前の7日間〔都市版〕あるいは14日前に始まる前週〔田舎版〕を扱っているというように、異なる記事もある。

私にとって、これはロセッティ・アーカイブのためにSGMLのDocument Type Definitionの元となるものを開発していた時のことを思い出させる。そこで、私たちはロセッティの絵画ならびに詩の構成要素を繰り返しモデリングするということを経験した。すなわち、私たちは、これらの資料の特徴、各部分間の関係、さらには各資料や諸関係を代理するタグを付けるにあたってのルールに関して〔モデリングをしながら〕、何度も議論をしなければならなかったのである。そして、いずれの場合でも、資料のデジタル化というプロセスが関与しなければ、あるいは学者や専門家が関係しなければ、このような議論は起こらなかったはずだと思う。しかし、こうした議論を通じて、学者が資料を理解するとはどのようなことかが特定されていったのである。

人文学にとってのデジタル化の第一の価値が、デジタル化された再現を通じて、希少な資料を多くの人に利用可能とすることにあるのだとしたら、そして第二のより深長な価値が、解釈を外在化し、この解釈を代替物の形式で再提示する点にあるのだとしたら、私たちは人文学者として、デジタル化の対象に関しての私たちの信念や理解および、それにあたっての見通しや目的を考え直し、再評価する必要があるだろう。もちろん、それは学者がデジタル化のプロセスにいずれかの段階において実際に関わっているときのみ、実効性のあるものとなる。というのも、そうでなければ、自己批判あるいは自己理解となるだろうものが、門外漢の欠点に対する単なる非難となってしまうだろうからである。他方、NCSE、ブレイク、ロゼティ、その他多くのプロジェクトが示したように、この種のプロジェクトの成功には、その分野の専門家以外の人との、すなわち、ライブラリアン、プログラマー、タグ付けの専門家などとの共同作業が必要である。ここでは、有り得べき連携の一つの可能性として、学者はライブラリアンから目録作成、分類、情報の整理、保存、アクセスなどについて多くの知見を得ることができるという点を言っておきたい。同様に、ライブラリアンも、その資料の特色と素晴らしい点をよく知っている――よく知っていると自認している――専門家から、個々の作品、作者、運動、文献について多くのことを学ぶことができる。そして、同様の補完性が、プログラマー、マークアップの専門家、出版者などとの間でも機能する。

そして次に、現時点では学者にとってそれほど明らかではないかもしれないが、グーグルブックスのようなデジタルコレクションに対して新しい計算手法を適用する機会である、という論点もある。このようなコレクションは、今まで前例にない規模で資料を集積しているが、新しい発見または分析のための方法を必要としている。このような方法というのは文学研究にとっては新しいかもしれないが、コンピュータ言語学や、別の文脈で自動学習を研究している人たちにはそれほど新しいことではない。

ハティトラストは、「ビッグデータ」コレクションのひとつの事例で、ここ数年で脚光を浴びるようになった。それは、グーグルブックのために図書館のコレクションをデジタル化することに関して、先見の明を持って学術図書館とグーグルを仲介している。交渉のすえの同意に基づいて、グーグルは図書館から元資料を借り受け、デジタル版――すなわち、機械可読のテキストとページ画像――を返す。ウィスコンシン大学マディソン校を含めた、CIC (Committee on Institutional Cooperation) に加盟する多くの図書館は、グーグルブックのスキャニングに関わった。CICの図書館は、もし個々の図書館が独立して並行的にインフラを整備したのであれば別々に払わなければならなかったはずの費用を分担するという形で、共有されたレポジトリーにデジタル化された資料を保存する計画を練り上げた。2011年11月8日現在において、ハティトラストは以下のものを所蔵している。

  • 9,728,814冊
  • 5,164,518タイトルの書籍
  • 256,880タイトルの逐次刊行物
  • 3,405,084,900頁
  • 436テラバイトの情報
  • 距離にして、115マイル
  • 重量にして、7,905トン
  • 全体の27%にあたる、2,654,933冊がパブリックドメインに収められている。

http://www.hathitrust.org/

時間をかけてサイバーインフラストラクチャーについて話をしてきた。私はまた2006年に、人文学と社会科学のためのサイバーインフラストラクチャーに関して報告書を書くことにも携わった。人文学と社会科学にとって、ハティトラストはおそらく、サイバーインフラストラクチャーが実際にどのようなものなのかに関して、これまでで最良の例を示してくれると考えている。しかし、話は、デジタルリソースの膨大なコレクションの構築ということで終わるわけではない。ハティトラストを使って、現状においてそうであるように、パブリックドメインにある資料――あなたの図書館が拠出した資料――にアクセスしたり、検索したりすることができる。しかし、ハティトラストは、エンドユーザが自身の研究のためにこうした資料を再処理したり、他の研究組織からの著作権で守られた資料にアクセスしたりできるコンピュータ環境を提供していない。このギャップを埋め、研究と教育のための出版物に対する包括的なコンピュータ・アクセスの提供を目的として、イリノイ大学とインディアナ大学のチームは「ハティトラスト研究センター〔HTRC〕」を提案し、現在、構築に着手したところである。この研究施設は、次の二つの段階を経て構築される。

  • 第一段階、2011年7月-2012年12月。既存のツールやインフラを使って、パートナーのサイト間でHTRC機能を利用可能とする(インディアナ大学、イリノイ大学、米国立スーパーコンピューター応用研究所〔NCSA〕)。
  • 第二段階、2013年1月スタート。HTRCリサーチコーパスと関連付けられたインデックスに、継続的な更新アクセスを提供する、運営リサーチセンターを構築する。

このようなリソースを持つということは非常に重要なことだと考えている。というのも、研究ツールやサービスの開発者はこうしたリソース周辺に彼らの労力を投入することができるし、また、研究に関連するコンテンツの利用のみが重要であり、自分の興味がある資料を含まないテストベッド上でしか機能しないツールには何の関心も示さないような研究者が利用する可能性も高められるからである。しかし、HTRCだけですべてがすむというわけではない。人文学の研究者はリソースの利用の仕方を理解するために、ローカルなアシスタンス、共同作業、サポートを必要とするだろうし、そのサポートはITと図書館の専門家の連携によって提供されるだろう。そして、私は、彼らが研究事情をサポートしていく過程で、ITと図書館の専門家という区分はあまり重要でなくなっていくだろうと予想している。こうした理由で、私は将来の研究サポートの役割について、組織やギルドといった観点からというよりも、機能といった観点から考えることが重要だと思っている。

しかし、実験的設備を立ち上げるという技術的なプロセスに加え、法的な同意に関する問題もある。今日、巨大なデータに関わる人文学研究にとって、最大の難問は、著作権および使用に関する契約上の制約にある。HTRCはこの困難を、厳重に管理されたコンピュータ環境を構築することによって乗り越えようとしている。インディアナ大学とHTRCは、Alfred P. Sloan基金から三年間の助成金を得て、著作権のある資料を対象とするコンピュータを使った研究に関して、実験的にも理論的にも非消費的制約に適うシステムのプロトタイプを構築しようとしている。グーグルはまた、デジタル化し図書館に返されたパブリックドメインにある資料に関して、使用に制約をかけている。こうした理由によって、HTRCは上記プロジェクトの第一段階において、パブリックドメインにあるがグーグルによってはデジタル化されていない約30万冊のコレクションに関して作業を行っている。同時に、イリノイ大とインディアナ大の間で、さらにはこの二大とミシガン大の間および、この三大学とグーグルの間で基本定款をかわし、こうした提携をさらに広げようとしている。より多くの同意が必要となるだろうが、私たちはハティトラストの加盟機関に優先的なアクセス権を与え、新しい研究サービスを試したいと望む出版社とパートナー契約を結び、さらに幅広くハティトラスト非加盟機関や研究者へのサービスを提供することを考えている。商業利益と営利企業が人文学における巨大データの創造の原動力となっていることを考えれば、これらの困難というのは回避することはできないでしょうが。

現段階までのデジタル化は主として図書館と美術館に焦点を絞っているが、所蔵量はアーカイブズの方がはるかに多く、こちらの資料のほうが自動的にデジタル化する際には、より大きな困難を伴っている。というのも書籍とは異なり、アーカイブズの資料は、本や文書、さらには他の媒体も混在しているからである。米国公文書館(NARA)は、自身のことを以下のように記述している。

〔私たちは、〕アメリカ史において重要な出来事を記録した文書を保存し、それへのアクセスを提供する米国政府の機関である。私たちのアーカイブは、その多くは手書き原稿の、百億ページもの一点物の文書を収蔵している。また、そこには、地図、海図、航空写真、静止写真、工芸品、動画、音声、映像記録など様々なフォーマットも含まれる。

NARAは、そのコレクションをデジタル化するという野心的な計画を持っている。その際のデジタル化の戦略は、Fold3.com(「7900万枚ものオリジナルな軍事記録のウェブ・コレクション」)やAncestry.com(世界中からの約70億もの記録を有する「オンライン上の世界最大のファミリーヒストリーのリソース」)といった、商業的サービスとの非排他的なパートナーシップを含んでいる。

私たちがこうした複数の機関を跨ぐ官民のパートナーシップを通じて、膨大な文化記録のデジタル化を進めるにつれて、あらゆるメディアにおいて、権利や許可に関する問題に遭遇することになるだろう。そして、そこには、ニューヨーク公立図書館によって利用可能となった70万点の画像のように、権利の状態が均一なコレクションもあれば、様々なソースに由来するARTstor Shared Shelfコレクションの300万点の品目のように、そうでないものもある。

権利の問題に加えて、様々な種類の文化遺産資料を横断してデジタル化することの必要性をさらに重要な点として挙げることができる。すなわち、膨大なデータのコレクションをさまざまなフォーマットで作成することが必要なのである。こうした巨大なコレクションは翻って、コンピュータ処理に関して、満たすべき新しい要件を作り出す。ひとたびコンピュータによって処理可能な文化記録の表象形式が決まれば、その処理方式はその記録すべてに適応されうる。すなわち、その結果によって、人文学における研究課題が変わってくるのである。人文学における研究および教育にとってのデジタルデータの利用可能性という観点からいえば、私たちは豊穣の時代に入りつつあるし、人文学者にとってのみならず、ライブラリアンやIT専門家、情報学者、ツールの製作者にとっても、実際にエキサイトするような機会に恵まれるだろう。しかし、こうした機会とともに、私たちは、とりわけ権利や許可の分野において、大きな難問や障害に直面するのであり、そこではライブラリアンが、著作権のある資料の研究を可能にしてくれるような制度上の同意を取り付けるのに重要な役割を果たすことになるだろう。

権利の問題に加えて、ライブラリアンや人文学の研究者にとって、他にもいくつか重要な問題がある。私はデジタル代替物の価値から話を始めたが、結論として、デジタル代替物を製作している人たちに、嘆願ないし助言とも受け取れる、いくつかの所見を述べさせていただきたい。

テキストマイニングを目的としたデジタルの一次資料の集積に携わった過去四年間の私の経験では、ブラウジングにせよ、検索にせよ、常に同じ仕方で、当初準備された環境のもとで、それが使用されるという考えのもとで準備されたテキストは、ある種の情報を暗黙の裡に保持している。それは、テキストそれ自体のうちにはどこにも明示的に現れているというわけではないが、システムのうちにしばしば遍在的に含意されている。あなたは、集められたリソースを新しい目的のために新しい文脈で集積し、結合させようとした瞬間、実用的観点から次のことに気付くでしょう。すなわち、それを作成した人は、それをそのオリジナルな文脈においてしか処理されないと想像していたということを。例えば、あるテキストは、パブリックURLも、ユーザをそのテキストのパブリック版へと返すことを可能にしてくれるパブリック識別子も持っていないし、それがエンコードされた規則を同定するスキーマが適切に提示されていないテキストもしばしばある。そして、そうである場合は、一般的にアクセス可能なバージョンでないことが多い。テキストのみが与えられていて、それが処理されたシステムが与えられていない場合には、その実体参照などは解析不可能になりかねない。いってみれば、それは、データがパジャマを着た状態のまま東京駅で見つかったというような状況なのであり、新しい環境に対して適切に実装されていないのである。とはいえ、TEI(Text Encoding Initiative)のガイドラインに従ったというのだけでは十分ではないし、テキストを準備した過程について完全に文書化したのだとしても十分ではない。たしかに、こうしたことは助けになってくれるだろうが、それによって、相互運用性が保証されるというわけではないからである。

テキストマイニングのプロジェクトにおいて、私たちのチームは、ソースとなる資料を、そのコレクション特有の様々なフォーマットから私たちがTEI-A(このAは分析を意味している)と呼ぶ共通フォーマットへと書き換える自動的手順の開発にかなりの時間を費やした。率直に言えば、この作業は初めは必要でないと思われたが、そうではないことが判明した。テキストマイニングでは、極めて細かい粒度(正規化された綴りとともに、単語のみならず、レンマでも)でのテキストへのアクセスが必要とされ、テキストを統計的に比較可能な断片(章や段落など)に分割化するための一貫した方法も必要とされる。こうした要件のいずれをも満たさないと、ツールがいかに洗練されたものであったとしても、〔書き換えの〕結果は、ノイズを孕んだ、信頼のおけない、無用のものとなってしまう。しかし、こうした要件を満たすことができれば、大きなコレクションには、時の経過に伴う語彙の変化から、ジェンダーによる文法パターン、様々なジャンルの文学における流行の盛衰、さらには登場人物間、作者間、概念間の関係図まで、多種多様な興味深いパターンを見出すことができるのである。

デジタルな代替物から数多くの次元を引き出し、それ自体で十分に価値のある、高品質なデジタルヒューマニティーズのプロジェクトの例を、私たちはすでに多く持っている。しかし、研究者においても学生においても、多分、テキストマイニングのためではなく、何らかの他の目的のために、自分たちが提供しているリソースをほかの資料とともに集積する理由をある段階で考えるようになることは不可避だろう。こうした集積の要請は、単にこのコレクションを他のコレクションと並列的に検索し、ブラウズしたいというものかもしれないし、そこに張り付けられたxmlや画像のためかもしれません。しかし、いずれの場合も、このコレクションに関する分割化、ネーミング、レンダリング、概念化という観点から、極めて注意深く考えられ、下された決定が、より広いコンテクストにおいて再び、再考を促されるということはあるだろう。それはそれでよい。というのも、学問的コミュニティにとって、このことをする利益は、個々の学者がその最初の段階においてデジタル化から引き出そうとしたものと同じなのだから。それは、共有された理解の程度と限界を、共有された存在論、共有された目的の程度と限界を、注目を浴びている対象に対して、そのコミュニティ内部で明確にしてくれるだろうから。

最後にまた、図書館という視点に戻りたい。今日、話をしてきた集積は、長期的な保存という利益があるし、学問的コミュニティ内での自己理解の機会にもなりえる。もし図書館のコレクションが、新しい仕方で――とりわけその作成者が想像したものを超えた仕方で――使われるために、そのもともとのテクノロジーや知的なコンテクストから離脱しなければならないのだとしたら、その弱さ、特異性、見逃された点、短所が、その当初の環境の下ではそうされなかった仕方で、露わにされるということである。しかし実際には、これこそがコレクションの長期にわたる生存性と有用性にとって、重要な点なのである。なぜなら、デジタルの世界では、保存とは定期的な使用から帰結するものであり、もっと別の使用法があるということは、より良いことなのだから。

参考文献

Some of the foregoing was originally drafted by the author for The Evidence in Hand: Report of the Task Force on the Artifact in Library Collections, published in November, 2001, by the Council on Library and Information Resources: http://www.clir.org/pubs/reports/pub103/pub103.pdf

Menne-Haritz, Angelika and Nils Brübach. "The Intrinsic Value of Archive and Library Material." Digitale Texte der Archivschule Marburg Nr. 5: http://www.uni-marburg.de/archivschule/intrinsengl.html

Nineteenth-Century Serials Edition, “Editorial Commentary,” at http://www.ncse.ac.uk/commentary/index.html

Sitts, Maxine K. Ed.. Handbook for Digital Projects: A Management Tool for Preservation and Access. First Edition. Northeast Document Conservation Center, Andover, Massachusetts, 2000: http://www.nedcc.org/digital/dighome.htm