カレントアウェアネス-E
No.411 2021.04.22
E2372
2020年度NDLデジタルライブラリーカフェ<報告>
電子情報部電子情報流通課・鈴木遼香(すずきはるか),髙橋美知子(たかはしみちこ)
2020年12月10日および2021年1月15日,国立国会図書館(NDL)は,2020年度NDLデジタルライブラリーカフェを開催した。本イベントは,デジタルライブラリーに関わる研究や最新動向についてテーマを設定し,その分野の専門家を講師として招いて楽しく語り合う一般向け講演会である(E2081参照)。今回は初めてのオンライン開催となり,遠方からの参加を含め,各回約20人の参加があった。
●第1回「ウェブアーカイブの活用と課題:WARP と国内外の事例から」
第1回は「ウェブアーカイブの活用と課題:WARP と国内外の事例から」をテーマとし,NDL職員からインターネット資料収集保存事業(WARP)や国内外のウェブアーカイブ提供事例の紹介を行った。そして,株式会社日本データ取引所の上島邦彦氏と国立国語研究所コーパス開発センターの浅原正幸氏から話題提供を受けた後,参加者を交えてディスカッションを行った。
NDL関西館電子図書館課からWARPの現状と発展として,許諾による民間ウェブサイトの収集を始めとした近年の収集対象拡大状況や,WARPの永続的識別子(PID)の活用例である機関アーカイブ等を紹介した。またウェブアーカイブの課題は技術開発面から学術研究における利活用面に変化しているとし(CA1893参照),引用文献のリンク切れや内容変化への対応事例として法律分野の引用文献保存サービスPerma.cc等,利用しやすい二次的データセットの提供事例として英国図書館(BL)のUK Web Archive,データセット作成ツールに関する開発プロジェクトとして,Internet Archiveやカナダの大学に所属する研究者が中心となって進めているThe Archives Unleashedプロジェクトを紹介した。
上島氏はウェブアーカイブの市場価値について,最終成果物である公開データの他,対象データ選定,収集,組織化,保存の各工程で作成されるデータがそれぞれ異なる利用価値を持つと述べた。また,WARPについて,データ内容は充実していると評し,提供するデータセットの種類拡大や,現在は行われていないオーダーメイド集計の提供について発展の余地があると述べた。浅原氏は「国語研日本語ウェブコーパス」等の開発経験から,WARPの学術研究面での有用性は収集対象の統制による品質保持,そして大規模なテキストデータ提供にあると述べた。また,「国会会議録検索システム」(E2240参照)について,言語研究の調査に多用されており,アーカイブし続けることで未来の言語研究者の重要なデータとなるだろうと評した。
ディスカッションでは,データの利用拡大には,流行や時事によらず多様に使える汎用的なオープンデータセットの提供や,巨大で多様なデータの統合的な分析に使えるように,メタデータへの日本十進分類法(NDC)による分類付与やData Catalog Vocabulary(DCAT)等の標準的な語彙とWARPからの出力項目との対応表の作成・公開が有効等の意見があった。
●第2回「新春企画:2021年の人文学」
第2回は「新春企画:2021年の人文学」をテーマとし,国立歴史民俗博物館(以下「歴博」)の橋本雄太氏,千葉大学の小風尚樹氏,歴博の亀田尭宙氏,佐賀大学の吉賀夏子氏からの取組紹介の後に,参加者を交えてディスカッションを行った。
橋本氏は「みんなで翻刻」(E2353参照)を取り上げた。2019年にIIIF(CA1989参照)対応を行い,デジタルアーカイブとの相互運用性が向上したことで,地域資料アーカイブから「みんなで翻刻」への資料提供に結び付いたり,海外にある日本関係資料へアクセスできる可能性が向上したりと,様々な好影響があったことを示した。小風氏はText Encoding Initiative(TEI)を用いた『延喜式』のテキスト化プロジェクトを紹介した。テキスト化およびTEIによるマークアップを行うことで,古代日本の行政史料である『延喜式』を機械的に分析可能なデータにする試みである。得られたデータを用いて先行研究を検証したり,新たな研究を行ったりすることが可能になる一方で,同様のプロジェクトの実施には専門知識やマンパワーの確保,全体のマネジメントが課題となるだろうと提起した。
亀田氏はLinked Data(CA1746参照)であるWikidataの活用の可能性について,歴博の研究データベースであるkhirinとWikidataの連携を例に挙げて紹介した。Wikidataは,信頼性に留保が必要であり,永続性確保のためにデータベース連携時の設計に工夫が必要であるとしつつも,様々なデータをつなげるハブとして有用であると結論づけた。
吉賀氏が構築に携わった「小城藩日記データベース」は,江戸期の藩業務日誌の要約である「日記目録」に着目してデータ化しており,膨大な量がある日誌本文のデジタル画像データを,目録テキストやキーワード等で検索することが可能になっている。テキスト中に多く出現する地域や時代固有の語彙を検索キーワードとして抽出することが大きな課題であったが,郷土資料を読める地元市民の熱意ある参画により解決したと紹介した。
ディスカッションでは,現代文か歴史文献かを問わず日本語のテキストデータは入手が難しいという悩みや,Wikidataや時間情報解析ソフトウェアHuTime等との連携が有用であったという経験が共有された。また,対象資料の範囲を絞るとプロジェクト化しやすい,マンパワーと専門性の確保はどちらも重要,プロジェクトに参加したりプロジェクト全体を統括したりする人材の育成も重要,といったプロジェクト運営に関する意見も多く紹介された。
全体を通じてデータ提供者,専門家,利用する市民の協働が多く論じられ,それぞれの立場の「人」がつながる仕組みづくりの重要性を実感する機会となった。
Ref:“2020年度「NDLデジタルライブラリーカフェ」”. NDL Lab.https://lab.ndl.go.jp/event/digicafe2020/“国立国会図書館データのURI”. NDL.https://www.ndl.go.jp/jp/dlib/standards/lod/uri.htmlPerma.cc.https://perma.cc/“More than 9 million broken links on Wikipedia are now rescued”. Internet Archive Blogs. 2018-10-01.http://blog.archive.org/2018/10/01/more-than-9-million-broken-links-on-wikipedia-are-now-rescued/UK Web Archive.https://www.webarchive.org.uk/ukwa/The Archives Unleashed Project.https://archivesunleashed.org/“オーダーメイド集計の利用”. 総務省統計局.https://www.stat.go.jp/info/tokumei/order.html国語研日本語ウェブコーパス.https://bonten.ninjal.ac.jp/“Data Catalog Vocabulary (DCAT) - Version 2”. W3C.https://www.w3.org/TR/vocab-dcat/小風尚樹, 後藤真. 『延喜式』へのTEI適用と日本史資料のテクストデータ共有・流通. 国立歴史民俗博物館研究報告. 2019, (218), p. 315-327.https://www.rekihaku.ac.jp/outline/publication/ronbun/ronbun9/pdf/218005.pdfText Encoding Initiative.https://tei-c.org/Wikidata.https://www.wikidata.org/wiki/Wikidata:Main_Pagekhirin.https://khirin-ld.rekihaku.ac.jp/小城藩日記データベース.https://crch.dl.saga-u.ac.jp/nikki/HuTime.http://www.hutime.jp/青池亨. 2018年NDLデジタルライブラリーカフェ<報告>. カレントアウェアネス-E. 2018, (358), E2081.https://current.ndl.go.jp/e2081調査及び立法考査局議会官庁資料課. NDL,国会会議録など4つの検索サービスをリニューアル. カレントアウェアネス-E. 2020, (387), E2240.https://current.ndl.go.jp/e2240橋本雄太, 加納靖之. みんなで翻刻:歴史資料の市民参加型翻刻プラットフォーム. カレントアウェアネス-E. 2021, (408), E2353.https://current.ndl.go.jp/e2353前田直俊. ウェブアーカイブの利活用に向けた動き-世界の潮流とWARPの取組-. カレントアウェアネス. 2017, (331), CA1893, p. 9-13.https://doi.org/10.11501/10317594永崎研宣. IIIFの概要と主要APIバージョン3.0の公開. カレントアウェアネス. 2020, (346), CA1989, p. 13-16.https://doi.org/10.11501/11596735武田英明. Linked Dataの動向. カレントアウェアネス. 2011, (308), CA1746, p. 8-11.https://doi.org/10.11501/3192158