« 青海波(4)加筆 | トップページ | 古典総合研究所 語彙検索 »

2006年10月 1日 (日)

源氏物語の語彙検索(KWIC)

『源氏物語』は、あれだけの長編ながら、かなり統一的に特定の言葉や事物に特別な意味づけを与えています。
例えば、「きよら」と形容される人物と「きよげ」と形容される人物の区別や、1人の例外を除いて皇統に関わる人物しか演奏しない琴の琴の扱いなどは、有名なところです。
こうした『源氏物語』中での言葉・事物の用例を調べるときに非常に便利なのが、語彙検索データベースです。

源氏物語の語彙検索(KWIC)

便利さを実感するには使ってみるのが一番早いのですが、いくつか特長を挙げておきます。

  • 1文字から検索可能
  • HTML改行タグでの区切りを単位に検索

この2点は、検索漏れを防ぐ意味で重要です。
紙媒体の本から起こしたデータを検索対象とするデータベースの場合、2行にまたがっている単語は検出できないことも少なくないのですが、1文字で検索すれば、改行による検索漏れの心配はありません。
(ただし、単語中の1文字だけを検索対象とする方法は、その文字を含む別の単語もすべて検出してしまい、検索ノイズが増えますのでご注意を)
また、源氏物語の世界での改行は、基本的に文末及び地の文と会話文・内話文との切り替わり部分で行われていますので、ひとつの単語が改行タグをはさんで記述されていることはまず考えられません。
ごく普通に用例を検索する分には、素直にその単語を入力すれば問題ないと思います。

  • リンクで前後の文を辿れる

検索結果一覧として最初に表示されるのは検索語の前後数十文字ですが、リンクを開くとその語を含む1行(上記のとおり改行タグで区切った範囲)が表示され、更にそのページから前後の行へのリンクが用意されています。
長大な『源氏物語』ですから、中の1行だけを表示されてもそれがどの場面なのか常にぱっとわかるとは限りませんけれど、リンクを辿って前後が読めると、場面の把握が楽になります。
しかも、遡ったり進んだりできる行数に制約はありません。
また、検索結果画面に表示される、その文を含む巻名の部分が源氏物語の世界へのリンクになっていて、その巻の本文全文のページに飛ぶこともできるようになっています。

  • 複数語検索が可能

2つの単語を検索窓に入力すると、OR検索(どちらかの語を含む行を検出)になります。
同時に、同一行に両方の単語が含まれている場合は、検索結果の右側に印がつき、AND検索(両方の語を含む行を検出)と同じ結果を得ることもできます。

以上のように、とても便利で優れた検索システムですが、注意が必要な点もあります。
特に正規化処理をしていないため、検索語は源氏物語の世界の本文表記そのままでないと検出されません。
例えば、「壺」と「壷」は全く別の文字として扱われますし、「美し」と漢字で検索すると「うつくし」と仮名表記された用例は一切ヒットしません。
源氏物語の世界の本文自体も、すべて統一した表記になっている訳ではないようですので、検索漏れを防ぐには、仮名と漢字、異体字などをひととおり試した方がよいでしょう。

日本ブログ村のランキングに参加しています。よろしければクリックをお願いいたします。
 にほんブログ村 本ブログへ にほんブログ村 歴史ブログへ

|

« 青海波(4)加筆 | トップページ | 古典総合研究所 語彙検索 »

資料紹介」カテゴリの記事

コメント

この記事へのコメントは終了しました。

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/113097/11109473

この記事へのトラックバック一覧です: 源氏物語の語彙検索(KWIC):

« 青海波(4)加筆 | トップページ | 古典総合研究所 語彙検索 »