続々・世界最大級のコーパス・COCAを使ってみよう(実際の検索編)

一連のCOCAシリーズ、前回はアカウントを登録し(無料)、「I 'll be back」と検索して、「凄い!ターミネーターの台詞がちゃんと出てきたよ!」とキャッキャしていたわけですが、しかしコーパスの本来の使い方はそうではなく、「この単語・フレーズは、どういう語とよく結びついて使われているのか?」ということを探るのがメインの使い方といえるわけですね。

(もちろん、誰がどう使おうがそんなのは自由ですし、実際「あれ、あの名台詞、前後の文脈は何だっけ…?」という際、1990年以降の有名作品であればきっとヒットしてきてくれますから、台詞集としても有能なツールであるのは間違いない感じですね。

 とはいえ英語限定なのは残念ですけど、そういえば日本語版コーパスってないんだろうか…?ハイコンテクストな言語である日本語は、英語に比べて表現に幅がありすぎるし、やっぱりないかな…?と思いきや…!

clrd.ninjal.ac.jp
 国立国語研究所・言語資源開発センターの提供されている、「現代日本語書き言葉均衡コーパス」として、無償・登録不要版の『少納言』、そして恐らくその機能拡大版である、登録制(とはいえこれも無料のようですが)の『中納言』という便利なオンラインツールが公開されているじゃあありませんか!

 本題からは外れますが、面白そうなので登録不要の少納言(どうでもいい点ですが、これはナイスネーミングですね)で、コーパス検索を1回試してみましょう。

…何がいいかな、と思いましたが、ここはやはり志村さん関連で、「青い」という形容詞がどういう文脈で使われているのかを調べてみよう(「青い花」は出てくるかな?)と思い、検索してみたら当然あまりにも大量の結果が出てきたため、この際「青い花」で志村作品がヒットすることはあるのだろうか…?と思い再検索してみた結果……

青い花」の少納言検索結果トップ10の抜粋

 お!この少納言は、まさかのYahoo知恵袋やYahooブログのテキストも収録だそうで、何と、8番目に、間違いなく志村さんの『青い花』について語っているであろうブログがヒットしてきていますねぇ~(「一部で話題になってるらしい、女子高恋愛物」うんぬん)!


…って、ただそれだけで、日本語の場合前置詞で迷うこととか、(これは自分がネイティブだからかもしれませんが)語句の組み合わせ・結びつきの強さを知りたいこととかもまずない(自分の感覚の方が頼りになるというか、仮にあまり使われていない言い回しでも、自分の耳にしっくり来るなら普通に使おうと思える)ため、あまりコーパスを使いたい場面はないかなぁ…とは思えるものの、特に日本語学習者の方には極めて有用なデータベースといえそうですね。

 本題のCOCAとは全く関係ない前フリでしたが、自分に不慣れな特定のジャンルでのよく使われる言い回しを探る上では、これも大変便利に思えるナイスなツールの紹介でした。)


それでは本題のCOCAに戻りましょう。

前回は「all of history」や「I 'll be back」などのフレーズ(複数単語)を検索しましたが、前回貼ったような実際にこのフレーズが使われている例文がズラーッと表示されるのももちろん極めて有用なんですけれども、何気にCOCAは一単語のみでのWORD検索の方が、より詳細でめちゃ役に立ちそうなデータを参照可能になっているようです。

一単語検索の例として今回は、COCAトップページ最上部に表示されている「Five minute tour(5分ツアー)」というリンクページで紹介されていた、サンプルワードの表示を参考に見ていこうと思います。


こちらがそのサンプルワード一覧ですが…

COCAの5分ツアーページより

まぁ一番上の、「bread(パン)」という単語が良さそうですね。

(なお、サンプルワードに限り、ログインせずに閲覧可能です。当然1日のアクセス制限に引っかかっても見ることができるので……と思っていたら、解放されているのは最初のページのみであり、ちょっとでもリンクに触ると地味にカウントが加算されているようだったので、これまた注意が必要かもしれません。)


ではこちら(↓)が早速、上記ツアーページに表示されていた「bread」という単語をクリックして見られるサンプルページ(の上半分;サンプルといっても、実際の検索結果と同じ)になります。

サンプルワードbreadの検索結果より(以下同様)

…まぁ正直、この手のツールってマジで自分であれこれクリックしてみて自分の手で使用感を覚える以上のやり方はなく、マニュアルを見たり口で説明したりとかにはあんまり意味はない気もするうえ、24時間20回の検索制限のせいで僕自身まだまともに使いきれていないんですけど、せっかくなのでごく簡単に何が分かるのかを見ていきましょう。


まずは左上に、当然単語「bread」があり、その横に「(noun)」とあるように、これは名詞として使われる「bread(パン)」限定の説明ページのようです。

何気にこの単語には動詞もあるようで、すぐ下の「See also: VERB」のリンクをクリックすると、動詞・breadへの表示切替も可能ですね。

動詞(verb)に表示切り替え

意味も掲載されていますが、動詞の「bread」は「1. パン粉をまぶす、ちょうどトンカツのように」という感じで、地味に意外な意味で驚きでしたけれど、横にある数字=登場頻度が表している通り、名詞は#2386番でしたが、動詞は#35029番ということで、文字通り桁違いで名詞の方がよく使われていることが見て取れます(「パン粉をまぶす」なんてニッチすぎる表現、ほぼ使わないのは想像に容易いですね(笑))。

 

そしてそのすぐ下にある一番目を引く棒グラフは、各セクションでの登場頻度であり、名詞のbreadは、MAG(雑誌)で一番よく登場する単語ということが分かりますが、これは雑誌のパン特集とかで使われそうですし、納得の形といえましょう。

(動詞の方は、なぜかNEWSがトップになってますけど、これは謎ですね(笑)。実際の例文を見ればどういう文脈で使われているのかが分かるかもしれませんが、またしてもアクセス制限上限にあっさりと達してしまったので、現在確認が出来ない状況です。)


棒グラフの下が単語の意味と、それから発音が聴けるリンクと翻訳(Translate)ボタンなんかもありますが、これは単にGoogle翻訳ページが開く形のようですね。


その下はSYNONYMS、つまり類義語が載っていますが、類語トップに「cash」と来ている通り、この単語は日常会話で「お金」の意味でも使われているということで、こういうのも勉強になります。

 

そして画面右側にいくと、TOPICS(話題)とCOLLOCATES(結び付き)なんてコーナーがありますが、これはページ上部により詳細が見れるリンクがあるので、そちらでまた見てみましょう。

 

続いては、大きさ的に一枚の画像には入らずにカットしていた、検索結果ページの下半分ですね。


CLUSTERS(かたまり)として、これがコーパスで一番見たいデータでしょうか、まずbreadの次によく出てくる一単語(bread crumbs(パン粉)、bread with(~入りのパン)など)、そして前に出て来る一単語(white bread(白いパン)など)、さらには次によくつながって来る二単語のかたまり(bread and butter(パンとバター))、前二単語(loaf of bread(パンくず))、そして三単語……と、breadとつながって一緒に出てくる単語がリストアップされている形になります。

これを見ればbreadとつながりの強い単語がよく分かり、英作文をする際の強力な参考材料にすることができるという感じですね(全く出てこないような単語をつなげるのは、正直危険!)。

 

その下のTEXTS / VIRTUAL CORPORAは、「キーワード」としてこの単語が登場しやすいセクションがリンク付きで挙げられているようですがこれはまぁあんまりどうでもいい感じでしょうか。

 

そして一番下、途中までで切れていますがさらにズラッとページ最下部まで続いているCONCORDANCE LINES(一致ライン)というのは、前回も見ていた実際の例文のリストアップですね。

 

では先ほど言っていたものも含まれる、上部にリンクがある「Collocates」「Clusters」「Topics」「Texts」「KWIC」を具体的に見てみましょう。

 

まずはCollocates(結び付き)ですが、まぁリンク筆頭で挙がっている通り、これもコーパスで一番知りたいデータの一つといえますね。


具体的には、breadという単語の近傍に出てくる単語が頻度順で、しかも品詞ごとに分類されて表になっています。

表は4つありますが、左から名詞・形容詞・動詞・副詞ですね。

恐らく色が濃いほど「極めてよく一緒に登場する」高頻度語で、一番濃い色の項目は名詞「leaf(パンくず)」「slice(パンのスライス)」、形容詞「white」、動詞「eat(食べる)」「bake(焼く)」、そして副詞「freshly(新鮮に)」という感じで、そらまぁこいつらはパンとよぉ一緒に出てくる単語でしょうな、というのが窺えますが、実際自分の使いたい、あまり身近ではない単語で調べたら、この「よく一緒に顔を出す」単語のリストは、自然な英作文をする上でめちゃんこ役に立つものだといえましょう。

 

続いてのClusters(かたまり)は、先ほども見ていた通り、breadの+/-1語、2語、3語の塊でつながってくるフレーズがズラッと、これまた当然頻度順に並んでいる感じですね。

例えば3語前の最も使われているものとして挙げられている「day our daily bread」なんてのは、聖書の祈祷文「Give us this day our daily bread」(自分の欲のためではなく、日々必要なものを祈りなさい、という意味)の一節でめちゃくちゃよく使われているものなんでしょうね。


なお、上部にある「LIMIT:」という部分で、各語のつながりの強さ(冠詞や前置詞をカウントするか、など)を設定できるようですが、これはまぁ上級オプションで、特にいじる必要もないように思えます。


なお、もちろんこの画面でも動詞に切り替えることが可能で……


動詞だと、例えば続く2語の塊で最もよく出てくるのは「bread and fried(パン粉をまぶし、揚げた)」となっているなど、これも納得の用法ですね。

 

続いてのTopicsは、こちらはウェブページのデータベースを参照することで、同じページに登場してくる語句を集計したものになるようです。

 

Collocates(結び付き)よりも、よりその単語の持つ大まかな「センス」「使われ方」を上手に反映することもあるでしょう……みたいなデータだと説明されています。

まぁ個人的には、文章内で直接つながる単語の方が知りたい気もしますけど、このリスト上位は salt(塩)や cook(料理する)や pepper(胡椒)など、確かにパンを語る上で欠かせない表現が挙がってきている感じですね。

 

それをさらに、ウェブページごとに詳しく紹介してくれているのが、その次のTextsのようです。


まぁ先ほども書いた通り、その手の情報は普通に検索した方が早い気もしますし、あんまり重要・有用ではない気もするかもしれません。

 

そして最後のKWIC、これはKey Word In Contextの頭文字語のようで、まぁ普通に例文リストのようですね。

このデフォルト画像では一語後でソートされているようですが、左に来る後でのリソーとも可能なようです。

 

そんな感じで、具体的なWORD検索の結果で見られるのはこんな感じの情報になりますけれど、どれも大変有用なデータ群といえましょう。

なお、複数語で検索した場合は上のメニューバーにある「WORD」が「FREQUENCY(頻度)」になり、上で見ていたWORD内の各種単語の詳細情報は見ることができず、出現頻度のグラフしか見ることができない感じですね。


なお、「FREQUENCY」の横は「CONTEXT(文脈)」で、これは前回見ていた通りの、実際の例文がズラッと表示される形ですから、複数語検索の場合、個人的に一番気になる「Collocates(結び付き)」や「Clusters(かたまり)」が表示されないのは若干残念です。

(…って、もしかしたらどこかにあるのかもしれませんが、1日20検索限定の状況では、今のところ見つけられませんでした。

 LSD(ライフサイエンス辞書)コーパスは、複数語でも問答無用でその前後の単語を表示してくれるので、その点LSDの方がやや便利かな、って気もします。)

 

しかし、COCAの本領はもっと深い所にあり、COCAはより複雑な条件での検索も可能になっているんですね。

それがズバリ、「あいまい検索」とでもいいますか、いわゆるワイルドカード的な検索が可能になっているという話になります。


例えば、トップページの右側の説明文・下の方に「例として…」と挙がっているように…


検索ボックスに入力してありますが、例えば「BUY * ADJ NOUN」と検索することで、「buyという単語の次に何らかの単語が来て、その後に形容詞、名詞と続くフレーズ」を調べることなんかが可能なんですね。


…と、この検索文字列での検索結果のスクショを撮り忘れており、しかも再度検索しようと思ったらちょうどこの日の21件目になりエラー表示になってしまったため、COCAでの検索がまたしてもできなくなってしまいました!


しかしちょうどいい機会なので、COCA以外のコーパスにも触れてみるとしましょうか。

トップページ一番左上にある、四角から矢印が飛び出ているアイコンをクリックすると、English-corpora.orgで利用可能なコーパス一覧が表示されます(↓)。


これを見ると分かる通り、COCAは実は収録語数最大ではなく、さらに語数の多いコーパスがいくつか存在するようですが、しかし、アメリカ英語のみ、かつ収録データが「バランス型」である、最も一般的といえる英語コーパスはやはりCOCAだといえそうですね。


とはいえせっかくなので、先ほどの「BUY * ADJ NOUN」の検索結果を見るべく、緑色でハイライトされている上から2つ目のiWebコーパスとやらを使わせていただきましょう。

幸いにして、20回制限はCOCA検索についてのみのものであり、iWebは普通にまた0からのカウントになっていて、しっかり利用可能でした(これも20回制限があるみたいですけどね)。

(※追記修正:この時はそう思っていたのですが、後日見てみたら、両者は同一のカウントになっていました…。

 その辺含め後日の記事でこのサイトの不安定性にも触れているのですが、たまによく分からない挙動を示すのも、このサイトの可愛い所かもしれません(笑))

 

で、結果がこちらですね。


このように、「buy+何か単語(この場合ほとんどが「a」ですが)+形容詞+名詞」というフレーズがズラッと表示され、世界で最も使われているこのパターンの表現は、一番上に来ている「buy a new car」だということが分かる感じですね。

 

ちなみに、上の方にある「IMAGE」リンク、これは何だ?と思ってクリックしてみたら、普通にGoogleの画像検索で各フレーズがサーチされるだけでした。

文字列の検索をしているのに、あんまり要らない機能ですね(笑)。

 

…といった所で、今回はこの辺で一区切りとし、次回はこの応用検索について、実際にどういった検索が可能なのかをまとめて、コーパスシリーズはおしまいにしようかと思います。

にほんブログ村 恋愛ブログ 婚活・結婚活動(本人)へ
にほんブログ村