続・世界最大級のコーパス・COCAを使ってみよう(準備編)

データの中身をちょいとばかり垣間見ていた前回に引き続き、今回は早速世界最大級のコーパス(=例文共起検索)である、COCA検索がどんなものなのかを簡単に見ていこうかと思います。

 

まず最重要の前提として、COCAはどうやらログインしないと使えないようなので、アカウント登録をする必要がありますね。

とはいってもアカウント登録に必要なのはメールアドレスだけで、もちろん無料で利用が可能ですから、ちょっと英語を本格的に使って/学んでみようかなと思う方は、登録して損がないように思います。


登録はCOCAトップページの、上の方にある人型のアイコンやLOG INという文字リンクをクリックして出てくるページで、REGISTERという文字列リンクをクリックすれば可能ですね。


REGISTERをクリック/タップすれば、この画面に移行すると思います(↓)。

https://www.english-corpora.org/register.aspより

以上のように空欄にご自身の情報を入力して(ご丁寧に、「入力は30-40秒で終わります」という「そんなのその人次第でしょ(笑)」としか思えない余計なお世話な情報も上部に表示されていますが(笑))、よくある同意ボタン(I agree...)にチェックを入れるとともに、ランダムで表示される青ボックス内のアルファベット5文字を入れて「SUBMIT(登録)」ボタンを押すだけですけれども、そのちょっと上にある、緑・黄・赤の「カテゴリー」というのは一体…?


これは、薄い灰色文字で注釈があるのですが、以前は大学の言語学の教授または大学院生がレベル3(緑=研究者)、言語学以外の教授や大学以外の教師はレベル2(黄=準研究者)、その他の学生およびそれ以外の全員はレベル1(赤=非研究者)で、各レベルごとに1日あたりのアクセス数に制限などがあったみたいなんですけど、現在はそのカテゴリーは撤廃されており、どのレベルでも何の違いもなく、同じ回数のアクセスができるようになっているみたいです。

(こちらの説明記事にある通り、カテゴリーによる差別・区別を撤廃した理由としては、一つには「登録者が本当に『言語学の研究者』かどうかを毎日確認するのに、もう疲れた…」という現実的なものがあり(笑)、より重要な二つ目としては「公正さの視点に基づく。なぜ学習者は教授たちよりもアクセス権が少ないのか?学習者が教授よりもコーパスを必要としないのだろうか?答はノーだね。なので、今は誰もが同じレベルのアクセス権を持つことになったのである」と書かれていました。良い判断に思います。)

 

…とはいえ、これはどうやらEnglish-Corpora.org全体のアクセス制限に関してのようで(また機会があれば触れる予定ですが、このサイトにはCOCA以外にも複数のコーパスが存在しています)、どうも、COCA自体にはアクセス制限があるようでして、その数、たったの1日あたり20クリック

実は今回記事の作成にあたりいくつか例として検索をしていたら、同じフレーズの検索結果内でもちょっと別のものをクリックするだけで回数が加算されるようで、あっさり上限に達してしまいました。

これは正直かなり不便なんですけど、まぁ、世界中から日々来る大量のアクセスに耐えるサーバーの維持には、仕方ないのかもしれません。

 

ちなみに、COCAはWikipedia同様、非営利組織による運営なわけですが、とはいえサーバーの維持とかに資金が必要なのは当然の事実としてあるようでして、プレミアム登録での課金も可能になっているようです。

僕はアカウントはきちんと登録してみたものの当然無料ユーザーですけれども、無料ユーザーは1日のアクセス制限があるばかりか、検索したら、非常にしばしば、以下の画面に移行してちょっとの間停止してしまいます。

無料ユーザーにたまに強制表示されるメッセージ画面

日本語訳のリンクまで用意されている丁寧な対応っぷりですが(笑)、何なのか読んでみると、

『English-Corpora.orgへの基本アクセスは無料ですが、「プレミアム」アカウントへのアップグレードはいかがでしょうかというお尋ねのため、時折このメッセージが表示されます。

1ヶ月12ドル、1年なら30ドル、2年だと55ドル、3年であれば驚きの割安価格75ドルでの利用が可能であり、お支払いいただければこのメッセージは二度と表示されません。

大学の中にはアカデミックライセンスが用意されていることもありますよ。

あなたのサポートに感謝します』

…みたいな(一部、「激安!」みたいな煽り文句は僕が勝手に足したものですけど(笑))、まさかの、単なる宣伝ページでした(笑)。


これが結構、この画面が挟まれたらそのまま10秒とか20秒ぐらい何も出来ずに固まってしまうので(ずっと待つと、本来移動する予定だったページのリンクが上部に表示されて移動できるようになります)、意外と不便なんですけれども、まぁ無課金ユーザーのくせにこれだけの便利なツールを使わせてもらってるわけですから、文句はつけられないといえましょう。

 

そんなわけで、コーポラサイト全体の制限はある時点以降緩くなったようなのに、COCA自体には結構な制限がある形ですね。

本当に言語学を研究されている方であればプレアカも価値がある気もするものの、やはりライトユーザーだと、そこまでするのもどうかと思えますし、無料でありがたく使わせてもらうのが一般的でしょうか。


ちなみに、登録用のメールアドレスですが、既に研究者/非研究者の区別は一切なくなったみたいですし、一般アドレスでいけるのかも試してみたかったので、僕は(一応大学ドメインのメアドを持ってはいるものの)Gmailを使いましたが、きちんと登録ができました。

改めて、ヘビーユーズする予定の方には確実に価値のあるツールですし、完全有料化しても文句は言えないクオリティに思えるサービスですから、多少の制限はあっても無料アクセスできること自体が感謝の限りに思える形ですね。

 

そんなわけで無事アカウント登録もして検索が可能になった所で、僕はまずこないだ話に出していた、「all of history」「all of the history」というフレーズが、どの程度使われ方の差があるかを調べてみていました。

検索画面のスクショは撮り忘れてしまいましたが、普通にトップページの検索ボックスにワードを入力して検索するだけですけど、一応、1単語の場合と違い複数フレーズだと何か少し注意書きが出ていた気もするものの(既に今日の検索上限に達してしまい、どんなメッセージだったか確認できません)、表示されたリンクをクリックすればそのまま以下に載せるリスト表示に辿り着けるはずですね。

 

そんなわけで以下が検索結果ですが、まず「all of history」を調べてみた所、ヒット数は199件!

「all of history」のCOCA検索結果リスト表示より

(あんまりその199という数の大小は分からなかったものの)しめしめ、やっぱりこの表現はそんなに数も多くないし、(当時は間違った表現だと思っていたので、)あまり使われてないね…と思ったのですが、「all of the history」を検索してビックリ!

 

「all of the history」のCOCA検索結果リスト表示より

ギャヒョーン!10億語以上収録のデータベースから、このフレーズが登場してくるのはわずか18例のみ!!

 

theなしの「all of history」と比べても、誇張なしに桁違い(10倍以上)の差ということで、「これは…どう考えてもtheなしの方が一般的な表現といえそうだね……」という推論に至って、こないだの謝罪記事につながっていた形でした。


その違いについてはこないだ触れたからともかくとして、今回は検索結果の方を見ていきましょう。

実際の検索結果としては、どうやらこのリストは新しい順に表示されているようですけど、theありの方は、ACAD=アカデミック・学術論文の方からの由来(こないだの記事で見ていた通り、「○○の歴史」という限定があれば、theありの表現でも全く問題ない(というかそれが正しい)ので、アカデミックな記事がヒットするのも半ば当然ですね)に始まり、その下はTVFIC(フィクション)、WEBBLOGSPOK話し言葉)などなど(上に貼ったtheなしの方は、MOV(映画)の例から始まっています)、一応色々なジャンルで使われていることがハッキリ見て取れますし、かつ前後の文脈含めて例文が表示されて実際の使われ方が一目瞭然という便利っぷりですね。


この時は(というか今時点でも)チェックし忘れましたが、上の方にある「ANALYZE(分析)」ボタンや、例文の前にある小さなアイコンをクリックすることで、恐らくその例文をもう少し詳しく見ていくことができるのではないかと思います。

アクセス制限が解除されたら、またチェックしてみようと思います。

 

せっかくだから、他なんかもうちょい面白い検索はないかな……と思い色々考えてみたんですが、有名な英語フレーズなんて全然知らなかったものの、「あ、ターミネーターの決め台詞、『I'll be back』とかがあるかチェックしてみるのも面白いね!」と思いつき、こんなしょうもない検索で貴重なアクセス回数を数回使ってしまっていたのでした(笑)。

とはいえ、ちょうどいい知見も得られたので紹介してみますと、まず、「I'll be back」で検索したら、こんなエラー画面がヒットしてきました。

アポストロフィー付きの検索に関するエラーメッセージ

どうやら、アポストロフィー(’)付きの検索は二語に分けて行う必要があるようで、指示に従い「I'll be back」を「I 'll be back」と、アポストロフィーの前にスペースを加えて検索にかけ直してみた形です。

 

そう検索したら無事にリストが表示されました、出て来ましたね、ザクザクと!

「I 'll be back」の検索結果

当たり前ですが、ターミネーター以外でも使われる台詞ですし、1ページ100件が59ページも存在しているため、5900以上のテキストで使われているフレーズといえそうです。

 

…と、ページ内検索してみるためにとりあえず1000件表示に変更してみた所、1000件にしたら順番が何順なのか分からないグチャグチャなものになったものの、Terminatorと検索したらいましたね、ターミネーター2さんが!

検索結果・1000件表示

リストの311番目に、1991年の映画『Terminator 2』の台詞として、I'll be back, alright?という台詞がヒットしてきています。

 

…と、例文に挙げておいてなんですが、実は僕、ターミネーターは(一度どこかで書いたことがあった気がしますが(検索したら、分子生物学転写ターミネーター記事とかで触れてましたね(笑)。これも途中状態のまま脱線し続けて今に至るシリーズですが、果たして戻れる日は来るのか…)、一応映画はDVDで見たことがあるものの、色々な傑作漫画で目の肥えた自分にはそこまで印象に残るものでもなかったため)正直ほぼ覚えていないぐらいの感想しかないんですけど、検索したら、この決め台詞は本来「2」ではなく、シリーズ初作のシュワちゃんの決め台詞だったみたいですね。

このコーパスは1990年以降の文のみ収録で、初代ターミネーター1984年の作品のようですから、そちらがヒットすることは決してないという残念な形だったものの、まぁ一応映画『ターミネーター』シリーズに出てくる台詞として「I'll be back.」が見つけられたのでヨシとしましょう(笑)。

 

とはいえ今考えるとこの検索方法はあまり賢いものではなく、既にアクセス制限に引っかかった後で気付いたのですが、映画『ターミネーター』の台詞を調べたいのであれば、検索オプションで「セクション」の指定を行うのがいいやり方でしたね。

方法としては、検索する際に「Sections」ボタンをクリックしたら出てくるリストから…

セクションの選択オプション

当然、TV/MOVIESを選び(左側・①のリスト)、ついでに絞り込みとして、横の②で、Movの中からサブセクションも選べるようですけど、まぁこれはターミネーターがアクションなのかSFなのか(上のリストでは表示されていませんが、SFは英語で「Sci-Fiサイファイ)」と表示されることが多いですし、このリストでもそうなっていました)とかはイマイチ分かりませんし、まぁサブセクションはあえて指定しなくていいかもしれないものの、せめてTV/映画を選択した方がより良かったのかもしれません。

 

ちなみに全然関係ないですが、昨日の記事で触れようと思って忘れていた点がちょうど目につきました。

昨日もコーパス収録の映画リストを見ていた時に思った話として、今貼った画像のリスト②で選択してあるActionの一つ下にもあった、映画のサブジャンル「Adult」というのが、「アダ…アダルトォ…?!」と一瞬ドキッとしてしまったものの(笑)、前回のリストでちょうどその「Adult」セクションになっていたのが『ティファニーで朝食を』だったので、これは例の意味のアダルトではなく「大人向け」のロマンス映画みたいなジャンルのことだといえましょう。

 

……と、昨日時点ではそう思っていたのですが、よく考えたらその映画は1990年だったし、『ティファニーで朝食を』がそんなに新しいわけなくない?!と思ってもうちょいしっかり見てみたら、有名なオードリー・ヘプバーンさんの『ティファニーで朝食を』の原題は『Breakfast at Tiffany's』でしたが、件のリストに載っていたのは『Breakfast with Tiffany』で、実はやっぱり違う作品だった!

…まさかまさか、これは日本でもありがちな、クソパロディタイトル的な作品、いわゆるアダルトな作品なのか……と思って検索してみたら、なんと!

 

https://www.google.com/search?q=%22Breakfast+with+tiffany%22+1990より

Google検索結果で、普通に「クラシック・ポルノ」的なサイトでいくつも取り上げられているということで、ぬわんとまさか、Adultというのは日本語と同じそのまんまAdultという意味でした(笑)。

(って、そのまんまも何もAdultは大人という意味ですが、まぁその文脈のアダルトってことですね。)

 

いやぁ~、「AV(オーディオ・ビジュアル)機器という文字列を勘違いする中学生でもあるまいに……」と書こうと思っていたのに、普通に英語でも「大人向け」は「Adult」で表されるとは、こりゃ一本取られましたね~。

そんなわけで、これはむしろアダルトな作品まで網羅しているコーパスの懐の深さに感銘すべきポイントといえる気がします(笑)。

 

…ってな所で、大したネタでもないのに案外いいボリュームになってしまったため、当初「実際の検索・基礎編」として、フレーズ検索以外にも、より色々な情報の見られる単語検索も見ていく予定でしたが、そちらはまた次回にまわさせていただきましょう。


あぁあと一つだけ、最後のコーパス画像(映画のセクションリスト)をわざわざ広めに撮ったのは、アカウントの人型アイコン横に赤丸が表示されていることを示すためで、これは24時間以内に20回を超えるクリックをしてしまった状態でして、こうなると容赦なくエラーメッセージが表示され……

アクセス制限に達したら容赦なく表示されるエラー画面

↑では、既にエラー画面が出てからもう一回クリックを試みていたので、「あなたは『word』ページを[21]回表示しており、24時間以内の[20]回制限を超えています」と表示されている形ですね。

先述の通りこのサイトはフレームで管理されており、「戻る」をクリックしても基本的にトップページに飛ばされるなど、既に見たページを辿ることすらできなくなり、一度回数を超えてしまったが最後、最早エラー画面を指を咥えて眺めるしかなくなる……という制限があることにご注意ください、という話に触れておき、また続きは次回にしようと思います。

にほんブログ村 恋愛ブログ 婚活・結婚活動(本人)へ
にほんブログ村