ラスト・世界最大級のコーパス・COCAを使ってみよう(応用検索編)

それでは前回COCAの単語検索結果を簡単に見ていた所で、続いては応用検索の仕組み・使い方について簡単にまとめてみようと思います。

正直、ここまでの機能を必要とするのはよっぽど本当に言語学を研究されている方か、英文校正・翻訳を業務として使われているような方ぐらいであり、そういう方は日本語でのまとめなど一切不要にも思えるわけですけど、COCAはある時点(ここ数年)で大きくバージョンアップされていたようで、パッと検索して出てきた日本語の解説記事はどれも旧バージョンを用いたものだったため、一応日本語でサクッと見られる説明があってもいいかな、と思ってまとめてみた次第です。


では早速、トップページに表示されるヘルプ画面(※)を参考に、順に応用検索機能を見ていくといたしましょう。

(※検索入力ボックス横の、薄いグレーで [POS] ? と書かれている、その「?」をクリックすることで表示される部分です。例によってこのサイトはフレーム&JavaScript制御であり、直リンクが貼りにくいためスクショ画像を載せておこうと思います。)

COCAトップページに表示されるヘルプ画面より(以下同様)

「mysterious」のような形で単一の単語、「JUMP」のような形で単語の全ての形、「*break*」のような形で部分一致する単語、「more * than」や「rough NOUN」のような形で特定のフレーズを含む語を検索できる。また、同義語(例:「=gorgeous」)や、「@clothes_n」のようなカスタマイズされた単語リストでも検索可能である。いずれの場合も、一致する文字列が個別に表示される。

詳細は以下のリンク(※注:この翻訳引用ではリンクは切れていますが…)参照。

 

タイプ
単一の語 mysterious, skew
句(フレーズ) make up, on the other hand
任意の一語 more * than, * bit
ワイルドカード *icity, *break*, b?t?er
レマ(単語の形) DECIDE, CURVE_n
POS(Part of speech; 品詞) rough NOUN, VERB money
または検索 fast|slow, fast|slow rate
除外検索 pretty -NOUN (pretty NOUN とは違う)
類義語 =beautiful, =strong ARGUMENT

 

…という感じで、表の上から順番に詳しく見ていきましょう。

 

最初の単一の語フレーズについてはそのまんまなので特に何の問題もないとして(というか、前回までで見ていた検索ですね)、まずは三番目、「任意の一語」として、「*」(アスタリスク)が使える形です。

これを使ったやつは前回の最後にも応用検索の例として見ていたわけですが、例えば「buy * new」と検索したら「buy a new」や「buy the new」という、buyとnewの間に一語が存在して一つながりになっているフレーズがヒットしてくる形ですね(この場合は、aかtheしかほぼ考えられないのであまり意味がない気もしますが……あぁ、でも、どっちの冠詞が使われている例文もまとめて検索したい場合は、意味があるといえるでしょうか)。


なお、「*」はその次の「ワイルドカード」と同じ記号であることから、単語を指定するには前後を半角スペースで離す必要がある感じですね(離さないと、ワイルドカード=単語の一部になってしまう。もちろん言うまでもなく、「*」自体も半角で入力する必要があります)。

 

また、この記号は「一語」のみであるため、二語以上離れた特定のフレーズを調べたい場合は、「*」を複数用いる必要があります。

例えば「all * * history」で検索すると……

 


↓検索ぅ!


このように、allとhistoryの間に任意の二語が入ったフレーズがヒットしてくる形ですね(トップが「all of human history(人類の歴史の全て)」で、「all of the history」は5番目ぐらいの利用頻度のようです)。

 

続いてそのワイルドカードですが、こちらは「*」だと任意の文字数で、一文字だけを指定したいのであれば「?」記号を用いるという形になります。

例えば上の表で例に挙げられている「*icity」であれば、publicity(広報・宣伝)やtoxicity(毒性)などがヒットしてくるでしょうし(また検索回数上限間近なので、結果を表示する余裕がなくて恐縮ですが…)、「b?t?er」であれば、「?」に入るのは一文字限定なので、butter(バター)とかbitter(ビター・苦い)とかbother(面倒な)とかがヒットしてくる感じですね。

 

ここまでは単純(しかし便利)な機能ですが、ここからが言語学サーチたるコーパスの本領発揮といえましょう。

まず、Lemmaレマ・レンマとも表記される(?)=「単語の形」)というやつですが、これは聞き慣れない単語ですけど言語学ではキーワードのようで、何てこたぁない、これは、複数形のsや過去形などの活用形も含んだ形での検索を可能にしてくれる機能なんですね。

先ほどのヘルプページにはリンクで専用の説明ページが用意されていましたが、これはあえて引用するまでもなかったので、レマ説明ページの画像は省略しましょう。


単語をレマ化して検索するには、全部を大文字で入力すればよいだけになります。

つまり、DECIDEと検索すれば、「decide」のみならず、「decided」や「decides」や「deciding」という変化した形などで使われている文も一緒にヒットしてくるという優れものなんですね。

(一方、小文字で「decide」と検索した場合、純粋に「decide」という入力通りの形で使われている例文しかヒットしてきません。)


なので、前回最後に見ていた検索例では「BUY *」という形になっていたわけですが、このBUYは全部大文字だったので、buyのみならず、過去形のboughtや三単現のbuysなんかも一緒にヒットしてきていた形でした。

ちなみにこれは他の検索オプションと同時に使った場合でも機能するようです(例えば↓で見る同義語検索で大文字入力すると、ヒットする同義語も活用形込みのものになる、など)。

 

そして続いてのPOS(品詞)……これが最も強力なもので説明も長くなるため、ひとまず置いておいてその下から行きましょう。

 

まずその次の、「または」検索OR検索)ですが、これは単純、「|」(縦棒)で単語を区切るだけ(スペース不要)で、棒線の前または後ろの単語の両方を検索してくれる形です。

例にあるように、「fast|slow rate」と検索したら、「fast rate」(高速)というフレーズが使われる文と、「slow rate」(低速)というフレーズが使われる文の、どちらもヒットしてきてくれるわけですね。


続く除外検索も、これまた説明不要でしょう。

単語の先頭に「-」(半角ハイフン)を加えると、その語を含む文が検索から除外されるということですね。

例えば「-human* HISTORY」と検索すれば、「history」という語は含むけれど(大文字でレマ化しているので、historiesなども一緒にですね)、「human」で始まる語(humanやhumanityなど)は含まない例文がヒットしてくる形です。

 

そして表の最後は類義語検索ですが、これもかなりの便利機能で、単語の頭に「=」(半角のイコール)を加えると、類語を含む文もヒットしてきてくれるという形で、これは非常に英作文の強い味方といえそうです。

例えば、上の表で例示されていたものですが、「強い議論」という意味を持つ類似フレーズを知りたい場合、「=strong ARGUMENT」と検索することで、

「strong(強い)」の類義語+「argument」(議論)の、複数形も含む形(大文字でレマ化されているので)

…が含まれる文が検索可能だということですね。

これはどんな結果か気になったので、検索してみました。


元検索単語の「strong argument」よりも、トップに来ている「compelling argument」というフレーズの方がより利用頻度が大きいようなので、ちょっと凝った言い回しをしたい(あるいは既にstrong argumentと書いた後で、繰り返しを避けるために表現を変えたい場合)なんかであれば、この言い回しを使うのが洗練された英文を作るためには大変に良さそうです。

(一応、少し下の方にある複数形のargumentsだとstrongの方が上に来ていますが、大した差じゃないですし、むしろargumentという単語は単数形の方がよく使われる、という知見にもなりますね。)

 

あと続いては、上の表では取り上げられていなかったものの説明文にあった「カスタマイズ検索」ってのもあるみたいですが、これは自分であらかじめ単語群リストを登録しておき、それに対して一括検索する形で使えるものだそうで(サンプルとして、運営が「@colors」で色に関する単語リスト、「@clothes」で衣服に関する単語リストの2つをあらかじめ用意してくれており、これは誰でも使えるようですが、他のリストは自分で作る必要がある(作ることができる)とのことです)、まぁ正直、ネイティブの英文の使い方を見たいのに、自分が作ったリストで検索結果を狭めるなんてあんまりしたくもない気がするので、これは我々にはやや過ぎた機能かもしれません。

(とはいえ上手く使えば便利そうではありますけどね。無料ユーザーは、5個までリストを保存できるようです。)

 

それでは最後に品詞・POSについて見ていきましょう。

先ほどの表にあったPart of speechをクリックすると、解説ページにジャンプできます。

表もあるのでかなり長いですが、せっかくなのでスクショ画像を貼っておきましょう。


そしてせっかくなので、こちらも翻訳引用しておきましょう。

 

リスト表示:品詞


品詞を検索語の一部として使用することが可能である。例えば、「ADJ eyes」とすれば、形容詞の後にeyesという単語が続く、2つの単語からなる文字列を検索できる。他の例:rough NOUN(「rough」の後に名詞一語)、NAME Smith(固有名詞の後に「Smith」)、VERB * money(動詞の後に、何か一語が来て、その後に「money」)、TALK ADV(「talk」(活用形含む)の後に副詞一語)、NUM people(数字の後に「people」)、LET PRON VERB(「let」(活用形含む)の後に代名詞一語が来て、動詞が来る)など。

品詞タグを簡単に使うには、ドロップダウンリストから選択すればよい(検索ボックス横の[PoS]をクリックすると表示される)。また、品詞タグを直接検索フォームに入力することも可能である。

品詞タグの一覧はこちらをクリック


以前までは、品詞タグ(上記リンク先)を、例えば [j*] のように括弧の中に入れて使う必要があった。しかし、携帯電話でそれはちょっと面倒なので、現在では複数の方法が存在している―どれも同じように機能する。例えば、以下のやり方は全て、同じ文字列が検索されることになる:ADJ eyes, [j*] eyes, J eyes, _j eyes.(※注:どれも、形容詞一語の後に「eyes」ですね。)

 

1 2 3 4    
オリジナル 新版
(単語)
新版
(略記)
CQP
タイプ
説明
[nn*] NOUN N _nn  一般名詞 sun, love
[np*] NAME NP _np  固有名詞 John, Chicago
[n*]   NOUN+ N+ _n   一般名詞+固有名詞  sun, Sonny
[vv*] VERB V _vv   語彙動詞
(doやbeやhave以外)  
decide, jumped 
[v*]   VERB+   V+   _v   全ての動詞
(doやbeやhave含む) 
decide, has, is
[j*] ADJ   J   _j   形容詞 nice, clean 
[r*]  ADV   R   _r  副詞 soon, quickly 
[p*]   PRON     _p   代名詞 she, everyone 
[i*]   PREP     _i   前置詞 from, on 
[a*]   ART     _a   冠詞 the, his 
[d*]   DET     _d   限定詞 these, all 
[c*]   CONJ     _c   接続詞 that, and, or 
[x*] NEG   _x  否定 not, n't 
[m*]   NUM     _m  数字 five, 5 

(その他全ての品詞:タイプ1またはタイプ4を用いる。例:[nn2*] や _nn2、[cst*] や _cstなど)

 

上記のタイプ1またはタイプ4を使用している場合、品詞タグにワイルドカードを用いることができる。例えば、[nn2*] = 複数形の名詞、[n*] = 全ての名詞、[*n*] = 名詞(曖昧な名詞/形容詞タグを含む)など。タイプ2、タイプ3を使用する場合、品詞指定タグは大文字にする必要がある:short NOUNのように。

品詞タグを任意の単語の末尾に付けることも可能ではあるが、上記のタイプ1またはタイプ4のいずれかを使用する必要がある。例えば、end のみだと任意の品詞で end を検索するが、end.[n*] または end_n であれば名詞として使われている end に限定し、end.[v*] または end_v ならば動詞としての end に限定される。単語と品詞の間はピリオドと括弧(タイプ1)またはアンダースコア(タイプ4)で区切り、スペースがないことを確認すること。また、レマ検索と組み合わせることで、END_v や END.[v*] のように、指定した品詞である全ての活用形の単語を検索することができることも覚えておくとよい。

もし、ある単語(またはフレーズ内の単語)の品詞タグがわからない場合は、[OPTIONS] から、[GROUP BY] = [NONE] (SHOW POS)(グループ化=なし(品詞を表示))を選択すれば良い。例えば、light、back、front、in light ofの検索結果のにあるようなPoSタグを参照。

 

…という感じで、スペース区切りの単独の大文字タグ(タイプ2)なら、「何か一語の名詞」のような検索が、アンダースコア付きのタグ(タイプ4)を検索語につなげて使えば、その検索語の品詞を指定して検索ができる、という形ですね。


ちなみに、旧式であるタイプ1を使えば、極めて細かい検索(例えば[nn*]というのはワイルドカードであり、リンク先の「NNで始まるタグ全て」という意味になります。リンク先リストをご覧いただければ分かりますが「NNなんとか」タグは名詞を指定する細かいものがいっぱい用意されており(例:NNOタグで、「数字を意味する名詞」(dozen=ダースやhundred=百など))、ワイルドカードで指定することでそれ全部が含まれるので、「名詞全て」を意味することになる感じですね)が可能なわけですが、これは正直細かすぎるので、流石にそこまで高度な(細かい)検索は不要でしょう。

(当初、リンク先のタグも全部紹介しようと思いましたが、これが必要な方にその紹介は間違いなく不要に思えたので、省略しました。)

ややこしいっちゃややこしいですが、検索ボックス横のPOSから選べるので(タイプ2(独立語)とタイプ4(単語の品詞指定)の切り替えが可能)、恐らく使いたいものなんてそんなに多くないですし、上の表にあるもので十分そうですね。

 

そんなわけで、単なる説明の羅列でしたが、応用検索の方法でした。

次回は、ここ最近の記事でいただいてコメント・ご質問がまたちょっとあったので、そちらを見ていこうと思っています。

にほんブログ村 恋愛ブログ 婚活・結婚活動(本人)へ
にほんブログ村