オプションも豊富だよ(COCA)

こないだの記事でCOCA(言語データベースコーパス、一般アメリカ英語の世界最大級ツール)の話は一区切りつけていたつもりでしたが、もうちっとだけ続くんじゃスタイルで、いただいたコメントから話を広げさせていただきましょう。

 

まずは、前回触れようと思っていた(けど触れる暇のなかった)、検索オプションについての補足です。

検索ボックス下にある、Optionsをクリックすることで、様々なオプションが選べるとともに、右側にはヘルプ解説文も表示されていますね。

(このヘルプは、こないだ見ていたPOSのヘルプの下にも、たまに表示されている感じでしたが…。)

 

検索画面で、Optionsをクリックした様子

せっかくなので、こちらも翻訳引用しておくといたしましょう。

 

その他のオプション

# HITSは検索結果の数を示す。

# KWICは、KWIC(コンコーダンス;一致リスト)検索の結果数を示す。

GROUP BY では、単語を語形でグループ化するか(例:decide と decided を別々に表示する)、レマでグループ化するか(例: decide の全ての形を一緒に表示)、単語の品詞を表示するか(例:名詞と動詞の beat を別々に表示)、などを決定する。

CASE SENSITIVE(大文字小文字一致)は、She thoughtとshe thoughtが異なる検索になるか、またはThe Officethe Officethe officeが異なる検索になるかどうかを決定する。

DISPLAYは、頻度の生データ、100万語あたりの出現回数、またはその組み合わせのいずれかの表示を決める。

SAVE LISTSを選ぶことで、検索結果から単語リストを作成し、後で検索に再利用することが可能となる。

 

…まぁ大した話でもないですが、CASE SENSITIVEをオンにすれば大文字小文字の一致も選択可能ですが、よっぽどのことがない限りこれは不要でしょうか。

(しかし、全部大文字にするとレマ化(=複数形など、活用した形も一緒に検索)でしたし、「全部大文字の文字列」を検索したい場合はどうなるんでしょうね…?

 このオプションをチェックしたら、レマ化はもしかしたら無効になるのかもしれません。

…と、検索回数に多少余裕があったので検索してチェックしてみた所、以下のことが分かりました。

 先ほどのヘルプで例として挙げられていた「OFFICE」という単語を検索してみた結果、こちらが「CASE SENSITIVE」オフの状態……

大文字小文字を区別しない検索結果

 一方こちらが「CASE SENSITIVE」をチェックした状態での検索結果です…

大文字小文字を区別する検索結果

…まず、どちらの結果も、OFFICEもOFFICESもヒットしていることから、レマ化は無効化されていないことが分かります。

 そして、「大文字小文字を区別」をオンした方では、大文字と小文字の違いを異なるエントリーとして分けて表示してくれているということで、僕は当初、この機能は「入力した通りの大文字・小文字表記のみがヒットしてくる」んだと思ってたのですが、どうやら実際はそうではなく、どう入力しようとも「その入力文字列検索結果のあらゆる大文字・小文字パターンが分けて表示される」という形のようで、これは結構便利な機能かもしれませんね。

(改めて、このオプションをチェックしたら、入力した通りの大文字・小文字以外の結果を切り捨てるのではなく、異なる大小パターンを分けて、存在するもの全てを表示してくれるようになるだけということで、情報量は確実に増えるという形なわけですね。)


…とはいえまぁあんまり大文字小文字を分けてもらう必要性があることもない気がしますし、データが散らばって見辛くなるだけともいえますから、普段はチェックする必要はないかもしれません。)

 

一方、GROUP BYというオプションは、これはこないだ見ていた応用編でもチラッと触れられていました。

ここで、「NONE (SHOW POS)」を選ぶと、品詞を表示して結果を出してくれるとのことでしたね。

せっかくなので、このオプションも使ってみましょう。


ちょうど、一番最初に貼ったスクショでは、前回見ていた「ワッチャマコーリ」を、GROUP BYで「NONE (SHOW POS)」が選択された状態で検索する形になっていました。


こちらを実行したのが、こんな感じ(↓)ですね。

(なお、最上部に使うコーパスが表示されていますが、前回語数最大のデータベースNOWコーパスを使って調べておりそちらが結果の数が最多だったので、今回ここでもNOW検索にしました。)

品詞表示の検索結果

おぉ~、見事に品詞が分けて表示されていますね!

(しかも、年次ごとにヒット数を分けてくれる丁寧っぷり!)

JJ」が形容詞、「NP1」が単数形名詞であり、正直「NP1_JJ」とか@マークがどういう意味なのかはよぉ分かりませんが(笑)、とりあえず形容詞的に用いられている「わっちゃま」や名詞的に用いられている「わっちゃま」など、ちょっと違う使われ方をしているものも存在する形だね、ということがよく分かる、面白い検索だといえましょう。


とはいえこれも、よっぽど文法解析をしたいような方以外は、まぁそこまでの情報は不要かな、と思えるかもしれませんね。

でも、学習者には有用な機能なのは間違い内容に思います。

 

…といった所で、COCA検索(まぁCOCAに限らず、English-corpora.orgの全コーパス(複数形なので、正確には全コーポラですが)で共通の話なので、「COCA検索」という表記もやや適切ではないかもしれませんが)は、色々なオプションも便利に使えそうですね、という補足ネタでした。


まだちょっとスペースに余裕がありそうだったので、COCAラストネタとして、前回コメントいただいていた「わっちゃま」以外に挙げられていたフレーズも、せっかくなのでちょっと検索してみようかなと思います。

改めてコメント該当部を再掲しておくと、こんな感じですね。

登録できたら、

特に理由もないですが、

it's gonna be alright

を調べてみようと思っていたんですけどね。

(え?アポストロフィがあるけど、ちゃんとできるかな?…まで妄想しました笑)

あと、

わっちゃまも!笑

また時間のある時にチャレンジしてみようと思います。

 

…そう、この「it's gonna be alright」というフレーズ、こちら、アンさんが「ちゃんとできるかな?」と書かれていた通り、何気にかなり罠があって難しい、お試しでやってみる検索チャレンジとしては申し分ない素晴らしい例であり、面白かったので触れさせていただいた次第になります。


まず当然、これはこないだ既に学んでいたお話…「アポストロフィがある場合、スペースを空けないとエラーになるんだよね、知ってる知ってる」と思い、当然、「it's」の間にはスペースを加えておきます。

また、せっかくなら何らかの活用もまとめて検索できた方が、もしかしたら凄く似てるフレーズも発見できて面白いかもしれないな、と思えたので、全単語レマ化もしてみましょう。


以上2点を総合して、全部大文字(レマ化)して、itと'sの間にスペースを忘れず、こんな具合ですね。

COCA検索画面(以下同様)

さぁ、何件ぐらい「it's gonna be alright」がヒットするかな~、ワクワク!


…と検索ボタンをクリックしてみた所、あるぇ~?

 


こないだも貼っていた、エラー画面(=「アポストロフィーがある場合は、スペースを空けるように」)が表示されてきました!

 

何でや、そんなこともう知ってるし、ITと'Sの間はスペースを空けたじゃろがい!

…と思ったのですが、よく見たらあぁーっと!!


「gonna」も省略語なので、これも二語扱いにしろと、ちゃんと下の方に例として具体的に表示すらされていたじゃあないですか!!


アポストロフィに気を取られて、gonnaの存在を忘れていたぜぇ~、と、無事原因を発見した所で、気を取り直してgonnaも「gon na」と分けて入力ですね。

 

指示通りしっかり二語に分けて、再検索、あらよっと!


…って、ぐわあぁー、まさかの再エラー!!


内容は、まさかの、ヒット数ゼロ(no matching)!


何故だ…?

うーん、「'S」とか「NA」とか、ホンマにそんな謎の単語ですらない文字列の検索大丈夫なんか…?と思い、そもそもレマ化して調べてるんだから、よぉ考えたら活用させなくてもいーじゃん、と気付いたこともあって、ちょっと検索をアレンジしてみることにしました。

「'S」は「BE」に(大文字レマ化なので、「is」やその省略形「's」も含む感じですね)、「NA」とかいう分かりにくいものは、これはそもそもgoing toが短縮したものなので、まぁいわばgoが活用したものっしょ、ってことで「GO」とし、さらに念のため、ワイルドカード「*」をつけて「gonna」という単純な「go」の活用ではないかもしれない表現が来てもいいように、「GO*」とした感じですね。


いざ、再検索ぅ!

 

お、何か出てきた…!

…と思ったら、まさかの「NO MATCHES」再び…!!


なんと、3つ目の「GO*」、こちら、他のは「LEMMA(レマ化)」となっているのに、これだけ「POS*(品詞ワイルドカード)」となっていることからも分かる通り、どうやら全部大文字にしてさらにワイルドカードマークをつけると、コーパス的には「品詞のワイルドカード?」と思われてしまうようで、ダメみたいですね!

(前回見ていた通り、全部大文字で表記すると、場合によっては品詞指定の特別なタグにもなってしまいます。)


むーん、上手く行かない……ほな、大文字にすると品詞タグ化しちゃうんなら、小文字で「go*」とすれば、「goなんとか」という語がヒットするしえぇやろ、と思い試してみると…


ついにヒット!

 

…と思いきや、何じゃこりゃあ~、結果はたったの1件で、具体的な英文は「It was goodyou're alright」とかいう、いかにもミスタイプによりgoodとyouがつながって一語になってしまった、変な例文じゃあないですか!

 

一応、こんなミスみたいな英文も、やっぱり10億語も登録されてるとなると存在しちゃうんだね、という面白い発見ではあったものの、目的の文に辿り着きません…。


もしかしてこの英文はこの世に存在しないんだろうか??……と悲嘆にくれたものの、よく考えたら「gonna」はコーパス的には「gon na」と二語扱いだし、大文字の「GO」の時点でレマ化されて活用形についてはそれだけで全部OKなんだから、「GO*」ではなく、間にスペースを空けて、「GO *」のようにして「go(活用あり)+任意の一語」で検索すればOKなのでは…?とハタと気付き、ラストチャンスで試してみることにしました。

 

今度こそ渾身の一撃だ、さぁどう出る…?

 

検索、ポチィーっとな!!

 


キタアァーーー!!

 

目的の「It's gonna be alright」は、46件、他にも、レマ化により類似の表現もヒットしてきており、gonnaを省略しない形の「It's going to be alright」もしっかり出てきてくれたものの、これはやはりgonnaよりは数が少ない感じですね。

 

せっかくなので、両者の例文を全部引用紹介しておきましょう。

It's gonna be alrightが使われている例文(長すぎたので二画面合成)

(17と18が飛んでるのはなぜ?って感じですが(笑))

 

It's going to be alrightが使われている例文

 

やはり、映画 (MOV) の台詞が多いようですね。

 

しかし個人的には、先ほどのリストにあった、「It's gonna been alright」なる表現が気になりました。

gonnaはgoing toですから、この後に続く動詞は原形なわけで、beenが来るのはどう考えても文法ミスなわけです。

なぜか2件もあったようですけど、そんなミスっちゃってる文が使われているのは、一体どんな文章・場面なんだい…?とチェックしてみると!!

It's gonna been alrightが使われている例文

なんと、映画、『New Rose Hotel』!


…って映画モグリな僕は別にその作品は知りませんけど、例文をよく見たら、「Fuck me. Hiroshi…」などという、いかにも日本人的な名前が出てくるじゃあないですか。

もしや、日本人の作った映画で、英語のミスがそのままになっているとか…?と思い調べてみたら……

 

ja.wikipedia.org
日本語Wikipedia記事はあったものの、これは普通にアベルフェラーラ監督のアメリカ映画だったんですけど、驚いたことに、Hiroshiはまさかの日本人で、衝撃なことに、その役が、ファイナルファンタジーのイラストなどでおなじみ、天野喜孝さん

さらにはなんともう一人日本人が出演しており、それがまさかの我らが坂本龍一さん

 

まぁ坂本さんは映画音楽とかも手がけられているしご本人も表舞台に登場されているのでそこまでの驚きではなかったものの、我らが天野さんがまさかハリウッドデビューされていたとはめちゃんこ意外でした(まぁハリウッドではないかもしれませんけど(笑))。


ということで、この英文は、日本人も登場してくる映画での台詞だったということで、もしかしたらちょっと文法的に拙い感じをあえて出すための、意図的なものだったのかもしれませんね。

 

レマ化して検索することで、そんな面白い発見もあって何よりでした。

 

しかし、そもそもなぜ「IT 'S GON NA BE ALRIGHT」でヒットしてこなかったんでしょうかね…??

理論的には、これでも普通にいけるはずですが……あぁ、これも結局、NAが全部大文字・かつ単語っぽくない2文字のみということで、これももしかしたら品詞タグとして認識されてしまったのかもしれませんね。

それならそれでさっき一度見ていた具体的な表(「何のせいでヒットしないのか」を教えてくれていた表)を出してくれればありがたかったわけですが、しかしまぁそれはともかく、レマ化とワイルドカードを使ったおかげで謎の映画「ニューローズホテル」に出会うことができたので良しとしましょう。


ちなみにやはり原因はレマ化だったようで、全部小文字で「it 's gon na be alright」と検索してみたら…

余裕でヒットしてきました(笑)。

とはいえこの場合は他の類似表現はヒットしてきませんし、改めて、レマ化を使いつつ検索することに成功したので、苦悩の道のりもそれはそれで収穫があった、としたい所です。

 

…という所で、ちょうど書き終わったぐらいのタイミングで、アンさんから新しいコメントが届いており、無事に登録・ログインが出来、しかもアンさんはご自身でit's gonna be alrightの検索にも成功されていたようなのですが、そこからもうちょい面白そうなネタ・ご質問をいただいていました。

 

ちょいネタではありますが、次回またそちらに触れさせていただき、その後過去コメントの続きに行こうかと思います。

にほんブログ村 恋愛ブログ 婚活・結婚活動(本人)へ
にほんブログ村