謎はすべて解けた!

前回の記事では、「opus」(作品・オーパス)という単語は、複数形が「opera」にもなる(「opuses」と書かれることもある)という話から、なぜかコーパス(=大規模な言語利用例文データベース)・COCAでレマ化検索(=活用・変化形を含む検索)してもヒットしてこないという謎に触れていました。


そして、そのネタに気付かれたアンさんから、前回終わりにもチラッと触れていた通り、追ってまた一つ気になるCOCA検索ネタについてのコメントをいただいていたのです。

 

今回はそちらを取り上げさせていただきましょう。

特にコメント元の記事は関係ないですが、こないだのこちらの記事(→やっぱりまだまだ「分ける」のがトレンドなのかな…?)にお寄せいただいたコメントですね。


毎度大変面白いポイントのあるメッセージ、心から感謝しきりにございます。


順に、コメントの内、ご質問が含まれる部分を引用させていただく形です。

 

なるほど…COCAってこうやって使うのか…という感じで、とても勉強になりましたねぇ。といっても、それも後付けで、フンフン…って読んでる時は、

「あぁ、WILLね、、GONNAの方がそれっぽくてカッコいいのに…、っていうか、47件って、やっぱり少なすぎん?笑」

からの、

(all rightとalrightは先日の記事でも時代の流れでalrightになってきているというようなことが書かれていましたが、)

「これ、一語でも二語でも発音は全く同じじゃないん?そう思ったら、映画のセリフまでちゃんと区別されてて、凄いな、COCA先生。」(やっぱり台本とかでチェックされてる感じなんですかね?)


⇒途中の部分、そういえばall rightとalrightの発音は同じと断言していいんだろうか…?と気になってちょいと調べてみたんですが、またまたおなじみWordReferenceのQ&Aフォーラムにて、盛んに議論されているのが目につきました(↓)。

forum.wordreference.com

まぁ今回はそれがメインではないので細かくは紹介しませんけれども、例によってお役立ちコメンテーターのLoobさんがまた回答投稿をしてくれており、やっぱりLoobさんのコメントはなるほどと思えるなぁと思えたため、そちらにだけ簡単に触れておくと…

 

Loob: 私も「alright」という語は使わないんだけど、私が大変尊敬している人は使ってるんだよね...。

まま、とにかく―このスレッドはスペルよりも発音についてだね😄。  

 

…と、こないだ見ていたことやその他のコメントも総合すると改めて、一語のalrightというのは、正しい英語の使用を心がける人には忌避されがちな、かなり砕けた表現であることが窺えます。

(しかし偉大なるLoobさんの大尊敬する人は普通に使っているということで、人によっては気軽に使われることももちろんあるって感じですね。

 日本語でも、alrightに対応する例ではないものの、例えば「マジ」とか、何か軽すぎる気がして使わない大人も多いものの、使う人もいる、そういうのに似た感じでしょうか。)

 

で、肝心の発音は、スレでも結構色々な議論がなされていたわけですが、最後の方で別の回答者が「スペルさえ決まれば、発音についてややこしい点はないけどね」とコメントしたところ、Loobさんがそれを受けて…

Loob:申し訳ないけど、それは正しくないと思うな―もしそうだったら、発音に関して議論しているこのスレッドに26個もの投稿が付くことはないよね😄。

 
…というコメントを残してくれていた通り、このフレーズの発音に関してはネイティブ同士でも意見が割れるほど、微妙で難しい話だといえそうです。


総合すると、基本的には両者は同じ発音といえるんだけど、強勢の取り方が違うことは多いし、人によってはハッキリと分かる違いで発音することもある……国によって「L」の発音は異なるし、中々一般化は出来ないのではないか……という感じかと思いますが、特にLの音に不安のある我々にとっては、ほぼ判別がつかない違いといって構わないレベルではあると思うので、あまり違いは気にしなくてもいいフレーズといえるかもしれませんね。

 

コメントの続き、COCAのデータベースについては、確かにそういや映画の台詞とかはどこ由来なんだろ、と思って調べてみたら、普通に最初のコーパス記事で、既に翻訳引用してまとめていた情報に掲載されていました(笑)。

改めて例の表を見てみると、映画やTVドラマの台詞は、OpenSubtitles.orgに掲載されている字幕を利用しているとのことですね。

やはり、こないだ見ていた通り、OpenSubtitles.orgは、まぁこういう学術的な利用もされるぐらい、信頼もおけるしまあまあ運用も公に認められている、という所でしょうか。


正直、有志=素人の情報なんて信頼に値するのか…?と一瞬思えるかもしれないんですけれども、僕は、Wikipedia然り、オープンアクセスの集合知というのはほぼ完全に信頼できるもの(間違っていたら普通に淘汰される)だと思っているので、全く問題ないと思います。

実際同じタイトルでも複数の字幕ファイルがアップロードされていましたし、恐らくCOCAはその中から最も多くダウンロードされているもの、あるいは最新の字幕ファイルを参照にしているのだろうと思われますが、実際問題長年コーパスデータとして運用されてきて全く問題ない形であり続けているわけですから、全幅の信頼を置いて活用するので問題ないといえましょう。

 

…と、本題ではない前置きネタで大分長くなりましたが、コメント続きの↓の話が、今回のメイン=COCA検索の疑問点その2になります。

 

そしてまた、ひとつ疑問が…。

まぁ今回も、前回使った後に、まさか一生ログインされたままってことはないよね?と思って1時間後くらいに再び開いてみたら、しっかり緑の写真マークになっているのを確認していたわけですが、そのままログインせずにザッと24時間放置していたのにまた赤に戻ってましたよ。ほんと不思議ですねぇ。


と、それは置いといて、…

it's gonna be alright

の検索結果に納得がいかず笑、ちょっと遊んでみたのですが、、

確かスティーブも言っていて、普通に映画で使っていそうなセリフの、こちら…

 


↑え?

2件??

自分の勘違いか?


と思いつつ、その2件こそ気になるわ!ってことで、一応見てみましたらですねぇ、、

 


↑41ページもあるじゃん!

ということになりましたね。

さて、これ、私のどこに問題がありますか?笑


⇒まず最初のログイン・ログオフ管理の不安定性ですが、まさに僕も、数十分放置しただけで勝手にログオフされていることもあれば、翌日再アクセスしたらログインのままになっていることもあるなど、マジであまりにも適当な仕様で謎すぎますが(笑)、まぁ幸い24時間経っても検索回数カウントがリセットされなかった…みたいなことは今の所ないので、実害もないし良しとしようかと思います(笑)。

 

そして本題のネタ…

「HOW 'S IT GOING」、これ自体は「ちわーっす」レベルのカジュアルなあいさつ文ですけど、COCAでの検索、僕も試してみた所、マジで最初の頻度グラフでは、絶対にそんなわけがない、わずか2件と出てきますね……。

 

「HOW 'S IT GOING」でのCOCA検索結果

そして、リンクをクリックしてみると、100件が41ページ、すなわち実際は4000件以上の例文が存在しているのも、完璧に再現可能でした。

 

これは……全く謎ですね…!


一応念のため、レマ化(=全部大文字で入力)せず、「how 's it going」で検索してみたら……

「how 's it going」でのCOCA検索結果

あーっと、こちらでは普通に、実際の例文の数どおり、正しく4059件という表示がされていますね!


…ということは、レマ化が原因…??ということになりそうですけど、例えばbe動詞をレマ化して、beの部分にはどんな形が来てもいいパターンで検索してみたら…

「how BE it going」でのCOCA検索結果

これも、普通にちゃんといけるんですよねぇ。

(まぁ、「HOW 'S IT GOING」のエントリーが1件減って4058になってるのは謎ですけど、be動詞が「IS」のも「WAS」のもちゃんとヒットしてくる形です。)

 

正直謎な挙動ではあるのですが、まぁ、クリックすれば実際の例文は表示されますし、一応そこまで致命的なエラーではないようにも思える気がします。

(当初、「FREQ(頻度)の数字は2でも、横にあるバーの長さが2件のそれでは全くないから、バーの長さを見れば明らかですしね」と書こうと思っていたのですが、これはどうやら相対グラフのようで、仮にヒットが1件でも、その結果が全体の全て=100%なら、バーは画面右端まで伸びる感じのようで、全く見当違いなポイントでした。

 すぐ上の「HOW WAS IT GOING」が10件で目に見えないレベルの長さしかないのは、他のが4000件もあったからでしかないわけですね。)

 

そんなわけで謎のまま諦めざるを得ないと思っていたのですが、ちょうど前回、「せっかくなら運営に質問してみよう!」と思い立ちまして、前回の「OPUSの複数形であるOPERAやOPUSESが、レマ検索でもヒットしてこない」点とともに、「『HOW 'S IT GOING』と検索すると、頻度グラフページで正しい例文数が表示されない」ことの2点、English-Corpora.orgにメールで質問してみました。


しかしカレンダーをよく見たら、「なるほど大晦日で、しかも週末じゃねーの」という最悪のタイミングだったので、返事がもらえるのはいつになるやら…年始月曜日もアメリカは振替休日だし……と思っていたら、なんと!!

現地時間の朝一で、返信メールが届いていました。


しかも驚いたことに、メール文末に書かれた名前を見たら、返事をくれたのは、まさかのCOCA開発者、マーク・デイビスさん!!

衝撃の、世界的に有名な言語学者からメールをもらえたというサプライズでしたが、内容は大変簡潔にして明快でした。

 

せっかくなので著名な言語学者の英文をそのまま紹介しようとも思ったのですが、個人アドレス宛にいただいたメッセージをそのまま掲載するのは(業務メールとはいえ)あんまり良くない気もしたので、ここはやっぱり翻訳引用という形で間接紹介にしておこうと思います。


以下が、メール本文の翻訳です。

 

紺助、

HOW 'S IT GOINGは、これらの単語のレマをそれぞれ探すものであり、例えば「going」にはレマが存在しない--このレマは「go」になる。


レマ化については、英語版では、ランカスター大学のCLAWS taggerを用いて行われた。これは完璧ではなく(どんなレマ化ツールもそうだね)、そしてそれゆえ、OPUSのような単語ではエラーが存在してしまうわけだね。


敬具、


マーク・D.

 

…なるほど、とりあえずレマ化の活用形参照先は、CLAWSと呼ばれる品詞タグ付けソフトウェアが拠出したデータのようで、このCLAWSデータで「○○は××の活用形」と分類されていないものは、残念ながらレマ検索しても「活用形」では出てきてくれない、ということになるんですね!


CLAWSのオフィシャルサイトは↓ですが…

ucrel.lancs.ac.uk

エラー率は、やはりどうしても3%程度はある(もちろんこれは活用形分類のエラーではなく、システム全体の品詞タグ付けのエラー率ですが)ようで、これを完全なものにするのは、恐らく言語というものの特性上、どれだけ技術が発達しても不可能だといえましょう。


現在の最新版はCLAWSのC8のようですが、最終更新は2004年みたいですし、もうほぼ20年近く更新がされていない&それどころか、COCAが使っているのはこないだCOCAで使える品詞タグ一覧のページを見ていた時にもあったように、一世代前のC7のようなので、これはちょっともう更新されることは望みが薄そうですね。

まぁマークさんもおっしゃっていた通り、言語ツールで完璧なものは存在しないので、この辺はもうカバーされていなくてもやむなしという所でしょうか。


(なお、念のため「CORPUS」で検索してみたら……

「CORPUS」でのCOCA検索結果

…こちらは、ちゃんと複数形の「CORPORA」もヒットしてきました。まぁ、自分自身を表す単語ですし、流石にこれはちゃんと登録されているようですね(笑)。)

 

一方、「HOW 'S IT GOING」の方に関しては、あぁ!

普通に見落としていましたが、よく考えたら「GOING」ってのは既に活用した形であり、その活用したものをレマ化して検索するとおかしなことになり得る……という、ただそれだけの話だったようですね!!


実際、goingだけを小文字にしてレマ化を解除したら(「HOW 'S IT going」で検索ですね)、普通に正しい検索結果が表示されました。

こいつが悪さをしていたんですね!


これは正直、質問する前に気付くべきだった点かもしれません。

 

実際、例えば同じように「GOING HOME」(全部大文字、レマ化)で検索してみたら……

「GOING HOME」でのCOCA検索結果

GOING HOMEが5件と、GOING HOMESが1件……あり得ない!

これは先ほどの「How's it going」と全く同じパターンといえそうですね。


実際にリンクをクリックしてみたら…

「GOING HOME」の例文一覧

普通に、100件×59ページがヒットしてきた形です。

 

いうまでもなく、レマ化なしの小文字で検索してみたら……

「going home」でのCOCA検索結果

当然のごとく5814件、ちゃんと正しい件数が表示されています。

 

ということで、COCA検索では「既に活用している単語をレマ化するとおかしくなることがある」という仕様のようですから、こないだは「レマ化したら情報が増えるんだから、基本、大文字での検索がいいでしょう」とか嘯いてしまっていたんですけど、これは全く正しくなく、「既に活用している形の単語は小文字にするか、あるいは大文字レマ化するなら原形に直してから」というのが正しい利用法といえそうですね。


…って、冷静に考えたら、(実際「HOW 'S IT going」で検索は上手くいったものの)「'S」はbe動詞の活用形なのでは……と思えましたけど、まぁbe動詞はそれぞれの活用形があまりにも独立した存在であり、多分特別なレマ化処理がされているのでしょうし、恐らくこいつは特別って感じなのでしょう(笑)。

また、他の動詞、例えばCOMINGを大文字で検索したら、実際に例文は存在するのに(小文字検索で確認済み)、検索結果は「ノーヒット」のエラー=1件もヒットしてこなくなるような感じだったので(網羅的に試してはいないので、たまたまかもしれないものの)、むしろなぜか中途半端な数字が表示されてくるGOINGも、実は他の一般動詞と比べてちょっと特殊だったのかもしれないものの、いずれにせよおかしくなることには間違いないわけで、活用形は絶対にレマ化させない方がいい(小文字にするか、原形を大文字にする)というのは鉄則といえるように思います。

 

正直、「be動詞はレマ化してもOKの謎」とかももうちょい突っ込んで質問してみたかったのですが、流石にリタイア済みの大教授(検索したら、マークさんは2020年にリタイアされているようです)の手をそんなしょうもない質問で煩わせるわけにはいきませんし、深いお礼のメッセージを送っておしまいとしておきました。

 

…といった所で、言うほど謎はすべて解けてないし、そもそもそんなに煽るほどの謎でも何でもなかったんですけど(笑)、気付いたら新年一発目の記事ということで、賑やかなタイトルでお送りさせていただいた形でした。

今回はメールの返信に触れるだけで短くなると思っていたため、雑談として「opus」で思いついた短い脱線ネタにも触れるつもりだったのですが、案外長くなったのでまた次回、スペースに空きがありそうだったら触れてみようかなと思います(特に何のつながりもない、大したこともなさすぎる話ですが)。

 

その次回に関しては、年が変わっても変わり映えせず、またコメントの続きを見ていく予定です。

良い新年をお過ごしください。

にほんブログ村 恋愛ブログ 婚活・結婚活動(本人)へ
にほんブログ村