世界最大級のコーパス・COCAを使ってみよう(データの紹介編)

今回は予告通り、またまた脱線記事となる形ですが(脱線してない記事なんて存在したことない気もするものの(笑))、元ネタとしてはこの記事(↓)にいただいていたコメントから話を広げさせていただく感じですね。

con-cats.hatenablog.com
前回の記事では、間違った説明をしていたことに関する謝罪と訂正をしていたわけですけど、↑の記事も何気に誤った記述について謝っていた感じで、まさに「こいついっつもお詫びして訂正してんな」という状況な気もしますが(笑)、適当なこと(完全に自信またはソースがあること以外)はやっぱり書くもんじゃないなと、いい加減気を付けようと思います。


では、まずはコメントから参りましょう。

例によってアンさんよりいただいたメッセージになります。

毎度大変丁寧で面白いコメント、感謝のしきりにございます。

 

「英文はパクれ!」(そんな風には書いてなかったでしたっけ?笑)、これは簡単な日常会話程度の英語でも書く時には当然実践していますが、「どこかで見たことがある英文」って、結局頭の中で「どこかで見たことがある」って思うだけで、そこから先、ちゃんと出てこないことの方が多いんですよねぇ。

まぁ、難しい論文なんかの英文を、それこそどうでもいいような日常会話と一緒にすんな!って感じかもしれませんけど、、しかもそれを自分が書くっていう機会は滅多にないわけですが、それでも、

ここでコメントをする時に、引用ではなく「例えば…」って例文を書いたりする場合には、簡単な英文でも「これ、あってるかな?」って迷うことはよくあって、Google翻訳かLINE英語通訳に入れてみて、いけそう?ってなったら(案外こいつらは嘘つくんで笑)、普通にググってみて…って言う感じの確認作業をやっています。


ライフサイエンスコーパス…?っていうのは、その名の通り生命科学の専門的な辞書みたいな感じで、一般の人が使うようなものではないと思われますが、なかなか便利そうですよね。

こちら、お固めの英文であれば使えるっていうことですが、、

普通に、一般英会話とかで利用できるような簡単なのは無いんですかね?

(って、すぐ楽しようとする…笑)

 

⇒結局英作文というのは英パク文であり、絶対にゼロから自分の(日本語的思考回路の)感覚で文章を作り出してはいけない、ってのはまさに改めてその通りに思います。

「どこかで見たことがある英文」のストック量が、究極的にはその人の英語力というものになると思うんですけど、まぁその辺の一般論は本題ではないので今回は横に置いておきましょう。


機械翻訳Google検索という流れは何気に王道にして黄金ステップで、今の時代、インターネッツの力で無限に英語表現に触れることは可能ですから、それを繰り返すだけで、ネイティブも使っている「大丈夫そう」なストックを間違いなく増やしていけるのではないかと思います。

もちろん検索結果を見るのにも力というかセンスはいるような気もするんですけど、まぁその辺のご講釈もともかく、今回の本題はその検索についてですね。


Google検索は、(至る所で言われている通り、最近はなんか検索アルゴリズムが妙ちくりんになって、勝手に関係ないワードを足したり、「" "」で括っても無視されることがあるなど、若干利便性が落ちている気がするものの)やはり一番簡便でかつ強力なツールといえるように思いますが、具体的に「この単語はどういう前置詞とよく使われるのだろう?」とか「前後によく出てくる、つながりの強い表現ってどんなものがあるのかな?」ということを知りたい場合、↑の記事で紹介していた、「コーパス」と呼ばれる検索エンジンの出番なわけですね。

 

そして、↑の記事で見ていた「LSD(ライフサイエンス辞書)コーパス」は、まぁ一応元ネタ(データ参照先)は生命科学・医学系論文の要約なんですけど、実際そこまで学問的すぎず、普通の表現を検索するのでも十二分に使えるナイスなものにも思えるわけですが、とはいえ日常生活で使われるようなカジュアルな表現や、スラングとかも含む凝った言い回しは間違いなくヒットしてこないといえましょう。

 

そこで、リクエストに与りました、より一般的なコーパスについてちょっくら見てみよう、というのが今回の企画になります。

…まぁ、僕は全然使ったことがないので、言うほど実際の使用感や良さの解説とかはできないんですけど、検索したらとても良さそうなコーパスがヒットしてきたので偉そうに紹介してみようと思います。

それがズバリこちら……English-Corpora.orgという非営利組織(corporaというのは、コーパス(corpus)の複数形だったんですね。ちなみにコーパス自体は、まぁカタカナ語でそのまま使われますけど、「大量の文例を集めた言語データベース」のことになります)が運営している、COCA

www.english-corpora.org

COCAは、Corpus of Contemporary American English (現代アメリカ英語のコーパス)の頭文字を取ったもので、元々はアメリカ・ユタ州にあるブリガム・ヤング大学のマーク・デイビスさんによって開発されたものだそうですね(参考:Wikipedia)。

コカ・コーラの「コカ」と全く同じスペルなので、(全然関係ないジャンルとはいえ)検索被りとかそれこそ商標うんぬんで、どう考えても違う名前にすべきだったのでは…と思えますが、↑のリンクカードにある通り、現時点で76ものはてなユーザーによってはてなブックマークをされているということで、世界中で極めてよく使われているコーパスであることが窺えます。

 

トップページはこんな感じで……

https://www.english-corpora.org/coca/より

左に検索ボックス、右に概要説明文が掲載されていますが、まずは概要の目ぼしい部分を見ていくといたしましょう。


右側最上部・一番最初にリンクされているPDFを見てみると、収録語数の表が掲載されていました(2020年3月の最新版)。

せっかくなのでこちらを抜粋翻訳引用させていただきましょうか。

 

ジャンル テキ
スト
の数
単語の数 説明
話し言葉 44,803 127,396,932 150種類以上のテレビ・ラジオ番組から、台本にない会話を書き起こしたもの(※具体的な番組例は、名前を見ても特によく分からないので省略しますが、ニュース番組などですね)
フィクション 25,992 119,505,305 文芸誌、児童誌、大衆誌の短編小説や戯曲、1990年~現在の初版本の第一章、ファン・フィクション(同人誌)など
雑誌 86,292 127,352,030 ニュース、健康、家庭園芸、女性、金融、宗教、スポーツなど、特定ジャンルを中心とした100種類近くの雑誌
新聞 90,243 122,958,016 USAトゥデイニューヨークタイムズ(他省略)など、全米の新聞。地方ニュース、オピニオン欄、スポーツ、金融など、様々なセクションを上手くミックス
アカデミック 26,137 120,988,361 200種類以上の査読付き論文。教育、社会科学、歴史、人文科学、法律、医学、哲学・宗教、科学・技術、ビジネスなど、あらゆる学問分野をバランスよくカバー
ウェブ
(一般)
88,989 129,899,427 学術、議論、フィクション、情報、インストラクション、法律、ニュース、個人、プロモーション、レビューの各ジャンルに分類されるネットページ(Serge Sharoff氏による)。GloWbEコーパス米国版からの引用

ウェブ (ブログ)

98,748 125,496,216 Googleによってブログと分類されたテキスト。さらに、上記「ウェブ(一般)」と同じジャンル分けがされる。GloWbEコーパス米国版からの引用
TV/
映画
23,975 129,293,467 OpenSubtitles.orgからの字幕、そして後にTV/映画コーパスより。これらの番組や映画から得られる言語は、実際の「話し言葉コーパス」のデータよりもさらに口語的/中核的であることが、研究によって示されている。
合計 485,179 1,002,889,754  

 

…という感じで、お堅い学術ネタから、TV/映画やネット記事に至るまで、収録語数はなんと驚異の10億語以上!

恐らく10億語の大台を突破したことから、2019年以降はデータベースの更新がされていないようですが、もう間違いなく人間が人生で話す単語数以上のデータが揃っていますし(1日1万語話すとしても、100年で3.65億語しか話しませんしね。…まぁ、1日1万語話すかどうかも適当ですし(そんなに話すわけない)、そもそもデータベースと個人の会話量とか、そんな比較に何の意味もないですけど(笑))、完全に十分といえる数字ですね。

 

また、トップページ概要部にある one billion words(10億語)というリンクをクリックしたら、年毎の収録語数も掲載されていました。

上記リンク先の表より(実際はまだ下に続いています)

(このサイトは、基本フレーム制御されており、ページによっては直リンクはダメでフレーム(トップページ)からアクセスしないと見れない可能性すらあるようなので、直リンクはあまり良くないのかもしれませんが…)

 

1990年から収集が始まり、最新は上述の通り2019年までですけど、下手にそこまで古すぎない情報であるのもナイスですね。


なお、このリンク先のトップにあるリンク(Download list of all 485,179 textsという文字列;上述の理由で、直リンクは避けておきます)から、まさかの、収録データがダウンロード可能になっています!

…とはいえもちろん、10億語がダウンロード可能なのではなく、具体的な収録対象やその簡単な説明が掲載されたエクセルファイルだった感じですけどね。

 

それでも十分な量で、テキストだけのエクセルファイルなのに45.5 MBほどもあるわけですが、せっかくなのでこちらの中身もちょっくら見てみるとしましょう。

最初のタブには先ほどと同じ年次ごとの収録数一覧が表示されており…

収録テキストデータのエクセルファイルより(以下同様)


例えば、一番面白そうなTV-Moviesタブを開いてみるとしましょう…

…恐らく年代→タイトルのアルファベット順に、ズラーっと並んでいますね、コーパスに使われた映画・TVのタイトルが!

(小さすぎて読めないかもしれませんが(笑)、拡大すればいける感じでしょうか。)


この表は、まず最初は映画(C列が「MOV」)の一覧で、後半がTV番組になってるようですけど、アメドラといえばパッと思い浮かんだ『フレンズ』はあるのかな、と思って検索してみたら、おっ!

やはりこれだけの有名ドラマは、欠かさずに収録されていますね!

ちょうど10項目あるので、最終10シーズンまで全部が収録されてるのかな…?と思ったら、H列にあるタイトルエピソードを検索した所どうもこれはシーズン1のエピソードばかりだったので、完全収録という訳ではないんですね。


しかし、シーズン1であれば、全台詞が収録されているという感じのようで、もし思い出の台詞とかがあれば、検索したらコーパスでちゃんとヒットしてくるということですね。

(ちなみにすぐ上の『Frasier』も、極めて評判が高かったので、僕は全シーズン手持ちにありますが、フレンズもフレイジャーも、積ん読状態で全く観たことがない状態です(笑)。)

 

ついでなんでもういっちょ、偉大なる志村貴子さんが『放浪息子』のあとがきで「ハマっている」と書かれていた『Oz』はあるかな~と検索してみたら……

おぉ~ん、ちゃんとOzもカバーしているとは、流石だぜCOCAさんよぉ!


…とこんな感じで、何気にこのデータベース、I列やJ列には簡単なプロットも掲載されていますし(まぁ1文程度の紹介文ですけどね)、過去のアメリカの番組・映画作品のデータベースとしても、かなり優秀で偉大なものなのではないか、なんて気がしますね。

 

ちなみに、一番下は、23976行目だったので(番組名は、2019年のコメディー『Young Sheldon』)、かなりの量といえますね!

(まぁよく考えたらさっきの表にもう載っていた数字なので、今驚くほどでもない、当たり前な話でしたが(笑)(一行目は表の見出しなので、合計2万3975種類のテキストってことですね))


…ってな所で、COCAに含まれるデータを見た所で、今回も時間切れになってしまいました。

実際このCOCAをどう使うのか、まぁ正直、解説するほどのものでもなく、単語やフレーズを入れて前後の言葉や実際の例文がズラーっと表示されて便利…というそれだけなんですけど、せっかくなので次回は実際使ってみた検索結果をちょいちょい眺めていこうかと思います。

それでは次回へ続く……。

にほんブログ村 恋愛ブログ 婚活・結婚活動(本人)へ
にほんブログ村