2021年03月09日
チェコ語コーパス(三月六日)
知り合いからチェコ語のコーパスってないのという質問が来た。自分では使ったことがないのだが、デジタル化が大好きなチェコのこと、存在していないはずはないということで探してみた。最初に見たチェコ語の正字法などを決めている国立チェコ語研究所(と訳しておく)のサイトには、コーパスはあったけれどもテレビやラジオの放送データを基にした話し言葉のコーパスしかなかった。
それでさらに捜索を続けると、「チェコ国営コーパス」とでも訳せるようなものが出てきた。こちらは書き言葉中心のコーパスで、話し言葉のコーパスも含むいくつかの部分から成り立っているようである。日本語のコーパスなんか使う気にはならないけれども、チェコ語のものならちょっと遊べそうな気もする。どんな機能があるのか試してみた。
とりあえず「Japonsko」を入れてみた。よくわからないのは、何もしてないのに英語表記になっていることで、しかも右上には英語表示に切り替えるボタンがある。念のために英語ボタンを押すと、チェコ語ボタンが現れたので、それを押したらチェコ語表示に切り替わった。うーん、何の意味があるのだろうか。
「Japonsko」はチェコ語においては、100万語に約35回の割合で現れるとか、話し言葉と書き言葉、書き言葉の中でも専門書やフィクションに現れる割合なんて情報もあるのだが、一番目を引いたのはどの形でどのぐらい使われているかという情報だった。それによると、「Japonsko」が29.1パーセント、「Japonska」が27.4パーセント、「Japonsku」が39パーセント、「Japonskem」が4.5パーセントという結果になった。
「Japonskem」が一番少ないのは、この形になるのが7格しかないからだろう。「Japonska」も2格だけだが、「do Japonska」「z Japonska」という移動の目的地、もしくは起点を表す表現がよく使われることを示している。1格と4格、5格の形である「Japonsko」よりも、3格と6格の「Japonsku」のほうが割合が高いのは意外だったが、場所を表す「v Japonsku」が使われる機会が一番多いからだと考えてよさそうである。
他の地名も試してみれば、地名の場合には場所を表す6格の形が一番よく使われているなんて傾向が出てくるのかもしれないけれども、そこまでする気にはならない。それよりも重要なのは、我がチェコ語の名詞を格変化させるときのモットー、「困ったらU」が、少なくとも「Japonsko」に関しては有効であることが確認できたことである。
またコロケーションのデータでは、中国や韓国などの他の国名と共によく使われていることがわかるが、津波と地震も頻繁に一緒に使われる言葉として上げられているのが注目に値する。しかも津波は、最近の「cunami」というチェコ化した表記ではなく、「tsunami」という日本式のローマ字表記が使われている。これはひょっとしてと、考えたらその通りだった。
通時的な使用割合の変化を表すグラフも表示されるのだが、使用数が圧倒的に多いのが2011年だった。言わずと知れた東日本大震災の際に、津波と地震を伴って日本という言葉が例年よりもはるかに多く使われたのである。確かにあの頃は、地震に限らず日本に関する記事やニュースが多く、直接は関係のないものでも、枕、もしくは結語として地震に触れるものも少なくなかった。この手のデータから事情を推測するのはなかなか楽しい。
ちなみに、形容詞の「japonský」は「japonské」という形で使われる割合が最も高く、福島という言葉と共によく使われているようだ。「japonské」は女性の単数2、3、6格、複数の1、4、5格、中性の単数1、4、5格、男性名詞の複数1(不活動体のみ)、4、5格と、この変化形になる格が多いことを考えると、当然だとも言えそうである。
チェコ語を勉強していてちょっと飽きたときには、このコーパスで遊んでみると、勉強を続ける意欲がわくかもしれない。
2021年3月7日24時30分。
ちなみにコーパスはチェコ語では「korpus」となる。発音はもちろん「コルプス」である。
【このカテゴリーの最新記事】
-
no image
-
no image
-
no image
-
no image
-
no image
この記事へのコメント
コメントを書く
この記事へのトラックバックURL
https://fanblogs.jp/tb/10587595
この記事へのトラックバック