漢字を調べる人

様々な媒体で使用されている漢字を調べています。

スプレッドシート形式の辞書を作る④

毎週木曜日恒例、スプレッドシート形式の辞書を更新しました。

 

以前の記事はこちら

 

twitterkanji.hatenablog.com

 

ついに単語の数が1000を超えました。

 

ただ、11/9現在、「ことのはたんご」で使用できる単語は37553。

 

37分の1しか役に立ちません。

 

これでも、大分役に立つようになってきたと思っています。

 

290回のときは、初めて辞書に登録がある単語が出題されました。

 

正直うれしかったです。

 

 

今のところ、登録されている言葉が実際に出題される確率はとても低いです。

 

なので私は、フィルターをかけまくって今、使用されていない文字からできる単語を検索しています。

 

一番最初に入れる単語は「きょうしつ」次は「あいちけん」、「はねやすめ」・・・。

 

と、このように文字を一つもかぶせずに進めていくと、効率がいいのではないかと思っています。

 

 

本当は上記のやり方が一番いいのでしょうが、実際にプレイしていると、「〇んしょう」のように、一文字だけわからない、という場面が多く出てきます。

 

そして、こういう場合、候補は10を超えることが多い。

 

このような場合、「あんしょう」「いんしょう」「えんしょう」・・と気合で入れていってしまうことが実際おおいです。

 

本当はよくないのですが。

 

こういった単語が答えの場合は、なんとなく、正答率も低い気がします。

 

みんな気合で解きたいんですかね?

 

292回の単語「症例」

 

こちら、すぐに「しょう〇い」まではたどり着けたのですが、見事に撃沈しました。

 

「しょうたい」「しょうかい」「しょうへい」

 

多すぎです。

 

 

一文字違うだけで、こんなに意味が変わってくるって日本語ってすごいです。

 

https://docs.google.com/spreadsheets/d/e/2PACX-1vRBMChWU0kblMckEZeKQOEZSMqD4UPPChUzXm3ASRKjow28eKxMbOfX6j35wBOQrpMnDoMDekhQyE_C/pub?output=ods

 

2022/11/09 更新 単語数1015 辞書登録59

2022/11/02 更新 単語数920 辞書登録49

2022/10/26 更新 単語数748 辞書登録40

2022/10/18 更新 単語数614 辞書登録11

 

 

ドキュメントで保存できるようになりました!

 

ダウンロードは必要ですが、フィルターがすでにかかった状態になっていて、検索がすごく楽です

 

スプレッドシート形式辞書Ver.1.2といったところでしょうか。

 

今回はこのへんで。

 

 

 

 

義実家からポッキーをたくさんもらいました。

 

ポッキーは超極細が好きです。

新聞で使われている漢字を調べる①-2

前回の記事はこちらから。

 

前回の記事で、漢字5万字を調べた結果を報告いたしました。

 

今回は、その中から、カテゴリー別に見た時の漢字の使用量ついて分析します。

 

 

大まかなカテゴリーは

 

政治、経済、国際、社会、くらし、マーケット、企業

 

この7つに分類されています

 

そのカテゴリーの中でもトピックとしていくつかに分類されています。

 

政治、経済、マーケット・・・などの大まかなもの

北米、朝鮮半島、中国、京都、愛知・・・などの地域

IT、エレクトロニクス・・・などの商品の分類

バイデン政権、岸田政権・・・などの政治的なもの

習政権ウォッチ、ビックBiz解剖・・・などのコラム的なもの

 

それぞれの記事にカテゴリーとトピックが紐づけされています。

 

政治カテゴリー トピック政治

国際カテゴリー トピック北米

経済カテゴリー トピック北米

 

このようになっています。

 

同じトピックでもカテゴリーが違うことがあります。

 

私は、同カテゴリー同トピックでまとめることにしています。

 

 

 

今回は、一番トピック数が多かった「北米」についてみていきます。

 

「北米」トピックにはカテゴリー「国際」「マーケット」「経済」がありました。

 

そのうちカテゴリーは「マーケット」3つ、「国際」4つ、「経済」1つでした。

 

内容は、「国際」、「経済」カテゴリーについては利上げ、ドル高、

「マーケット」カテゴリーについては米国株高でした。

 

使用されている漢字は

 

「経済」

「金」「上」「利」「引」「融」

 

「国際」

「上」「利」「金」「月」「米」

 

「マーケット」

「上」「利」「日」「金」「米」

 

 

どのカテゴリーも金融系について話されていることが多いので、「金利」「上がる」「米国」「日本」のような形で使われていたのではないかと推測します。

 

「引」は「金融取引」で使用されていたのでしょうか。

 

昨今の円高の様子を強く反映されています。

 

 

逆に全体を分析したときに多かった「年」は他カテゴリーより少ないようでした。

 

「年」は税金の分野でよく使用されていました。

 

 

カテゴリー別に漢字を見ると内容が色濃く反映されるので面白いです。

 

余裕があればこういったこともしていきたいです。

 

 

 

最近肩こりひどすぎ

カイロしか勝たん

 

新聞で使われている漢字を調べる①

新聞で使用されている漢字を調べています。

 

調べ方のルールなどは前回の記事に記載されているのでそちらからどうぞ。

 

https://blog.hatena.ne.jp/zofiel10sein/twitterkanji.hatenablog.com/edit?entry=4207112889933655747

 

今回は、調べた感じが5万字を超えたので、経過報告です。

 

ツイッターの時より、報告するペースをさげます。

 

 

 

調べた記事の数 96

調べた文字数  122172

調べた漢字の数 50007

漢字使用率 41%

調べたひらがなの数 46114

ひらがな使用率 34%

調べたカタカナの数 10760

カタカナ使用率 8%

 

 

 

ランキング

 

第10位 

337回    「金」

 

第9位 

340回    「業」

 

第8位 

348回    「高」

 

第7位 

396回    「月」

 

第6位 

420回    「大」

 

第5位 

421回    「会」

 

第4位 

575回    「上」

 

 

第3位 

578回    「国」

 

第2位 

609回    「日」

 

第1位 

691回    「年」

 

 

ひらがな

1位から

「の」「る」「に」「を」「は」「が」「た」「い」「し」「と」

 

カタカナ

1位から

「ン」「イ」「ル」「ス」「ト」「ド」「ッ」「ク」「ロ」「ラ」

 

 

感想

 

まず、ツイッターと全然違うことに驚いています。

 

新聞では、「いつ」「どこで」「だれが」「なにを」「どうした」を明確にする必要があります。

 

なので、「いつ」を表す「年」が多数使用されたと考えられます。

 

ただ、朝日新聞での漢字使用ランキングは「日」が一番多いらしいので、結果はまた変わってくるだろうと思っています。

 

 

ひらがなについてはおおむね予想通り、接続詞がよくしようされている印象でした。

 

 

カタカナは固有名詞で使われているので、正直なにがどうしてこのカタカナが多いのかが分かりにくい。

 

円安ドル高、ウクライナ問題の記事をよく取得していたので、その関連が多いのかと思いきや、そうでもなさそう。

 

企業名でも、「ソニー」「アマゾン」「アップル」など多数とりました。

 

あとは、「バイデン大統領」「プーチン大統領」などの人名ですかね。

 

 

 

結果はまだまだ変わると思っています。

 

まだ5万字、100の記事もとっていないです。

 

ぼちぼち集計していきたいと思っています。

 

 

 

集計時の相棒

 

 

ツイッターの文字を取得するより、集計する時間は早くなりました。

 

1記事6分ぐらいで終わるのはありがたい。

 

集計時間約半分になりました。

 

それで記事によっては量がとても多い。

 

電子版なので、めちゃめちゃに短い記事もあります

(そういうのは避けることが多い)

 

でも、1つの記事は大体1000字を超え、漢字においても500字を超えることが多いのでとても助かっています。

新聞で使われている漢字を調べる(前置き)

久々に漢字を調べました。

 

今回は新聞を使用します。

 

新聞を選んだ理由としては、書き言葉として一番一般的な媒体といえるからです。

 

 

前回は、ツイッターで使用されている漢字を調べました。

 

結果、

日、人、大、本、中、今、生、年、見

という順位となりました。

 

ツイッターで調べていた時の反省点として、

 

・漢字10万字では足りない。

・トレンドによって使用されている漢字に大きな偏りがある。

 

というところです。

 

ツイッターの傾向として、一つのトレンドが上位に来ると、その関連ワードもトレンドに入ることが多いです。

 

一例として

 

2022/11/04 17:34 トレンド4位 エセ関西弁使い

2022/11/04 17:34 トレンド5位 激むず関西弁クイズ

 

以前のツイッターの漢字を調べるときのルールだと、両方のトレンドのツイートを調べていました。

 

その場合、同じ人のツイートを2回取得する、という現象も起きていました。

(特に公式ツイッター

 

どのトレンドでとったツイートかなんて、正直覚えていないです。

 

ただ、集計するときに、同じツイートを取得するのは問題があります。

 

それから、ツイッターでは同じ曜日の大体同じ時間に全く同じトレンドワードが入ることが多いです。

ドラマやテレビ番組など。

 

それがいつのツイートなのかを考えながら取得しなければならなかったので、とてもややこしかったです。

 

 

前回の反省点をいかして、今回、新聞で使用されている漢字を調べます。

 

 

ルール

 

使用する新聞は、日本経済新聞電子版を使用します。

 

取得する記事は「トップ」に出ている記事です。

 

「トップ」の記事がなくなった場合、私が読みたい記事からピックアップして漢字を取得します。

 

同じ記事は取得しません。

 

過去の記事にさかのぼって漢字を取得するのも可能です。

 

同じカテゴリーの記事は取得します。

 

カテゴリー、トピック別に漢字を集計します。

 

今回は、ひらがな、カタカナもついでに調べます

 

「」。、!? などの記号も調べられる範囲で調べます

=は調べられませんでした。

 

無理は絶対しない

 

 

 

こんな感じで行こうと思います。

 

めざせ100万字!

 

トピック、カテゴリー別に分けているのは、それぞれでよく使用される漢字が見えてきたら面白いと感じたからです。

 

これから頑張っていきます!

 

 

 

 

 

スプレッドシート形式の辞書を作る③

以前紹介したスプレッドシート形式の辞書を更新しました。

 

以前の記事はこちら

 

 

twitterkanji.hatenablog.com

 

今回は単語数の増加のみです。

 

毎日「ことのはたんご」をプレイしていて、そのたびにこの辞書を使用しているのですが、正直まだまだあまり役に立たない。

 

乗っている単語が少なすぎる。

 

なんたって広辞苑に掲載されている単語は約25万語。

 

5文字の単語っていったいいくつ載っているんだ。

 

私が作っている辞書は「ことのはたんご」で使用できる言葉に絞っています。

 

「ことのはたんご」で使われている「ことのは辞書」にいったいいくつの単語が掲載されているかはわかりません。

 

わたしが、「ことのはたんご」をプレーするとき、いつも「きょうしつ」から始めます。

 

その時の残り候補数はぜんぶからぶりのときで19682個。

 

「き」も「ょ」も「う」も「し」もよく単語で使用されている文字。

 

この辞書にも

 

「き」で始まる言葉が現在25個

 

「し」で始まる言葉が100個

 

「う」で終わる言葉が120個

 

「ょ」が二文字目に来る言葉が59個

    四文字目が80個

    五文字目が17個

 

これだけでもたくさんあります。

 

この、よく使う文字を省いても残りの単語の候補数が2万弱というのは恐ろしいことです。

 

2回目の入力単語は「あいちけん」が多いです。

 

「ん」と「い」はよく使用される文字なので。

 

次回はあまり使用されていない文字が多い単語からスタートしてみようかな。

 

「れもねーど」とか。

 

docs.google.com

 

2022/11/02 更新 単語数920 辞書登録49

2022/10/26 更新 単語数748 辞書登録40

2022/10/18 更新 単語数614 辞書登録11

 

 

スプレッドシートを利用するときは、コピーして貼り付けてください!

 

 

 

「ことのはたんご」もおもしろいので是非遊んでみてください

 

ことのはたんご | 単語推理ゲーム

 

 

今の家には辞書が一つもないので、一冊ぐらい買ってもいいかな

 

 

 

 

「ん」

ひらがなを、五十音順に並べたときに、「あ」から始まって、「ん」でおわる。

 

 あいうえお かきくけこ

 さしすせそ たちつてと

 なにぬねの はひふへほ

 まみむめも やゆよ

 らりるれろ わをん

 

日本人なら当たり前のお話です。

 

でも、いろは歌には「ん」はないのです。

 

 

いろはにほへと ちりぬるを
わかよたれそ つねならむ
うゐのおくやま けふこえて
あさきゆめみし ゑひもせす

 

 

とっても不思議ですね。

 

普通の五十音表でも、「ん」だけ表の外に書かれているのを見たことないですか。

 

五十音 - Wikipedia

 

Wikipediaの五十音表のページです。

 

ここでも、「ん」は「わ」のとなりに置かれています。

 

 

そんな不思議な日本語「ん」についての話題だけで一冊の本が成り立ってしまいます。

 

 

 

 

「ん」はいったいどこから来たのか、

 

韓国、中国、それともインド?

 

日本の歴史をひもときながら解説されています。

 

日本語話者としてとても読んでて興味深かったです。

 

 

 

で、漢字を調べている人として、「ん」って実際結構使うよねってことで、どれだけ使われているのか調べてみました。

 

とある日の新聞記事。

 

全部ひらがなにして、どの「音」が一番使われているのかを確認しました。

 

 

なんと!

 

「ん」が一番使われていたのです。

 

おおよそ800音集計したうちの60回が「ん」でした。

 

つぎに「う」「い」がよく発音されていました。

 

ただ、新聞記事のタイトルが「北陸電力、国認可の規制料金あげへ」

 

というタイトルでした。

 

「電力」「認可」「料金」とたくさん使われています。

 

 

だから「ん」がたまたま多かったんじゃないかと。

 

もっと集計していったら「い」が一番使用される気がしています。

 

「て」「に」「を」「は」なんかももっと増えそうです。

 

時間がある時に調べたいなとたくらんでおります。

 

 

そして、文字ベースになるとまた変わります。

 

一番使用されているひらがなは「の」

 

つづいて「る」

 

「に」「を」「は」と続きます。

 

「ん」は42番目(「っ」や「ょ」などの拗音も順位に入れています)

 

不思議です。

 

 

この本によると、「ん」は漢語でよく使用さるということ。

 

だから、漢字のなかに「ん」が飲み込まれてしまったのでしょうか。

 

 

奥が深い日本語の世界。

 

これからも自分なりに探求していきたい。

 

そう思った一冊でした。

 

 

スプレッドシート形式の辞書を作る②

以前紹介したスプレッドシート形式の辞書を更新しました。

 

前回の記事はこちら

 

 

twitterkanji.hatenablog.com

 

大きく更新した点は1点。

 

「ことのはたんご」にて第〇〇回の答えとなっているか。

 

こちらを辞書欄の隣に追加しました。

 

「ことのはたんご」をプレイするうえで、以前に出題された単語は出ないのではないかという推測の元、追加しております。

 

「ことのはたんご」は最近始めたばかりなのと、過去のデータはとっていないので、ツイッターなどで情報収集できる範囲での回数の表記となっています。

 

また、辞書リンクも増やしました。

 

「ことのはたんご」の「こたえのたんご」に関してはできる限りつけています。

 

「たんご」も100ほど追加しました。

 

まだまだ日本語としては全然足りないのだけれど、どんどん自分のペースで更新していきたいと思います。

 

 

docs.google.com

 

2022/10/26 更新 単語数748 辞書登録40

2022/10/18 更新 単語数614 辞書登録11

 

 

スプレッドシートを利用するときは、コピーして貼り付けてください!

 

 

 

「ことのはたんご」もおもしろいので是非遊んでみてください

 

ことのはたんご | 単語推理ゲーム

 

しりとりにも活用していただければ