ツイッターで一番使われている漢字は何だろう ~調べ方のルール~
ふと疑問に思いました。
一番使われている漢字は何だろうって。
新聞では、一番使われている漢字は「日」、そして「年」「大」「人」「国」「会」「本」・・・と続きます。
じゃあ、インターネットならどうなんだろう。
書き言葉と話し言葉が混じっている世界。
新聞のサイトもあれば、SNSもある。
全部のサイトを調べるのはきっと一生かかっても無理。
だけど、ツイッターが一番いろんな情報や会話が飛び交っているんじゃない?
こう思ったので、ツイッターで調べることにしました。
調べ方のルール
ツイッターのトレンドを調べる。
トレンドのその時の1位のワードの「話題のツイート」上位25のツイートを調べる。
その時のトレンド1位がもう調査済みの場合、2位、3位とみていく。
調査済みワードの関連項目だったとしても、トレンドに出てくるワードが違う場合、調べる。
(例)トレンド1位「アニポケ」2位「ピカチュウ」それぞれ調査する。
週をまたいで調査する場合、トレンドワードが被ることがある。(テレビのドラマなど)その場合、先週のものは集計しない。「話題のツイート」のところに今週のツイートが表示されなくなった場合、「最新」のところからツイートをとってくる。
調べる漢字は常用漢字とJIS第2水準までと、それに入っていないけれどよく使われる漢字。「櫻」「薮」など。
入っていないけどよく使われる漢字については気づいたら入れる。
気づかなかったらごめんさい。
そのトレンドワードの平均ツイート文字数や漢字の割合も調査する。
ニュース関連だと漢字が多い、などの傾向が見れるかも。
私の時間があるときに調べる。
やってみたら一つのトレンドワード調べるのに20分くらいかかりそう。
休みの日に頑張る。
きりがいい時に進捗を発表する。
とりあえず、調べた感じが1万字を超えたら第1回の発表をしようと思っています。
調べるトレンドワードによって漢字の偏りが出てきそうだから、定期的に進捗を出して変化を見ていきたい。
今のところはこんな感じで行こうと思います。
AIとか使ったら調べるの早そうだけど。。。そんな技術はないので、エクセルに頑張ってもらってます。
もし、追加ルールがあれば追記します。
頑張って調べるぞ。