【開発日記】日本語アカウントのツイート内で1分当たりのトップワードを集計

「つぶやきビッグデータのようなもの」開発日記です(｀・ω・´)”

ただの日記なので技術情報を求めて検索して来られた方には申し訳ない（；_・）
一応この記事を参考にやってます。

何も無い状態からとりあえず日本語アカウントのtweet内で1分当たりのトップワードを集計出来るようになりました。

f:id:ryota-murakami:20161221191112p:plain

今の所こんな感じです。
これを書いているのは2016年12月21日なのですが、やはり「クリスマス」というワードが入っていますね。
若者のクリスマス離れってホントかよwww

「よろしく」「なんか」といった内容に関わらず使用される語句がランクインしてしまい、トレンドワードを集計しているとは言えない状態ですね、次回の改善点です。

形態素解析後のワードから汎用的な語句を取り除くという処理は最初、
話題のディープラーニングで担当する感じかな？
と思いましたが、知り合い曰くディープラーニングは必要なく、「tf-idf」という手法を用いると良いらしいです。

「機械学習=ディープラーニング」というようなイメージをしてしまいましたが、
ディープラーニングが話題になる前にもメールフィルタなどで有用な機械学習の手法は開発されているので、
機械学習初心者はまずそれらの中で自分の用途に合ったものが無いか確認する方が良いですね。

今回達成出来たこと