【開発日記】日本語アカウントのツイート内で1分当たりのトップワードを集計
「つぶやきビッグデータのようなもの」開発日記です(`・ω・´)”
ただの日記なので技術情報を求めて検索して来られた方には申し訳ない(;_・)
一応この記事を参考にやってます。
Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社
何も無い状態からとりあえず日本語アカウントのtweet内で1分当たりのトップワードを集計出来るようになりました。
今の所こんな感じです。
これを書いているのは2016年12月21日なのですが、やはり「クリスマス」というワードが入っていますね。
若者のクリスマス離れってホントかよwww
「よろしく」「なんか」といった内容に関わらず使用される語句がランクインしてしまい、トレンドワードを集計しているとは言えない状態ですね、次回の改善点です。
形態素解析後のワードから汎用的な語句を取り除くという処理は最初、
話題のディープラーニングで担当する感じかな?
と思いましたが、知り合い曰くディープラーニングは必要なく、「tf-idf」という手法を用いると良いらしいです。
「機械学習=ディープラーニング」というようなイメージをしてしまいましたが、
ディープラーニングが話題になる前にもメールフィルタなどで有用な機械学習の手法は開発されているので、
機械学習初心者はまずそれらの中で自分の用途に合ったものが無いか確認する方が良いですね。
今回達成出来たこと
- 基本的なレベルで、Scalaを読み書き出来るようになった(ドットインストール2週観たりして頑張った...)
- Apache Spark Stream API(twitter)の基本的な使い方が分かった
- 日本語アカウントのみのtweetを集計対象として絞り込む事が出来た
- 正規表現で集計対象をフィルターする方法が分かった
次回行うこと
- 形態素解析後のワードから汎用的な語句を取り除く