Skip to content

Pythonでワードクラウドを作るよ!ツイート情報を拾ってテキストに書き込むプログラム+テキストからワードクラウドを生成するプログラム

Notifications You must be signed in to change notification settings

mokomoka/WordCloud

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Word Cloud

概要

Twitter API を利用して、ツイートの検索結果からワードクラウドを生成します。
(とはいえ、ツイート取得とワードクラウド生成のプログラムは分けているので、ツイートじゃなくてもテキストファイルさえあればそれを基に生成できます。テキストファイルからワードクラウドを生成する場合は、使い方の2のAPI関連の入力と、3の手順を飛ばします。)

こんなやつ ↓

環境

$ python --version
Python 3.9.13 # neologdnの都合上、Python 3.9までしか動作しません

$ pip install tweepy wordcloud mecab-python3 unidic-lite neologdn

(Pythonに詳しくないため、依存関係情報が足りなかったら申し訳ありません…)

使い方

  1. config_sample.json を config.json にリネームします。
  2. config.json に、Twitter API のキーやトークン、ワードクラウド生成に使用するフォントのパスを入力します。
  3. python tweepy_savefulltxt.py を実行します。
    • "Enter Search KeyWord"と出てきたら、検索する文字列を入力
    • "Enter Tweet Data file"と出てきたら、検索結果を保存するファイル名を入力
  4. wordcloud_fromtxt.py をいい感じにいじります。
    • 画像内に含まないようにする単語を stop_words に入れておきます。コード内では私が使ったものに特化しているので、人によって調整が必要です。
    • 文字色や出力サイズなども適宜変更
  5. python wordcloud_fromtxt.py を実行します。
    • "Enter Tweet Data file"と出てきたら、3 で出力した検索結果を保存したファイル名を入力
  6. ワードクラウドの画像が生成されます。
    • デフォルトのファイル名はタイムスタンプです。
    • デフォルトだと色がランダムに選ばれるので、何度か同じファイルで生成すると印象が変わったりします。

参考

備考

  • 現状、画像サイズの設定が怪しいです。 直しました。
  • URL とか RT の除外ができていないので、生成されるワードクラウドにノイズが混ざりがちです…><
    • RT は検索ワードに "-RT"を入れれば除外できますが、コード上で除外することはしていません。
    • URL はワードクラウド生成時に除外するようにしました!
  • mecab-python3対応のなんやかんやで、本来はunidicが推奨されていますが、現状ipadicを使用した上でChasen形式に変換しています。将来的にはunidicを使うように修正したい。 多分修正できました。

About

Pythonでワードクラウドを作るよ!ツイート情報を拾ってテキストに書き込むプログラム+テキストからワードクラウドを生成するプログラム

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages