今回は特定のエリアの流量を調べてみます。
仕事ではなく趣味でやっているので、自分の興味に任せて「港区女子」が棲息しているであろうエリアを見てみようと思います。
ネットを検索すると港区女子とは以下の表現がありました。
麻布や六本木に出没し、毎晩のように飲み歩く。
東京都港区に夜な夜な集い、豪華なホームパーティに出席し、
おしゃれなバーや高級レストランに通い、六本木でお買い物をする。
なるほど。分析したいターゲットが行動する時空間(場所と時間帯)が分かりました。
では、その表現に基づきTwitterの位置情報付きツイートを自作ツールで収集して分析しようと思います。
まず、データを収集するエリアは以下の赤枠のエリアA~Dとします。
Aは恵比寿を含むので厳密には渋谷区にはみ出ているのですが、恵比寿も港区女子の狩場らしいという情報をTwitterで見たので含めました。
私の自作ツールはTwitter APIを使って取得したデータを、ローカルのDB(MySQL)に保存します。データを格納するテーブルの構造はこんな感じです。
自作ツールで収集した位置情報付きツイートをfoliumを使って地図にヒートマップを描いた結果は次の様になりました。
ねらったエリアでデータがちゃんと取れたっぽいです。
ヒートマップに青色をつかったら、なんかエネルギーを感じるグラデーションになりました。
ちなみに赤い枠線が港区です。国土交通省が公開しているGeoJSONの最新データで描いてます。
取得できたデータの緒元は以下となります。
【取得期間】2019年4月1日 ~ 6月20日
【データ件数】24,933件
【ユニークユーザー】1,892件 ※位置情報付きツイートした人(アカウント)の数
データ量としてはまあまあ収集できたと思います。
(本音はもう少し収集したかった)
ここから分析を次のステップに進めます。
ビジネス・アワーにつぶやかれたツイートと、観光か何かでエリア内にたまたま訪れた人のツイートを除外するために、収集したデータを以下の条件でフィルタします。
・土日・祝日もしくは18:00~23:59の時間帯でつぶやかれたツイート
・エリア内でツイートした日が期間中(4/1~6/20)に4日以上あること
作業はExcelのピボットを使って行いました。
フィルタ処理の結果、ヒットしたデータのユニークユーザー数は370件となりました。
※あきらかにbotっぽいアカウントのデータはここで手作業で除外してます。
この絞り込みで見つけた370個のアカウントについて、Twitter APIの仕様限界までツイートをさかのぼってデータ取得すると以下のデータ量が得られました。
【ユニークユーザー】370件
【データ件数】76,226件
【取得できた期間】2014年8月13日~2019年6月20日 ※全部のユーザでとれたわけではない
InstagramやFoursquereをTwitterとアプリ連携している人が多いようで毎日たくさんツイートする傾向がみられました。
さて、このデータをfoliumで地図にヒートマップでプロットしたお楽しみの結果は次の様になりました。(赤い枠線は港区)
(。´・ω・)ん?
ちょっとずつズームアウトしてゆきます。。。
(;´・ω・)あれれ..?
_人人人人人人人人人人_
> 行動範囲が広い! <
 ̄Y^Y^Y^Y^Y^Y^Y^Y^Y ̄
絞り込んだアカウントの行動範囲がかなり広いことが分かりました。
さすが港区女子が棲息するエリアですな。
世界各国を飛び回る高収入のエリートや成功者が、今回調べたエリアに多く集まってそうな気がします。
なかなか興味深い地図がかけてよかったです。
作ったあとズームイン・アウトを繰り返して楽しめました。
ここまで読了ありがとうございます。