MENU
  • 手帳
    • 手帳 リフィル自作した手帳のリフィルを公開していきます!
    • 手帳 レビュー
    • 手帳 アイデア
    • 手帳 セルフコーチング7つの習慣セルフコーチング認定コーチとして、独自に培ってきたセルフコーチング×手帳のノウハウを備忘録的にまとめます٩( ‘ω’ )و
    • 手帳 ジャーナリング
  • キャリア
    • キャリア 転職
    • キャリアコンサルタント 独学国家資格キャリアコンサルタントの試験対策や学んだコトなどをまとめていきます!
    • キャリアコンサルタント 副業キャリアコンサルタントとして稼いでわかったこと、実務で使えるノウハウや考え方などを発信していきます!
  • ワーク
    • マインドセット
    • マインドフルネス自分の気持ちを高めて、常に前向きに平常心でいるためのTipsや参考情報をまとめます!
    • プログラミング
    • リスキリング自分で楽しく効率よく学習するリスキリングのTipsや参考情報をまとめますᕦ(ò_óˇ)ᕤ
    • 効率化
人気の記事ランキングTOP 5!
  • 【自作手帳】自作リフィルのおすすめテンプレート10選!(PDF無料ダウンロード可!)
  • 【2026最新】ジャーナリングのおすすめ本10選!Unlimited対応も!
  • 【無料】Goodnotes6で使えるデジタルプランナー・テンプレート10選(PDFダウンロード可)
  • 【自作手帳】Word,Excelで出来る!A5システム手帳のリフィル自作方法
  • 【保存版】Goodnotes6の使い方まとめ!PDFの読み込み・PDF化・メモの書き方を徹底解説
手帳でキャリアも人生も自分らしく!
キャリアの実験室
  • 手帳
    • 手帳 リフィル自作した手帳のリフィルを公開していきます!
    • 手帳 レビュー
    • 手帳 アイデア
    • 手帳 セルフコーチング7つの習慣セルフコーチング認定コーチとして、独自に培ってきたセルフコーチング×手帳のノウハウを備忘録的にまとめます٩( ‘ω’ )و
    • 手帳 ジャーナリング
  • キャリア
    • キャリア 転職
    • キャリアコンサルタント 独学国家資格キャリアコンサルタントの試験対策や学んだコトなどをまとめていきます!
    • キャリアコンサルタント 副業キャリアコンサルタントとして稼いでわかったこと、実務で使えるノウハウや考え方などを発信していきます!
  • ワーク
    • マインドセット
    • マインドフルネス自分の気持ちを高めて、常に前向きに平常心でいるためのTipsや参考情報をまとめます!
    • プログラミング
    • リスキリング自分で楽しく効率よく学習するリスキリングのTipsや参考情報をまとめますᕦ(ò_óˇ)ᕤ
    • 効率化
キャリアの実験室
  • 手帳
    • 手帳 リフィル自作した手帳のリフィルを公開していきます!
    • 手帳 レビュー
    • 手帳 アイデア
    • 手帳 セルフコーチング7つの習慣セルフコーチング認定コーチとして、独自に培ってきたセルフコーチング×手帳のノウハウを備忘録的にまとめます٩( ‘ω’ )و
    • 手帳 ジャーナリング
  • キャリア
    • キャリア 転職
    • キャリアコンサルタント 独学国家資格キャリアコンサルタントの試験対策や学んだコトなどをまとめていきます!
    • キャリアコンサルタント 副業キャリアコンサルタントとして稼いでわかったこと、実務で使えるノウハウや考え方などを発信していきます!
  • ワーク
    • マインドセット
    • マインドフルネス自分の気持ちを高めて、常に前向きに平常心でいるためのTipsや参考情報をまとめます!
    • プログラミング
    • リスキリング自分で楽しく効率よく学習するリスキリングのTipsや参考情報をまとめますᕦ(ò_óˇ)ᕤ
    • 効率化
  1. ホーム
  2. ワーク
  3. プログラミング
  4. 【Python入門】WEB上のデータを抽出してテキストマイニング(スクレイピング)

【Python入門】WEB上のデータを抽出してテキストマイニング(スクレイピング)

2026 4/24
プログラミング
ワタシ

今回は“スクレイピング・テキストマイニング”について理解を深めます。

データ分析をする中で一番、感覚的かつ身近なもの(Twitter等)で分析が出来る手法がテキストマイニングです。

出来そうなことは多そうだけどどうやるの?

と気になる人も多いと思うので下記に整理します。

尚、テキストマイニング(自然言語処理)の統計的な成り立ちや仕組については下記でまとめております。

目次

今回の論点整理

”スクレイピング・テキストマイニング“の使いドコ

今回はネット上のテキストを読み込んで(スクレイピング)その情報を元に整理・分析(テキストマイニング)します。

上記のように実際のHP等、WEB上のデータなどの情報を抽出しながら整理することが出来ると分析の幅が広がります。

※ただ、ウェブ上のデータを抽出するスクレイピングは機密情報を引き抜いたりするなど違法行為にも繋がりやすいので取り扱いには注意が必要です。

ご参考ページ(外部リンク)

具体的な想定場面

今回の想定は以下のような場合です。

今回の想定

想定:社内のWEBマーケターで上層部から「最近の大学の動向を報告しろ」と言われた
状況:お金をかけずにとある業種(大学)の最近の動向をWEB上から分析したい
意図:テキストマイニングなどを用いて時短でそれっぽい分析をしたい

このような時、「スクレイピング・テキストマイニング」という考え方が使えるのだと思います。

以下はこの知識を使う際に思い出すべき点を、後で振り返れるようにポイントを絞って備忘録としてまとめます。

今回の抑えドコ

そこで、今回は上記を実現する手順について下記に備忘録的にまとめたいと思います。

抑えドコ!
  • 今回の焦点
    ▷お金をかけずにWEB上の情報を分析したい
  • ポイント
    ▷分析の目的・考察観点
    ▷スクレイピング実施
    ▷テキストマイニング実施

”スクレイピング・テキストマイニング”理解のポイント

ポイント① 分析の目的・考察観点

まず、テキストマイニングと言われる手法がどのようにビジネスシーンでは利活用されているかという視点で考えると主に下記の3点かと思います。

分析の目的
  • 個人(潜在顧客)の声の抽出と傾向分析
    ▷アンケートやTwitter等のSNSを介した声の抽出
  • 業界(企業/組織)の特徴の可視化
    ▷ウェブ上のHP等を介した各企業の特徴比較など
  • 過去からのデータを元にした将来予測
    ▷新聞データなどからの業界動向予測など

まずどこに注目して分析を進めるかという点が最も重要になります。

上記の目的に応じて手段(扱う手法)が変わるのでまずはここからかと思います。今回は2つ目を焦点にあてた場合です。

ポイント②スクレイピングの実施

今回のケースで考えると扱う手法は以下の2つです。それぞれの特徴も含め以下の通りです。

  • スクレイピング
    ▷ネット上からデータ抽出
  • テキストマイニング
    ▷抽出データを傾向分析

後者はかなり広義ですが、この中の手法の一つを行うとそれっぽくまとまります。これは後述します。

一方で前者のスクレイピングに関しては以下のような式で抽出が可能です。

import pandas as pd
from bs4 import BeautifulSoup
import requests
 #分析対象は大学HP #url = 'https://ja.wikipedia.org/wiki/%E6%97%A9%E7%A8%B2%E7%94%B0%E5%A4%A7%E5%AD%A6'
url = 'https://www.waseda.jp/top/about/vision'
 #データ抽出
response = requests.get(url)
response.encoding = response.apparent_encoding

soup = BeautifulSoup(response.text, 'html.parser')

title = []
for i in soup.find_all('p'):

   ## 改行コードを削除
   title.append(i.getText()[6:].replace('\n', ''))

詳しくはbeautiful soupで検索すれば詳しい解説はもっとでてくると思います。

ポイント③テキストマイニングの実施

テキストマイニングは端的にえば

文字系の分析!

です。これには色々手法はありますが、ザックリ言うと以下のようなものがあります。

テキストマイニングのタイプ
  1. 文章を単語レベルに整理する分析
    ▷形態素解析等で品詞・単語分解
  2. 単語の傾向を把握し可視化する分析
    ▷①を元にワードクラウド等のビジュアル化
  3. 複数の単語・文章の関係性分析
    ▷word2vec, doc2vec等で文章の関係性分析

ザックリ言うと上記の組み合わせだと思います。ポイントは文字の情報を頻出語句等の特徴から定量化してそれを元に機械学習させるという流れです。

今回は①②を扱って行います。①はjanomeを利用し、②はワードクラウドを利用します。

#使用ライブラリ
from janome.tokenizer import Tokenizer
from wordcloud import WordCloud

## ストップワードは一旦なし
stop_words = ['']

## タイトルの名詞のみをスペース区切りのテキストへ変換
t = Tokenizer()

words = []

for i in title:
   tokens = t.tokenize(i)

   for token in tokens:
       ## 品詞を抽出
       pos = token.part_of_speech.split(',')[0]

       ## 品詞から名詞だけ抽出
       if pos in ['名詞']:
           ## 必要ない単語を省く
           if token.base_form not in ignore_words:
               words.append(token.base_form)

text = ' '.join(words)
 #日本語フォントの指定
fpath = "C:/Windows/Fonts/YuGothM.ttc"
 #ワードクラウドの各種設定指定
wordcloud = WordCloud(background_color="white",#背景を白に
                     stopwords = stop_words,
                    font_path=fpath,width = 800,height=600).generate(text)
 #pngで保存する
wordcloud.to_file("./waseda.png")

上記を行うとこのような形でアウトプットします。

形態素分析の箇所がどのような仕組みで動いているのかは下記にまとめております。

あわせて読みたい
【自然言語処理】テキストマイニング、word2vecの仕組とは ワタシ 今回は“自然言語処理”について理解を深めます。 「自然言語処理」とは、大量のテキストデータから、有益な情報を取り出す分析のことを総称したものです。 言い換...

自作プログラムへ拡張する

ここからは自分で拡張する方法に関しても触れておきます。

「もっと本当はこういった拡張をしたいんだけどな…」

という想いが芽生えた場合は、上記の構成を理解した上で、自分なりにアレンジする必要があります。

私のようなプログラミング初心者の人は下記3点を検討すると拡張が簡単にできます。

参考.Pythonの参考書を活用する

Pythonをかじり始めて、複数の書籍に目を通しはじめていますが、

色々とみている感じ下記の参考書などが扱いやすかったです。

Python2年生 データ分析のしくみ 体験してわかる!会話でまなべる!
created by Rinker
  • Kindle
  • Amazon
  • 楽天市場
  • Yahooショッピング
Marketing Python マーケティング・パイソン AI時代マーケターの独習プログラミング入門(できるビジネス) できるビジネスシリーズ
created by Rinker
  • Kindle
  • Amazon
  • 楽天市場
  • Yahooショッピング
Python実践データ分析100本ノック
created by Rinker
  • Kindle
  • Amazon
  • 楽天市場
  • Yahooショッピング

冒頭あげたPythonの基本的な構成や仕組の他、とても実践的な内容が記載されています。

まとめ 

上記を活用する際に、理解しておくべきポイントは以下3点です。

今回の抑えドコ
  • ポイント①:分析の目的・考察観点
     ▷まずはビジネス課題から目的を見定めて着手をする
  • ポイント②:スクレイピングの実施
     ▷WEB上のデータを抽出する手法
  • ポイント③:テキストマイニングの実施
     ▷文字系の分析、色々手法はあるがどれも定量化して分析する手法

上記、具体例をまとめてみましたが、この領域は最も手軽かつ、最も幅広く色々できると思います。

ただ、目的を考えてから着手しないと何となく面白いものができた(出来そう)で終わりやすい領域でもある気がします。

そのため、まずは上記コードで試してみつつ、参考書や動画・スクールを使いながら自分の好きな形に拡張していきましょう!

思い立ったが吉日です、モチベーションが高いうちに実践をして知識を深めていきましょう!(‘ω’)ノ

ご精読頂きありがとうございました。
m(_ _)m

プログラミング
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
  • 【Python入門】ディープラーニングの実践 | CNN等で画像の自動判別
  • 【Python入門】Twitterデータでテキストマイニング(APIの利用)

この記事を書いた人

らーにゃのアバター らーにゃ

ビビっときたTipsや手帳術を発信します ٩( ᐛ )و

●家族:フルキャリ妻と子供2人

●資格:国家資格キャリアコンサルタント

●趣味:手帳歴20年 | 自作歴12年| デジプラ歴4年

関連記事

  • 【GAS】ショートカットを利用してApple Watch→スプレッドシートのデータ連携を行う
  • 【GAS】Google Fitのデータをスプレッドシートに引き抜くプログラムを考える
  • 【徹底比較】PythonとGASをどちらを学ぶべきか?実際に両方を学んで分かった違いとオススメ学習法
  • 【GAS】TogglのAPIを利用したデータ連携の仕様変更について
  • 【Python入門】コピペしてそのまま使えるPythonの自動化プログラムまとめ
  • 【Python自動化】GoogleスプレッドシートにPythonからデータを流し込む方法
  • 【Python自動化】タスクスケジューラで定時にPythonファイルを自動実行する方法
  • 【Python自動化】Seleniumでスクレイピング | ログイン認証を突破しデータ取得する

コメント

コメントする コメントをキャンセル

ブログの記事一覧
らーにゃ
国家資格キャリアコンサルタント
カナダでキャリコン/キャリアコーチをしながら理想のセカンドキャリアを作るヒントや考え方をブログやYouTubeで発信中!

●家族:
ーフルキャリの妻1人+子供2人
●趣味:
ー手帳歴20年 | 自作12年 | デジプラ3年
ーブログ歴8年 | YouTube歴1年
●資格:
ー国家資格キャリアコンサルタント
ー7つの習慣セルフコーチング認定コーチ
ーライフコーチ
人気の記事ランキングTOP5!
  • 【自作手帳】自作リフィルのおすすめテンプレート10選!(PDF無料ダウンロード可!)
  • 【2026最新】ジャーナリングのおすすめ本10選!Unlimited対応も!
  • 【無料】Goodnotes6で使えるデジタルプランナー・テンプレート10選(PDFダウンロード可)
  • 【自作手帳】Word,Excelで出来る!A5システム手帳のリフィル自作方法
  • 【保存版】Goodnotes6の使い方まとめ!PDFの読み込み・PDF化・メモの書き方を徹底解説
目次
検索
  • プロフィール
  • サイトマップ
  • プライバシーポリシー
  • お問い合わせ

© キャリアの実験室.

  • メニュー
  • ジャーナル
  • 自作手帳
  • アイデア
目次