MENU
  • 手帳
    • 手帳 リフィル自作した手帳のリフィルを公開していきます!
    • 手帳 レビュー
    • 手帳 アイデア
    • 手帳 ジャーナリング
  • 独学
    • 独学 キャリアコンサルタント国家資格キャリアコンサルタントの試験対策や学んだコトなどをまとめていきます!
    • 独学 プログラミング
    • 独学 リスキリング自分で楽しく効率よく学習するリスキリングのTipsや参考情報をまとめますᕦ(ò_óˇ)ᕤ
  • ワーク
    • キャリア 転職
    • マインドセット
    • マインドフルネス自分の気持ちを高めて、常に前向きに平常心でいるためのTipsや参考情報をまとめます!
    • ツール活用 効率化
人気の記事ランキングTOP 5!
  • 【自作手帳】自作リフィルのおすすめテンプレート10選!(PDF無料ダウンロード可!)
  • 【2026最新】ジャーナリングのおすすめ本10選!Unlimited対応も!
  • 【自作手帳】Word,Excelで出来る!A5システム手帳のリフィル自作方法
  • 【無料】Goodnotes6で使えるデジタルプランナー・テンプレート10選(PDFダウンロード可)
  • 【保存版】Goodnotes6の使い方まとめ!PDFの読み込み・PDF化・メモの書き方を徹底解説
手帳でキャリアも人生も自分らしく!
キャリアの実験室
  • 手帳
    • 手帳 リフィル自作した手帳のリフィルを公開していきます!
    • 手帳 レビュー
    • 手帳 アイデア
    • 手帳 ジャーナリング
  • 独学
    • 独学 キャリアコンサルタント国家資格キャリアコンサルタントの試験対策や学んだコトなどをまとめていきます!
    • 独学 プログラミング
    • 独学 リスキリング自分で楽しく効率よく学習するリスキリングのTipsや参考情報をまとめますᕦ(ò_óˇ)ᕤ
  • ワーク
    • キャリア 転職
    • マインドセット
    • マインドフルネス自分の気持ちを高めて、常に前向きに平常心でいるためのTipsや参考情報をまとめます!
    • ツール活用 効率化
キャリアの実験室
  • 手帳
    • 手帳 リフィル自作した手帳のリフィルを公開していきます!
    • 手帳 レビュー
    • 手帳 アイデア
    • 手帳 ジャーナリング
  • 独学
    • 独学 キャリアコンサルタント国家資格キャリアコンサルタントの試験対策や学んだコトなどをまとめていきます!
    • 独学 プログラミング
    • 独学 リスキリング自分で楽しく効率よく学習するリスキリングのTipsや参考情報をまとめますᕦ(ò_óˇ)ᕤ
  • ワーク
    • キャリア 転職
    • マインドセット
    • マインドフルネス自分の気持ちを高めて、常に前向きに平常心でいるためのTipsや参考情報をまとめます!
    • ツール活用 効率化
  1. ホーム
  2. 独学
  3. 独学 プログラミング
  4. 【Python入門】WEB上のデータを抽出してテキストマイニング(スクレイピング)

【Python入門】WEB上のデータを抽出してテキストマイニング(スクレイピング)

2024 11/21
独学 プログラミング
ワタシ

今回は“スクレイピング・テキストマイニング”について理解を深めます。

データ分析をする中で一番、感覚的かつ身近なもの(Twitter等)で分析が出来る手法がテキストマイニングです。

出来そうなことは多そうだけどどうやるの?

と気になる人も多いと思うので下記に整理します。

尚、テキストマイニング(自然言語処理)の統計的な成り立ちや仕組については下記でまとめております。

目次

今回の論点整理

”スクレイピング・テキストマイニング“の使いドコ

今回はネット上のテキストを読み込んで(スクレイピング)その情報を元に整理・分析(テキストマイニング)します。

上記のように実際のHP等、WEB上のデータなどの情報を抽出しながら整理することが出来ると分析の幅が広がります。

※ただ、ウェブ上のデータを抽出するスクレイピングは機密情報を引き抜いたりするなど違法行為にも繋がりやすいので取り扱いには注意が必要です。

ご参考ページ(外部リンク)

具体的な想定場面

今回の想定は以下のような場合です。

今回の想定

想定:社内のWEBマーケターで上層部から「最近の大学の動向を報告しろ」と言われた
状況:お金をかけずにとある業種(大学)の最近の動向をWEB上から分析したい
意図:テキストマイニングなどを用いて時短でそれっぽい分析をしたい

このような時、「スクレイピング・テキストマイニング」という考え方が使えるのだと思います。

以下はこの知識を使う際に思い出すべき点を、後で振り返れるようにポイントを絞って備忘録としてまとめます。

今回の抑えドコ

そこで、今回は上記を実現する手順について下記に備忘録的にまとめたいと思います。

抑えドコ!
  • 今回の焦点
    ▷お金をかけずにWEB上の情報を分析したい
  • ポイント
    ▷分析の目的・考察観点
    ▷スクレイピング実施
    ▷テキストマイニング実施

”スクレイピング・テキストマイニング”理解のポイント

ポイント① 分析の目的・考察観点

まず、テキストマイニングと言われる手法がどのようにビジネスシーンでは利活用されているかという視点で考えると主に下記の3点かと思います。

分析の目的
  • 個人(潜在顧客)の声の抽出と傾向分析
    ▷アンケートやTwitter等のSNSを介した声の抽出
  • 業界(企業/組織)の特徴の可視化
    ▷ウェブ上のHP等を介した各企業の特徴比較など
  • 過去からのデータを元にした将来予測
    ▷新聞データなどからの業界動向予測など

まずどこに注目して分析を進めるかという点が最も重要になります。

上記の目的に応じて手段(扱う手法)が変わるのでまずはここからかと思います。今回は2つ目を焦点にあてた場合です。

ポイント②スクレイピングの実施

今回のケースで考えると扱う手法は以下の2つです。それぞれの特徴も含め以下の通りです。

  • スクレイピング
    ▷ネット上からデータ抽出
  • テキストマイニング
    ▷抽出データを傾向分析

後者はかなり広義ですが、この中の手法の一つを行うとそれっぽくまとまります。これは後述します。

一方で前者のスクレイピングに関しては以下のような式で抽出が可能です。

import pandas as pd
from bs4 import BeautifulSoup
import requests
 #分析対象は大学HP #url = 'https://ja.wikipedia.org/wiki/%E6%97%A9%E7%A8%B2%E7%94%B0%E5%A4%A7%E5%AD%A6'
url = 'https://www.waseda.jp/top/about/vision'
 #データ抽出
response = requests.get(url)
response.encoding = response.apparent_encoding

soup = BeautifulSoup(response.text, 'html.parser')

title = []
for i in soup.find_all('p'):

   ## 改行コードを削除
   title.append(i.getText()[6:].replace('\n', ''))

詳しくはbeautiful soupで検索すれば詳しい解説はもっとでてくると思います。

ポイント③テキストマイニングの実施

テキストマイニングは端的にえば

文字系の分析!

です。これには色々手法はありますが、ザックリ言うと以下のようなものがあります。

テキストマイニングのタイプ
  1. 文章を単語レベルに整理する分析
    ▷形態素解析等で品詞・単語分解
  2. 単語の傾向を把握し可視化する分析
    ▷①を元にワードクラウド等のビジュアル化
  3. 複数の単語・文章の関係性分析
    ▷word2vec, doc2vec等で文章の関係性分析

ザックリ言うと上記の組み合わせだと思います。ポイントは文字の情報を頻出語句等の特徴から定量化してそれを元に機械学習させるという流れです。

今回は①②を扱って行います。①はjanomeを利用し、②はワードクラウドを利用します。

#使用ライブラリ
from janome.tokenizer import Tokenizer
from wordcloud import WordCloud

## ストップワードは一旦なし
stop_words = ['']

## タイトルの名詞のみをスペース区切りのテキストへ変換
t = Tokenizer()

words = []

for i in title:
   tokens = t.tokenize(i)

   for token in tokens:
       ## 品詞を抽出
       pos = token.part_of_speech.split(',')[0]

       ## 品詞から名詞だけ抽出
       if pos in ['名詞']:
           ## 必要ない単語を省く
           if token.base_form not in ignore_words:
               words.append(token.base_form)

text = ' '.join(words)
 #日本語フォントの指定
fpath = "C:/Windows/Fonts/YuGothM.ttc"
 #ワードクラウドの各種設定指定
wordcloud = WordCloud(background_color="white",#背景を白に
                     stopwords = stop_words,
                    font_path=fpath,width = 800,height=600).generate(text)
 #pngで保存する
wordcloud.to_file("./waseda.png")

上記を行うとこのような形でアウトプットします。

形態素分析の箇所がどのような仕組みで動いているのかは下記にまとめております。

あわせて読みたい
【自然言語処理】テキストマイニング、word2vecの仕組とは ワタシ 今回は“自然言語処理”について理解を深めます。 「自然言語処理」とは、大量のテキストデータから、有益な情報を取り出す分析のことを総称したものです。 言い換...

自作プログラムへ拡張する

ここからは自分で拡張する方法に関しても触れておきます。

「もっと本当はこういった拡張をしたいんだけどな…」

という想いが芽生えた場合は、上記の構成を理解した上で、自分なりにアレンジする必要があります。

私のようなプログラミング初心者の人は下記3点を検討すると拡張が簡単にできます。

1.Pythonの参考書を活用する

Pythonをかじり始めて、複数の書籍に目を通しはじめていますが、

色々とみている感じ下記の参考書などが扱いやすかったです。

Python2年生 データ分析のしくみ 体験してわかる!会話でまなべる!
created by Rinker
¥2,178 (2026/02/01 14:34:16時点 Amazon調べ-詳細)
  • Kindle
  • Amazon
  • 楽天市場
  • Yahooショッピング
Marketing Python マーケティング・パイソン AI時代マーケターの独習プログラミング入門(できるビジネス) できるビジネスシリーズ
created by Rinker
¥2,376 (2026/02/01 16:52:34時点 Amazon調べ-詳細)
  • Kindle
  • Amazon
  • 楽天市場
  • Yahooショッピング
Python実践データ分析100本ノック
created by Rinker
¥2,376 (2026/02/01 14:34:17時点 Amazon調べ-詳細)
  • Kindle
  • Amazon
  • 楽天市場
  • Yahooショッピング

冒頭あげたPythonの基本的な構成や仕組の他、とても実践的な内容が記載されています。

ワタシ

良い人にあたるとその後もメッセージなどで軽い相談ができる場合もあります

2. 動画教材(Udemy)の活用

個人的に一番コスパが高くオススメしたいのがコレ。

何かというとUdemyを活用した動画学習です。

分からないところがある時に、必要なところを本で読むのではなく、動画で解説してもらう方が理解のしやすさが段違いです。

また、講師の評価もついており、個人的な所感ですが、基本的に4.0以上の評価のコンテンツであればハズレはない印象です。

当然Pythonの日本語の動画も多く、日本語講師の解説動画も多数あるので、安心です。

個人的にオススメしたいのは下記の講座。

これで基本的な利活用から応用部分までも網羅的にマスターできます。

色々とPythonの講座動画があったのでつまみ食いしましたが、上記がわかりやすく、評価も高くて最初の第一歩にはオススメです。

基本的なところから入りますが、簡単な機械学習のポイントを含め、今回と扱ったスクレイピングなども付録で取り扱ってくれています。

何個の動画も見るのは時間もお金も勿体ないので、狙いを定めて買うのがオススメ。大幅ディスカウントされているときは特にねらい目です!

▼おすすめの動画学習(Udemy)▼

プログラミング言語の人気オンラインコース >>プログラミング講座はコチラから

※評価が4.0を超えて割引にもなっているコンテンツは特におすすめです!

ツマ

割引はいつくるか分からないからタイミングは逃さないようにしないとね!

3. プログラミングスクールを利用する

そして、最後の手段ガコレです。

特に、『時間がない!早く学びきりたい!』という人にオススメしたいのがこれです。

>>TechAcademyでおすすめ講座の「Pythonコース」

これは費用もかかりますが最も学習効率が高いです。

実際にTechAcademyは利用してみましたが、初心者を想定したカリキュラムが設定されており初心者でも安心です。

そのため、参考書を使ってみたが、自分でペースを作りにくい…という人には一番合うと思います。

個人的に、メンターに都度、相談をしながら学習リズムを作る事が一番のよいポイントです。

また、メンターによるかもしれませんが、私の場合は、カリキュラムに関連する内容であればカリキュラム外でも色々教えてもらえました。

その点、Pythonでやりたいことがある人は色々学べると思います。

>>TechAcademyでおすすめ講座の「Pythonコース」

特にキャンペーンなどをやっているときは、オマケがとても豪華だったりするので、参照してタイミングを逃さないようにしましょう!

ワタシ

私もオマケ狙いのキャンペーン狙いでコスパよく学べて大満足でした

まとめ 

上記を活用する際に、理解しておくべきポイントは以下3点です。

今回の抑えドコ
  • ポイント①:分析の目的・考察観点
     ▷まずはビジネス課題から目的を見定めて着手をする
  • ポイント②:スクレイピングの実施
     ▷WEB上のデータを抽出する手法
  • ポイント③:テキストマイニングの実施
     ▷文字系の分析、色々手法はあるがどれも定量化して分析する手法

上記、具体例をまとめてみましたが、この領域は最も手軽かつ、最も幅広く色々できると思います。

ただ、目的を考えてから着手しないと何となく面白いものができた(出来そう)で終わりやすい領域でもある気がします。

そのため、まずは上記コードで試してみつつ、参考書や動画・スクールを使いながら自分の好きな形に拡張していきましょう!

思い立ったが吉日です、モチベーションが高いうちに実践をして知識を深めていきましょう!(‘ω’)ノ

ご精読頂きありがとうございました。
m(_ _)m

【参考】Python初心者のお勉強のお供

上記の内容と併せて実務で活かすという視点では下記の参考図書も合わせて確認すると理解が深まります(-_-)

▼オススメの参考書籍(Kindle)▼

Python2年生 データ分析のしくみ 体験してわかる!会話でまなべる!
created by Rinker
¥2,178 (2026/02/01 14:34:16時点 Amazon調べ-詳細)
  • Kindle
  • Amazon
  • 楽天市場
  • Yahooショッピング
Marketing Python マーケティング・パイソン AI時代マーケターの独習プログラミング入門(できるビジネス) できるビジネスシリーズ
created by Rinker
¥2,376 (2026/02/01 16:52:34時点 Amazon調べ-詳細)
  • Kindle
  • Amazon
  • 楽天市場
  • Yahooショッピング
Python実践データ分析100本ノック
created by Rinker
¥2,376 (2026/02/01 14:34:17時点 Amazon調べ-詳細)
  • Kindle
  • Amazon
  • 楽天市場
  • Yahooショッピング

▼おすすめの動画学習(Udemy)▼

>>ゼロからPythonで学ぶ人工知能と機械学習 【2023年最新版】

>>現役シリコンバレーエンジニアが教えるPython 3 入門 + 応用

>>独学で身につけるPython〜基礎編〜【業務効率化・自動化】

【参考】Python初心者が抑えたいポイント集

Python(主にデータ分析・自動化)に関しては

下記に実践したポイントをまとめています。基本的にコピペするだけでそのまま使えます٩( ᐛ )و

あわせて読みたい
【Python入門】コピペしてそのまま使えるPythonの自動化プログラムまとめ ワタシ ども、らーにゃです。今回はPythonのプログラムについてまとめます。 Pythonをもっと身近なことに応用できないか? プログラミングをかじり始めた人で、こんなこ...

業務効率化・自動化においてはGoogle Apps Scriptもセットで学ぶことをオススメ!

こちらもコピペしてすぐに使えます!

あわせて読みたい
【GAS入門】コピペしてそのまま使えるGoogle Apps Scriptプログラム一覧 ワタシ ども、らーにゃです。今回はGASの活用についてまとめます。 身の回りのことをもっと自動化できないものか? 仕事でもプライベートでも忙しくなるほどに自動化の...

PythonとGoogle Apps Scriptどちらを深めようかを迷っていればこちら!

あわせて読みたい
【徹底比較】PythonとGASをどちらを学ぶべきか?実際に両方を学んで分かった違いとオススメ学習法 ワタシ ども、らーにゃです。今回はPythonとGASを比較していきます。 自分は非エンジニアだけど… 「もっともっと効率化したい!」 「プログラムを書けるようになりたい...
独学 プログラミング
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
  • 【Python入門】ディープラーニングの実践 | CNN等で画像の自動判別
  • 【要約】「最高の戦略教科書 孫子」!ビジネスマン必読の「孫子の兵法書」のポイントとは

この記事を書いた人

らーにゃのアバター らーにゃ

ビビっときたTipsや手帳術を発信します ٩( ᐛ )و

●家族:フルキャリ妻と子供2人

●資格:国家資格キャリアコンサルタント

●趣味:手帳歴20年 | 自作歴12年| デジプラ歴4年

関連記事

  • 【GAS】ショートカットを利用してApple Watch→スプレッドシートのデータ連携を行う
  • 【レビュー】ChatGPTの使い方 | プログラミング初心者の応用 (GAS/Python)
  • 【GAS】Google Fitのデータをスプレッドシートに引き抜くプログラムを考える
  • 【徹底比較】PythonとGASをどちらを学ぶべきか?実際に両方を学んで分かった違いとオススメ学習法
  • 【GAS】TogglのAPIを利用したデータ連携の仕様変更について
  • 【Python入門】コピペしてそのまま使えるPythonの自動化プログラムまとめ
  • 【Python自動化】GoogleスプレッドシートにPythonからデータを流し込む方法
  • 【Python自動化】タスクスケジューラで定時にPythonファイルを自動実行する方法

コメント

コメントする コメントをキャンセル

ブログの記事一覧
カナダでキャリコン/コーチをしながら理想のセカンドキャリア作るためのヒントや考え方をブログやYouTubeで発信中!

●家族:フルキャリ妻1人、子供2人
●資格:国家資格キャリアコンサルタント
●趣味:手帳歴20年 | 自作歴12年| デジプラ歴4年
人気の記事ランキングTOP5!
  • 【自作手帳】自作リフィルのおすすめテンプレート10選!(PDF無料ダウンロード可!)
  • 【2026最新】ジャーナリングのおすすめ本10選!Unlimited対応も!
  • 【自作手帳】Word,Excelで出来る!A5システム手帳のリフィル自作方法
  • 【無料】Goodnotes6で使えるデジタルプランナー・テンプレート10選(PDFダウンロード可)
  • 【保存版】Goodnotes6の使い方まとめ!PDFの読み込み・PDF化・メモの書き方を徹底解説
目次
検索
  • プロフィール
  • サイトマップ
  • プライバシーポリシー
  • お問い合わせ

© キャリアの実験室.

  • メニュー
  • ジャーナル
  • 自作手帳
  • アイデア
目次