【Python】スクレイピング

こんにちは、三橋です。

弊社では、ある業者の複数社のホームページにある情報をチェックするスクレイピングツールを作成しております。
今回スクレイピングがどのようなものなのか調べてみたらPythonで出来ることが分かったので調べて実施してみました。

スクレイピングとは

スクレイピングとは、Webページからデータを抽出するプロセスです。これは、ウェブスクレイピングとも呼ばれます。スクレイピングは、Webページからテキスト、画像、動画、価格情報、レビューなど、様々な情報を抽出することができます。スクレイピングには、プログラミング言語を使用してWebページのHTMLコードを解析し、必要なデータを抽出することが必要です。

Pythonで使用できる主なスクレイピング用ライブラリ一覧

BeautifulSoup4
Requests
Selenium

Python環境でBeautifulSoup4を使用できるようにする

pipコマンドでBeautifulSoup4をインストールします。

pip3 install beautifulsoup4

タグで指定してデータを抽出する

下記ソースを実行し「タイトル: Home - 株式会社クオリアシステムズ」と表示されれば成功です。

import requests
from bs4 import BeautifulSoup

url = 'https://qualias.jp/'

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

#タイトルを取得
title = soup.title.string
print('タイトル:', title)

タイトル: Home - 株式会社クオリアシステムズ

class で指定してデータを抽出する

下記ソースを実行し「株式会社クオリアシステムズ」と表示されれば成功です。

import requests
from bs4 import BeautifulSoup

url = 'https://qualias.jp/'

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

#タイトルを取得
title = soup.find(class_="hero-small-text").get_text()
print(title)

株式会社クオリアシステムズ

スクレイピング結果をExcelに貼り付ける

下記ソースを実行し「text.xlsx」がこのソースを配置している箇所に作成され、A列とB列に値が入力されれば完了です。

import requests
import re
import openpyxl
from bs4 import BeautifulSoup

# エクセルを開く
wb = openpyxl.Workbook()
sheet = wb.active
sheet .title = "スクレイピング結果"

url = 'https://qualias.jp/blog/'

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

cnt = 1

#配列ループ
for a in soup.find_all("a"):
	data = str(a.string).rstrip()
	if data == "None":
		continue
	# シートの番号を決める
	sel1 = "A"+str(cnt)
	sel2 = "B"+str(cnt)
	sheet[sel1].value = data
	sheet[sel2].value = a.get("href")
	cnt += 1

# エクセルにデータを保存する
wb.save("text.xlsx")

wb.close()

上記のものを組み合わせてスクレイピングツールを作成していることがわかりました。
スクレイピングは効率的にWebサイトからデータを取得することが出来ます。

株式会社クオリアシステムズでは一緒に働く仲間を募集しています

【Python】スクレイピング

三橋遥香

株式会社クオリアシステムズ /

1 いいね！

株式会社クオリアシステムズ

Child-Dream×クオリアシステムズでは新しいオリジナルのMMORPGを制作するためのゲームプログラマを募集します。ゲームが好きで一緒に創造的な仕事をしたい方、大手とは異なる少人数の制作チームで力を発揮されたい方。従来のMMORPGとは異なるシンプルでストーリー性に富んだゲームを目指します。本制作はゲーム企画およびネットワークの専門会社によるジョイントベンチャーの開発体制で、小規模開発ながら、MMORPGを実現可能としています。大手のようなきれいなオフィスは無いですが、短期集中でゲーム開発に携わりたい方を募集します。もちろん、その後も様々な開発プロジェクトがあります。応募や質問はお気軽にお問い合わせください。 ■募集要件・開発はUnityベースになりますが、Unity必須ではありません。（クライアント側の募集なので、サーバ知識は無くても可です）・ゲームが好きで意欲的な方・何らかのソフトウエアやアプリの開発経験がある方・2018年9月～10月にメインで働くことが可能な方。ただし、勤務時間などは個人の都合により調整ができます。 ■勤務条件勤務時間・曜日：・週休２日・フレックスタイム制度あり・自宅作業なども応相談交通アクセス： JR中央線西荻窪駅から徒歩５分待遇・福利厚生：慶弔休暇、昇給年１回（４月）、社宅制度ありその他：書類選考ののち、面接１回〜２回行います。雇用形態: 正社員, アルバイト･パート, 派遣社員, インターン, 契約社員, 業務委託給与（正社員の場合）：180,000円～500,000円 /月給 ―――――――― ■開発体制ゲームプランナー／シナリオライター　H.Miyashita 物語性を重視したRPG、アドベンチャーゲームを制作、1997年のRPG「Lost Memory」などがヒットし、株式会社Child-Dreamを立ち上げ。代表作は下記。・「フォークスソウル」プレイステーション3用アクションAVG。全シナリオ執筆、企画リーダー担当・「人形の傷跡」　推理小説専門誌にも掲載、PC、スマホ累計100万DL超のサスペンス・「千里の棋譜」　高橋道雄九段が出演の将棋ミステリー、トップ棋士もプレーし、将棋連盟公式にも掲載株式会社クオリアシステムズ 2001年設立、大手証券会社などのシステム開発を長年手がける一方で、スマホアプリも開発。「神経衰弱できるもん　おすしやさん」はAppStoreカジュアルゲーム部門１位を獲得、なお人気が継続中で、現在累計150万DLに達した。デザイン、ネットワーク、AIにも専門社員を有する。2018年4月よりゲーム部門を拡充。

フォロー

三橋遥香さんにいいねを伝えよう

三橋遥香さんや会社があなたに興味を持つかも