一週間でWebスクレイピングまで来れた!
この一週間の流れとしてはこんな感じ
・本を買って三日でpythonプログラムの言語仕様を掴む
・RSSリーダーを作るためにライブラリの使い方を調べRSSリーダーを作る
・Linuxや別のWindowsで動かして環境構築を学ぶ
・Webスクレイピングをやる←今ココ
家事の合間もyoutubeでpython学習用チャンネルで勉強してました。
キノコード。オススメ。
RSSリーダーの作成にはfeedpaserを使用しましたが。
今回はHTMLを丸ごと引っ張ってくるrequestsと
そのHTMLを解析(パース)するBeautifulSoupを使用しました。
pythonのライブラリ名はほかの言語に比べて一線を画していると思う。
練習問題としてヤフーニュースから千葉王国の天気概要を引っ張ります。
import requests
from bs4 import BeautifulSoup as bs
szUrl = "https://weather.yahoo.co.jp/weather/jp/12/"
url = requests.get(szUrl)
soup = bs(url.content, "html.parser")
elems = soup.find_all("p")
for elem in elems:
try:#エラーが出ても続行
string = elem.get("class").pop(0)
if string in "text jsoff":
print(elem.contents)
except:
pass
構文解析にはHTMLの知識も多少なりとも必要となってきます。
お盆を掛けましたがpython初心者からpython使ったことある。
くらいにレベルアップです。
次は何をやろうかな。