ページ 1 / 1
apple
Posted: 2015年8月13日(木) 01:58
by pythonを使った文字列取得
pythonを用いて、サイトのソースから”http://~~~~~~~~~~~~.jpeg"となっている文字列を取得したい。
サイトのソースには様々な文字列がありどのようにしてたくさんの文字列からhttpから始まり.jpegで終わるurlを取り出せるかコードを明示して教えて欲しいです。
Re: apple
Posted: 2015年8月13日(木) 02:19
by みけCAT
pythonを使った文字列取得 さんが書きました:pythonを用いて、サイトのソースから”http://~~~~~~~~~~~~.jpeg"となっている文字列を取得したい。
コード:
# coding: UTF-8
import re
サイトのソース = """
http://example.com/aaa/bbb.jpg
https://example/com/aaa/ccc.jpeg
asdfjaiopsfjaohttp://ejfsafjpegsdfsafsfd.jpegggaadvasdvaoeatj
http://dfasjdfoija/jojojoj.jpg
weejpajfasjgsa
gaepgspgesgsee.jpg
fsdifoasjdfasfefes.jpeg
"""
取り出したやつ = re.compile('http://[\s\S]*?\.jpeg').findall(サイトのソース)
print(取り出したやつ)
pythonを使った文字列取得 さんが書きました:サイトのソースには様々な文字列がありどのようにしてたくさんの文字列からhttpから始まり.jpegで終わるurlを取り出せるかコードを明示して教えて欲しいです。
Uniform Resource Locators (URL)
を見て、上のコードと同様に条件を満たすurlにマッチする正規表現を使えばできるはずです。
すぐには書けませんが…
Re: apple
Posted: 2015年8月13日(木) 04:19
by apple
みCATさん回答ありがとうございます。
ソース内のhttp://****.jpgのURlを上から順に取得したいのですが、先ほど提示していただいた方法だと一番上のURLしか取得できません。どのようにすれば、ソースにあるURLをすべて取得できますか?