ページ 11

URLを取り出す正規表現

Posted: 2014年9月30日(火) 20:09
by ccc+++

コード:

<div class="rc" data-hveid="31"></div>の中にある
<h3 class="r"></h3>の中にある

<a>タグの中にあるhref属性

をとりだす正規表現はどのように書けばよいでしょうか。



下記の入れ子になっているソースの場合

http://ja.wikipedia.org/wiki/PHP:_Hypertext_Preprocessor

を取り出すことになります。



<div class="rc" data-hveid="31">
<h3 class="r">
<a onmousedown="return rwt(this,'','','','1','AFQjCNHP46Qyp87823XLbcO6pn4iLw0lyA','','0CCAQFjAA','','',event)" href="http://ja.wikipedia.org/wiki/PHP:_Hypertext_Preprocessor">
</h3>
</div>


よろしくお願い致します。


Re: URLを取り出す正規表現

Posted: 2014年9月30日(火) 20:45
by h2so5
正規表現を利用するより、HTMLパーサーを導入したほうが良いのではないかと思います。

Re: URLを取り出す正規表現

Posted: 2014年9月30日(火) 21:15
by ccc+++
返信ありがとうございます。

事情があってどうしても正規表現で行いたいと考えています。

HTMLパーサーは別途考慮させていただきます。

どうぞよろしくお願いいたします。

Re: URLを取り出す正規表現

Posted: 2014年10月01日(水) 05:28
by へにっくす
以下が参考になりませんかね。

【正規表現】 preg_replace()を使用して、URL文字列をHTMLのリンク形式に置換する方法

PHPですけど、
正規表現そのものはそのまま使えると思いますが。

あるいは知恵袋のこれとか。
正規表現でアンカータグのURLを抽出したいです

Re: URLを取り出す正規表現

Posted: 2014年10月01日(水) 16:04
by ccc+++
返信ありがとうございます。

いただいたヒントを頼りに頑張ってみます。