正規表現について

super · #1

サイトのソース内に下記のようなソースがあります。
<meta property="og:description" content="正規表現勉強中！"/>

上記の”正規表現勉強中！”と書いてあるところを取得したいです。そこには日本語だけでなく、カタカナ、数字、漢字などすべてを含みます。

私が考えた正規表現は

<meta property="og:description" content="((?:.|\n)+)"/>

上記のものなのですが、日本語が適切に表示されず、<meta property="og:description" content="以降のものをすべて含んでしまいます。

”　<meta property="og:description" content="　”　この文字列の後ろにあるものを取得したいです。

#2

"はエスケープ文字ですので\"とかかないといけません。

#3

条件にある最短の繰り返しにマッチさせるには、+のかわりに+?を使うといいかもしれません。

YuO · #4

XML (XHTML) 前提であるなら，正規表現

コード:

<meta property="og:description" content="([^"]*)"/>

という方法があるかと思います。
XML中で属性値が"で終わるので，"以外の文字のみ含む，という考え方です。
# 属性値としての"は"になるので，"は存在しないとして取り扱える。

super · #5

naohiro19さんみけCATさんYuOさん回答ありがとうございます。
返信遅れてしまいすいません。

試してみましたが、できませんでした。

”<meta property="og:description" content="([^"]*)"/>”この正規表現を実行して結果下記のようになり、タイトルが取れていませんでした。

['<meta property="og:description" content="']

タイトルが日本語だから表示されない、など関係あるのでしょうか？

YuO · #6

super さんが書きました:試してみましたが、できませんでした。
”<meta property="og:description" content="([^"]*)"/>”この正規表現を実行して結果下記のようになり、タイトルが取れていませんでした。
['<meta property="og:description" content="']
タイトルが日本語だから表示されない、など関係あるのでしょうか？

そもそも，結果がこのようになることはない (「"/>」というリテラルで終わる正規表現なので，マッチしたならば必ずこの文字列で終わる) のですが，どのように確認したのでしょうか。
putwsやstd::wcoutなどを使って出力しているのにロケール設定をしていない，などということはないでしょうか。

#7

super さんが書きました:タイトルが日本語だから表示されない、など関係あるのでしょうか？

そう思うなら、まずタイトルが英数字だけのデータを入力してテストし、問題を切り分けるといいと思います。

super · #8

Python

コード:

import re
twittitle = re.search('<meta property="og:description" content="([^"]*)"/>',html)
print twittitle.group()

このようなコードです。日本語は関係ありませんでした。

super · #9

私の手違いで違うディレクトリの同じ名前のファイルを実行していました。
本当にすいません。
目指していた通りにタイトルを取得できました。
たくさんのご回答ありがとうございました。

super · #10

すいません。
日本語は取得できているのですが、
関係ないところの日本語を取得していて、タイトルが取得できていませんでした。

		4月 2024
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

正規表現について

正規表現について

Re: 正規表現について

Re: 正規表現について

Re: 正規表現について

Re: 正規表現について

Re: 正規表現について

Re: 正規表現について

Re: 正規表現について

Re: 正規表現について

Re: 正規表現について