HTTP通信を用いてhtmlファイルを取得し、文字列抽出、指定したディレクトリに保存するプログラムを作成したいです。
Linux上で動作させたいです。
/Desktop/A/1_山田
ディレクトリに保存したいです。
サンプルとなるようなプログラムを教えていただけないでしょうか?
抽出の対象は
○○○○○○○○○○○○.jpの
1 <html>
2 <head>
3 <META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
4 <title>ホームページ</title>
5 </head>
6 <frameset rows="180,*" cols="*" frameBorder="0">
7 <frame name="Titke" src="DataListTitle.php?MstCode=01234567&Time=2016062912" scrolling="no">
8 <frame name="Hyou" src="DataListHyou.php?MstCode=01234567&Time=2016062912" scrolling="yes">
9 </frameset>
10 <noframes></noframes>
11 </html>
のリンク先の
データです。
以降の文字は数字・全角・半角・文字数あらゆる場合において対応できるようにしたいです。
さらに、そのリンク先のファイルの
<tr align="right">
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列></td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列></td>
<td 任意の文字列></td>
</tr>
<tr align="right">
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列></td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列></td>
<td 任意の文字列>ここに存在する文字列</td>
<td 任意の文字列></td>
<td 任意の文字列></td>
</tr>
<tr align="right">
~省略~
の
ここに存在する文字列(半角・全角・数字・アルファベットあらゆる文字列に対応かつ、文字化けしない)
です。
よろしくお願いします。