インターネットから情報だけを取り出す方法なんですが、HTMLのコマンドなどを抜いて書いてある情報だけを取り出すには、
コマンドなどのキーワードを削除するプログラムを組まないとダメでしょうか?
よろしくお願いします。
#include <stdio.h>
#include <winsock2.h>
#include <wininet.h>
#pragma comment(lib, "wininet.lib")
#include <iostream>
#include <fstream>
#define MAX 10000
void GetHttpFile();
int main(int argc, char *argv[]){
GetHttpFile();
return 0;
}
void GetHttpFile()
{
HINTERNET hInternet;
HINTERNET hFile;
char Buf[MAX];
DWORD ReadSize;
BOOL bResult;
std::ofstream ofs("test.txt");
/* WININET初期化 */
hInternet = InternetOpen(
"WININET Sample Program",
INTERNET_OPEN_TYPE_PRECONFIG,
NULL,
NULL,
0);
/* URLのオープン */
hFile = InternetOpenUrl(
hInternet,
"http://news.yahoo.co.jp/",
NULL,
0,
INTERNET_FLAG_RELOAD,
0);
/* オープンしたURLからデータを(1000バイトずつ)読み込む */
for (;;) {
ReadSize = MAX-1;
bResult = InternetReadFile(
hFile,
Buf,
MAX-1,
&ReadSize);
/* 全て読み込んだらループを抜ける */
if (bResult && (ReadSize == 0)) break;
Buf[ReadSize] = '\0';
std::cout << Buf;
ofs << Buf;
}
/* 後処理 */
InternetCloseHandle(hFile);
InternetCloseHandle(hInternet);
}