(pyenv) [test@SAKURA_VPS scraping]$ python edit_text.py
[‘<!DOCTYPE html><html lang=”ja” class=”is-android”><head>\n’, ‘ <meta charset=”utf-8″>\n’, ‘ <title>Yahoo! JAPAN</title>\n’, ‘ <meta name=”description” content=”日本最大級のポータルサイト。検索、オークション、ニュース、天気、スポーツ、メール、ショッピングなど多数のサービスを展開。あなたの生活をより豊かにする「課題解決エンジン」を目指していきます。”>\n’, ‘ <meta name=”viewport” content=”width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=0″>\n’, ‘ <link rel=”apple-touch-icon-precomposed” href=”https://s.yimg.jp/c/icon/s/bsc/2.0/y120.png”>\n’, ‘ <link rel=”canonical” href=”https://www.yahoo.co.jp/”>\n’, ‘ <link rel=”stylesheet” href=”https://s.yimg.jp/images/mtop/5.3.1/styles/top.css”>\n’, ‘ <noscript><link rel=”stylesheet” href=”https://s.yimg.jp/images/mtop/5.3.1/styles/noscript.css”></noscript>\n’, ‘ <link rel=”dns-prefetch” href=”//approach.yahooapis.jp”>\n’,

～　省略　～

確かにリスト形式で出力されています。

全体で1リストで、1行がリストの1要素になっています。

Webスクレイピングをして目的の要素だけ取り出す

前回のパート5で Web スクレイピングをしてテキストファイル（text.txt）に出力するプログラムを作成しました。

【Python】Python 3.6 ＆ Selenium WebDriver ＆ PhantomJS でスクレイピング（URLを引数で受け取る）【Part.5】

AWSインフラ研究所

【Python】Python 3.6 ＆ Selenium WebDriver ＆ PhantomJS でスクレイピング（URL...

https://go-journey.club/archives/6706

【Webスクレイピングをしてテキストファイル（text.txt）に出力するプログラム】

(pyenv) [test@SAKURA_VPS scraping]$ vi sele_test.py
#coding:utf-8
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
import time
# argv を取得するために sys をインポートします。
import sys

# コマンドライン引数を取り込み args に格納します。
args = sys.argv
print(args)

# リストの数を調べます。
#print(len(args))
arg_count = len(args)

# リストの数をチェックします。
if arg_count != 2:
    print(‘\n’)
    print(‘使用方法：python [プログラム.py] [URL]’)
    print(‘引数にURL（https://yahoo.co.jpなど）が必要です。’)
    print(‘\n’)
    # プログラムを終了します。
    quit()

# コマンドライン引数の2番目を取得して page_url 変数に格納します。
page_url = args[1]

dcap = dict(DesiredCapabilities.PHANTOMJS)

# ユーザーエージェント
# Android Chrome
dcap[“phantomjs.page.settings.userAgent”] = (“Mozilla/5.0 (Linux; Android 4.2.2; WX10K Build/103.0.2f30) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.109 Mobile Safari/537.36”)

driver = webdriver.PhantomJS(desired_capabilities=dcap)
driver.get(page_url)

time.sleep(10)
#print(driver.page_source)

# 結果をファイルに出力する
f = open(‘text.txt’,’w’)
f.write(driver.page_source)
f.close()

# webdriverを閉じます。
driver.close()

ここで出力したソースコードは先ほどのプログラムでリスト形式で出力されます。

ここから目的の文章だけ抽出します。

■欲しい情報