Linux Ubuntu 우분투 활용 및 운용: scrapy 설정 및 설치, Spider Tutorial

Scrpay는 웹 스크롤링 제품으로 폭넓게 활용되고 있음

이에 대한 설치방법을 정리함
1. 준비작업
$sudo mkdir /usr/local/scrapy
$cd /usr/local
$sudo chown -R 사용자:사용자 scrapy
$cd scrapy

2. 파이썬 관련 의존성 페키지 설치
$sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
##우분투의 경우 sudo apt-get install python-scrapy 식으로는 설치하지 말것
패키지가 너무 오래됨
$sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev$sudo apt-get install python3 python3-dev
$sudo pip install Scrapy
$sudo pip install virtualenv

3. spider tutorial
$scrapy startproject tutorial이렇게 하면 tutorial 폴더 밑에 많은 파일들이 아래와 같이 생성

4. 아래 내용을 quotes_spider.py로 저장
$nano /tutorial/spiders/quotes_spider.py

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            'http://quotes.toscrape.com/page/1/',
            'http://quotes.toscrape.com/page/2/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'quotes-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s' % filename)

5. crawl 실행
$scrapy crawl quotes
실행하고 나면 해당폴더에 quotes-1.html and quotes-2.html 파일이 생성됨
$scrapy crawl quotes -o quotes.json이렇게 하면 quotes.json 파일이 생김

Linux Ubuntu 우분투 활용 및 운용

2017년 9월 6일 수요일

scrapy 설정 및 설치, Spider Tutorial

Scrpay는 웹 스크롤링 제품으로 폭넓게 활용되고 있음

댓글 없음:

댓글 쓰기