Scrpay는
웹 스크롤링 제품으로 폭넓게 활용되고 있음
이에
대한 설치방법을 정리함
1.
준비작업
$sudo
mkdir /usr/local/scrapy
$cd
/usr/local
$sudo
chown -R 사용자:사용자
scrapy
$cd
scrapy
2.
파이썬
관련 의존성 페키지 설치
$sudo
apt-get install python-dev python-pip libxml2-dev libxslt1-dev
zlib1g-dev libffi-dev libssl-dev
##우분투의
경우 sudo
apt-get install python-scrapy 식으로는
설치하지 말것
패키지가
너무 오래됨
$sudo
apt-get install python-dev python-pip libxml2-dev libxslt1-dev
zlib1g-dev libffi-dev libssl-dev$sudo apt-get install python3
python3-dev
$sudo
pip install Scrapy
$sudo
pip install virtualenv
3.
spider tutorial
$scrapy
startproject tutorial이렇게
하면 tutorial
폴더
밑에 많은 파일들이 아래와 같이 생성
4.
아래
내용을 quotes_spider.py로
저장
$nano
/tutorial/spiders/quotes_spider.py
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
def start_requests(self):
urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
page = response.url.split("/")[-2]
filename = 'quotes-%s.html' % page
with open(filename, 'wb') as f:
f.write(response.body)
self.log('Saved file %s' % filename)
5.
crawl 실행
$scrapy
crawl quotes
실행하고
나면 해당폴더에 quotes-1.html
and quotes-2.html 파일이
생성됨
$scrapy
crawl quotes -o quotes.json이렇게
하면 quotes.json
파일이
생김
댓글 없음:
댓글 쓰기