웹크롤링(web crawling) 입문,기본
WEB 2021. 5. 3. 09:35파이썬을 이용해 크롤링을 하는 이유?
: 코드작성이 쉬워서(읽고 사용하기 편리함)
: 비동기식 코딩방식(=인터프리터언어) >> 작성한 코드를 한줄한줄 실행시키는 것.
- 빅데이터 : 5V >> Volumn, Velocity, Variety, Veracity(정확성), Value
: 디지털 환경에서 생성되는 수치, 문자, 이미지, 영상을 모두 포함하는 데이터.
- 데이터의 형태
>> 정형: 데이터베이스, 엑셀, CSV, 연산이 가능한 데이터
>> 반정형: HTML 문서와 같은, 어떤 패턴이나 규칙은 존재하지만 연산이 불가능함
>> 비정형: SNS, 음악, 이미지같은 파일의 특정 형식이 없는 데이터
- 웹 기초지식
request와 response가 존재함.
<Requests 라이브러리>
접근할 웹 페이지의 데이터를 요청, 응답받기 위해 사용하는 함수
url 요청, html 다운로드 // requests.get(주소) 형식으로 사용
- 사용법:
**보안으로 막혀있는 경우
- 개발자도구에서 network란 클릭 >> 새로고침 >>여러개의 데이터가 뜸 >> 맨위의 www.melon.com 이라는 document 타입의 데이터 확인 >> headers부분 클릭
>> user-agent 부분 전체를 드래그해서 복사한다 >> 복사한값을 변수에 딕셔너리형태로 저장해서 request함수와 함께 사용한다.
<BeautifulSoup 라이브러리 사용> : 가져온 데이터에서 내가 원하는 내용만 추출
- BeautifulSoup(뭘, 어떻게) 가공할 것인지
<find_all> : 특정클래스(아이디)를 가지는 특정 소스코드에 관한 데이터를 전부 리스트형태로 찾아옴.
**텍스트만 찾아오고 싶은 경우 >> 변수.text를 입력하면 변수에담긴 데이터중 텍스트값 가져옴.
- 가져오고자하는(알고자하는)부분에서 우클릭을 하고 검사 기능을 선택하면 그부분의 소스코드가 어딧는지 찾을 수 있음.
'WEB' 카테고리의 다른 글
웹크롤링(web crawling)_20210506기준 네이버영화 랭킹페이지 (0) | 2021.05.03 |
---|---|
웹크롤링(web crawling)_ request, beautifulSoup, 예제 (0) | 2021.05.03 |
css 기본_2 (stylesheet 명시도, 공간분할 기타 등..) (0) | 2021.05.03 |
css 기본_1 (기본css, 선택자) (0) | 2021.05.03 |
html 기본 태그(tag)_2 (0) | 2021.05.01 |