웹크롤링(web crawling) 입문,기본::::크게되고 싶은 개발자의 공부노트

웹크롤링(web crawling) 입문,기본

WEB 2021. 5. 3. 09:35

파이썬을 이용해 크롤링을 하는 이유?

: 코드작성이 쉬워서(읽고 사용하기 편리함)

: 비동기식 코딩방식(=인터프리터언어) >> 작성한 코드를 한줄한줄 실행시키는 것.

빅데이터 : 5V >> Volumn, Velocity, Variety, Veracity(정확성), Value
: 디지털 환경에서 생성되는 수치, 문자, 이미지, 영상을 모두 포함하는 데이터.
데이터의 형태
>> 정형: 데이터베이스, 엑셀, CSV, 연산이 가능한 데이터
>> 반정형: HTML 문서와 같은, 어떤 패턴이나 규칙은 존재하지만 연산이 불가능함
>> 비정형: SNS, 음악, 이미지같은 파일의 특정 형식이 없는 데이터
웹 기초지식
request와 response가 존재함.

접근할 웹 페이지의 데이터를 요청, 응답받기 위해 사용하는 함수
url 요청, html 다운로드 // requests.get(주소) 형식으로 사용

**보안으로 막혀있는 경우

개발자도구에서 network란 클릭 >> 새로고침 >>여러개의 데이터가 뜸 >> 맨위의 www.melon.com 이라는 document 타입의 데이터 확인 >> headers부분 클릭

>> user-agent 부분 전체를 드래그해서 복사한다 >> 복사한값을 변수에 딕셔너리형태로 저장해서 request함수와 함께 사용한다.

<BeautifulSoup 라이브러리 사용> : 가져온 데이터에서 내가 원하는 내용만 추출

<find_all> : 특정클래스(아이디)를 가지는 특정 소스코드에 관한 데이터를 전부 리스트형태로 찾아옴.

**텍스트만 찾아오고 싶은 경우 >> 변수.text를 입력하면 변수에담긴 데이터중 텍스트값 가져옴.

웹크롤링(web crawling)_20210506기준 네이버영화 랭킹페이지 (0)	2021.05.03
웹크롤링(web crawling)_ request, beautifulSoup, 예제 (0)	2021.05.03
css 기본_2 (stylesheet 명시도, 공간분할 기타 등..) (0)	2021.05.03
css 기본_1 (기본css, 선택자) (0)	2021.05.03
html 기본 태그(tag)_2 (0)	2021.05.01