웹크롤링(web crawling) 입문,기본

WEB 2021. 5. 3. 09:35

파이썬을 이용해 크롤링을 하는 이유?

: 코드작성이 쉬워서(읽고 사용하기 편리함)

: 비동기식 코딩방식(=인터프리터언어) >> 작성한 코드를 한줄한줄 실행시키는 .

 

  • 빅데이터 : 5V >> Volumn, Velocity, Variety, Veracity(정확성), Value
    :
    디지털 환경에서 생성되는 수치, 문자, 이미지, 영상을 모두 포함하는 데이터.
     
  • 데이터의 형태
    >> 정형: 데이터베이스, 엑셀, CSV, 연산이 가능한 데이터
    >> 반정형: HTML 문서와 같은, 어떤 패턴이나 규칙은 존재하지만 연산이 불가능함
    >>
    비정형: SNS, 음악, 이미지같은 파일의 특정 형식이 없는 데이터
     
  • 기초지식
    request response 존재함.

<Requests 라이브러리>

접근할 페이지의 데이터를 요청, 응답받기 위해 사용하는 함수
url
요청, html 다운로드 // requests.get(주소) 형식으로 사용

 

  • 사용법:

 

 

**보안으로 막혀있는 경우

  • 개발자도구에서 network 클릭 >> 새로고침 >>여러개의 데이터가 >> 맨위의 www.melon.com 이라는 document 타입의 데이터 확인 >> headers부분 클릭

>> user-agent 부분 전체를 드래그해서 복사한다 >> 복사한값을 변수에 딕셔너리형태 저장해서 request함수와 함께 사용한다.

 

<BeautifulSoup 라이브러리 사용> : 가져온 데이터에서 내가 원하는 내용만 추출

  • BeautifulSoup(, 어떻게) 가공할 것인지

 

<find_all> : 특정클래스(아이디) 가지는 특정 소스코드에 관한 데이터를 전부 리스트형태로 찾아옴.

**텍스트만 찾아오고 싶은 경우 >> 변수.text 입력하면 변수에담긴 데이터중 텍스트값 가져옴.

  • 가져오고자하는(알고자하는)부분에서 우클릭을 하고 검사 기능을 선택하면 그부분의 소스코드가 어딧는지 찾을 있음.
admin