네이버 카페 게시글 일괄 스크래핑 하기

네이버 카페 게시글 일괄 스크래핑 하기

수 천개의 네이버 카페 게시글을 한 번에 스크래핑하는 자동화 시스템을 구축할 수 있어요.

이런 분들께 추천합니다.

  • 챗봇(LLM) 데이터 확보를 위해 스크래핑이 필요한 기업.
  • 지역/분야 트렌드 파악을 필요로 하는 마케터

준비물 📋

  • 접근하고자 하는 네이버 카페 게시판에 접근할 수 있는 계정 (등업 등)
  • 결과 데이터를 저장할 구글 시트

📖 방법

1️⃣ 자동화 플로우 생성

  • 스니핏 서비스로 접속해주세요. 주소: https://snipit.im
  • 계정이 없는 경우, 회원가입이 필요해요.
  • 로그인 후, 플로우 추가를 클릭해주세요.

2️⃣ 시작 조건 설정

  • 데이터를 한 번에 일괄적으로 가져오기 위한 것이기 때문에, 직접 시스템을 실행하는 '직접 실행' 을 선택해주세요.

3️⃣ 단순 반복 설정

  • 단순 반복은 1부터 반복 횟수까지 1씩 증가하며 연결된 플로우를 실행되는 노드입니다. (고급 도구 - 단순 반복)
  • 최대로 가져올 페이지 수를 반복 횟수로 설정해주세요.

4️⃣ 게시글 목록 가져오기

  • 네이버 카페 게시글 목록을 가져오기 위해, 카페 ID와 게시판 ID가 필요합니다. 데이터를 가져올 카페 게시판에 들어가셔서 주소를 확인해주세요.
    아래의 경우, 3048xxxx 가 카페 ID, 15가 게시판 ID 입니다.
  • 서비스 연결 - HTTP - HTTP 요청을 생성해주세요.
  • 다음의 내용을 입력해주세요.
    • URL:
      • https://apis.naver.com/cafe-web/cafe-boardlist-api/v1/cafes/카페ID/menus/게시판ID/articles?page=1&pageSize=15&sortBy=TIME&viewType=L
      • 카페 ID와 게시판 ID는 위에서 확인한 값으로 변경해주세요.
      • page=1 대신, 단순 반복 노드의 'index'정보를 활용해주세요.
    • 메서드
      • GET
    • JSON 형식 결과
      • 켜기
    • 작성 예시

5️⃣ 게시글 하나씩 나누기

  • 고급 도구 - 데이터 반복을 생성해주세요.
  • 데이터 반복 - 배열에 이전 HTTP 요청 노드의 content.result.articleList를 연결해주세요.

6️⃣ 게시글 본문 정보 가져오기

  • 본문 정보를 가져오기 위해서는, 네이버 로그인 시 생성되는 정보(쿠키 정보)가 필요합니다.
    • 네이버 로그인 후, 스크래핑할 카페로 접속해주세요.
    • F12(관리자도구) - 네트워크를 선택해주세요.
    • 'NNB'를 검색해, 검색 결과를 클릭해주세요.
    • 아래 사진과 같이 Cookie 전체를 복사해주세요.
  • 서비스 연결 - HTTP - HTTP 요청을 생성해주세요.
  • 위에서 가져온 쿠키를 활용해 아래와 같이 작성해주세요.
    • URL:
      • https://apis.naver.com/cafe-web/cafe-articleapi/v3/cafes/{{카페ID}}/articles/{{게시글ID}}?query=&menuId={{게시판ID}}&boardType=L&useCafeId=true&requestFrom=A
      • {{카페 ID}}, {{게시글ID}}, {{게시판 ID}}는 데이터반복에서 해당하는 값을 찾아서 연결해주세요.
        • {{카페ID}}: item.cafeId
        • {{게시글ID}}: item.articleId
        • {{게시판ID}}: item.menuId
    • 메서드
      • GET:
    • 헤더: 추가 버튼을 클릭한 후 다음과 같이 입력해주세요.
      • 필드1
        • 키: cookie
        • 값: 위에서 가져온 쿠키 정보
    • JSON 형식 결과
      • 켜기
    • 작성 예시

7️⃣ 게시글 본문 정보 추출하기

  • 서비스 연결 - HTTP - HTML 파싱을 생성해주세요.
  • 다음과 같이 설정해주세요.
    • HTML 콘텐츠
      • 이전 HTPT요청 노드의 content.result.article.contentHtml 연결.
    • CSS 선택자
      • .se-viewer

8️⃣ 데이터 저장하기

  • 데이터를 저장할 구글 시트를 다음과 같이 생성해주세요. (아래는 예시입니다.)
  • 서비스 연결 - 구글 시트 - 행 삽입을 생성해주세요.
  • 다음과 같이 설정해주세요.
    • 구글 시트 계정 연결
      • 구글 시트를 생성한 구글 계정
    • 스프레드 시트 선택
      • 데이터를 저장할 구글 시트
    • 시트 이름
      • 데이터를 저장할 시트
    • 입력 데이터 (필요한 데이터를 저장해보세요. 아래는 예시입니다.)
      • 1열 (작성 시간)
        • 게시글 불러오기 HTTP 요청의 content.result.article.writeData 연결
      • 2열 (제목)
        • 데이터 반복하기의 item.subject 연결
      • 3열 (본문 내용)
        • HTML 파싱의 text 연결
      • 4열 (닉네임)
        • 게시글 불러오기 HTTP 요청의 content.result.article.writer.nick 연

9️⃣ 실행

  • 왼쪽 아래의 실행 버튼을 클릭하면 네이버 카페 게시글이 구글 시트로 저장 됩니다.