네이버 카페 게시글 일괄 스크래핑 하기

수 천개의 네이버 카페 게시글을 한 번에 스크래핑하는 자동화 시스템을 구축할 수 있어요.

이런 분들께 추천합니다.

챗봇(LLM) 데이터 확보를 위해 스크래핑이 필요한 기업.
지역/분야 트렌드 파악을 필요로 하는 마케터

준비물 📋

접근하고자 하는 네이버 카페 게시판에 접근할 수 있는 계정 (등업 등)
결과 데이터를 저장할 구글 시트

📖 방법

1️⃣ 자동화 플로우 생성

스니핏 서비스로 접속해주세요. 주소: https://snipit.im
계정이 없는 경우, 회원가입이 필요해요.
로그인 후, 플로우 추가를 클릭해주세요.

2️⃣ 시작 조건 설정

데이터를 한 번에 일괄적으로 가져오기 위한 것이기 때문에, 직접 시스템을 실행하는 '직접 실행' 을 선택해주세요.

3️⃣ 단순 반복 설정

단순 반복은 1부터 반복 횟수까지 1씩 증가하며 연결된 플로우를 실행되는 노드입니다. (고급 도구 - 단순 반복)

최대로 가져올 페이지 수를 반복 횟수로 설정해주세요.

4️⃣ 게시글 목록 가져오기

네이버 카페 게시글 목록을 가져오기 위해, 카페 ID와 게시판 ID가 필요합니다. 데이터를 가져올 카페 게시판에 들어가셔서 주소를 확인해주세요.
아래의 경우, 3048xxxx 가 카페 ID, 15가 게시판 ID 입니다.

서비스 연결 - HTTP - HTTP 요청을 생성해주세요.

다음의 내용을 입력해주세요.
- URL:

https://apis.naver.com/cafe-web/cafe-boardlist-api/v1/cafes/카페ID/menus/게시판ID/articles?page=1&pageSize=15&sortBy=TIME&viewType=L
카페 ID와 게시판 ID는 위에서 확인한 값으로 변경해주세요.
page=1 대신, 단순 반복 노드의 'index'정보를 활용해주세요.

메서드
- GET
JSON 형식 결과
- 켜기
작성 예시

5️⃣ 게시글 하나씩 나누기

고급 도구 - 데이터 반복을 생성해주세요.

데이터 반복 - 배열에 이전 HTTP 요청 노드의 content.result.articleList를 연결해주세요.

6️⃣ 게시글 본문 정보 가져오기

본문 정보를 가져오기 위해서는, 네이버 로그인 시 생성되는 정보(쿠키 정보)가 필요합니다.
- 네이버 로그인 후, 스크래핑할 카페로 접속해주세요.
- F12(관리자도구) - 네트워크를 선택해주세요.
- 'NNB'를 검색해, 검색 결과를 클릭해주세요.
- 아래 사진과 같이 Cookie 전체를 복사해주세요.

서비스 연결 - HTTP - HTTP 요청을 생성해주세요.

위에서 가져온 쿠키를 활용해 아래와 같이 작성해주세요.
- URL:
  - https://apis.naver.com/cafe-web/cafe-articleapi/v3/cafes/{{카페ID}}/articles/{{게시글ID}}?query=&menuId={{게시판ID}}&boardType=L&useCafeId=true&requestFrom=A
  - {{카페 ID}}, {{게시글ID}}, {{게시판 ID}}는 데이터반복에서 해당하는 값을 찾아서 연결해주세요.
    - {{카페ID}}: item.cafeId
    - {{게시글ID}}: item.articleId
    - {{게시판ID}}: item.menuId
- 메서드
  - GET:
- 헤더: 추가 버튼을 클릭한 후 다음과 같이 입력해주세요.
  - 필드1
    - 키: cookie
    - 값: 위에서 가져온 쿠키 정보

JSON 형식 결과
- 켜기
작성 예시

7️⃣ 게시글 본문 정보 추출하기

서비스 연결 - HTTP - HTML 파싱을 생성해주세요.

다음과 같이 설정해주세요.
- HTML 콘텐츠
  - 이전 HTPT요청 노드의 content.result.article.contentHtml 연결.
- CSS 선택자
  - .se-viewer

8️⃣ 데이터 저장하기

데이터를 저장할 구글 시트를 다음과 같이 생성해주세요. (아래는 예시입니다.)

서비스 연결 - 구글 시트 - 행 삽입을 생성해주세요.

다음과 같이 설정해주세요.
- 구글 시트 계정 연결
  - 구글 시트를 생성한 구글 계정
- 스프레드 시트 선택
  - 데이터를 저장할 구글 시트
- 시트 이름
  - 데이터를 저장할 시트
- 입력 데이터 (필요한 데이터를 저장해보세요. 아래는 예시입니다.)
  - 1열 (작성 시간)
    - 게시글 불러오기 HTTP 요청의 content.result.article.writeData 연결
  - 2열 (제목)
    - 데이터 반복하기의 item.subject 연결
  - 3열 (본문 내용)
    - HTML 파싱의 text 연결
  - 4열 (닉네임)
    - 게시글 불러오기 HTTP 요청의 content.result.article.writer.nick 연

9️⃣ 실행

왼쪽 아래의 실행 버튼을 클릭하면 네이버 카페 게시글이 구글 시트로 저장 됩니다.