탐색
가이드
@gowl0707
전체 보기
프로젝트
포스트
팔로잉
스크랩
전체 보기
프로젝트
포스트
팔로잉
스크랩
프로젝트 히스토리
프로젝트 상세 페이지
타임라인
리스트
2022.02.25
@gowl0707님이 포스트를 업데이트했습니다.
포스트
파이썬 크롤링 (15일차)
2022.02.25
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 (15일차)
지난번 네이버 영화 검색, 정보 출력에 이어서 평점을 출력해보았습니다.
2022.02.24
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 (14일차)
저는 1, 2일차에서 한 사이트를 그대로 가져와 보았습니다. 네이버 영화: 네이버 영화 (naver.com) 찾고 싶은 영화명을 입력하면 장르, 개봉일, 감독, 출연 등의 세부 정보부터, 줄거리까지 알려주는 '영화 찾기'를 구현했습니다. 검색 방법을 다양하게 사용해보고 싶었지만, 아직 이해도가 떨어지는 관계로 XPATH, CSS_SELECTOR만 시도해보았습니다. 순서는 다음과 같습니다. [웹 접속 -> 검색창에 입력 -> 버튼 클릭 -> 영화 클릭 -> 데이터 받기]
2022.02.23
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 (13일차)
'한글 <-> 영어' 버튼의 태그+선택자: button.btn_switch__x4Tcl.disable__1r5H- 클릭하여 '영어<->한글'에서 '한글<->영어'로 바꿔주어야 하므로 click()를 사용합니다. 2. my_papago.csv 파일을 읽기 모드로 열어, 번역 결과(한국어)를 가져와야 합니다. 번역 결과(한국어)를 담을 공간, list를 만듭니다. for문을 이용해 한 줄 한 줄 돌면서 번역 결과(한국어)를 찾아 넣어줍니다. 3. list의 요소를 하나씩 번역합니다. for문을 이용해 list의 요소를 하나씩 번역합니다. send_keys() 를 이용해, 입력 창에 list 요소를 전송합니다. click() 을 이용해, '번역하기' 버튼을 누릅니다. 결과 창의 번역 결과(영어)를 .text로 받아옵니다. 다음 반복이 진행되기 전, clear() 을 이용해 입력 창을 초기화해줍니다.
2022.02.22
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 (12일차)
첫번째 행 ['번호', '뉴스기사날짜', '뉴스기사제목']은 필요없으므로 next(rdr)을 사용하였습니다. 기사의 제목을 출력해야 하므로 C열이 필요한 상황입니다. 이는 가로로 index 2, row[2]에 해당합니다. for문의 row을 이용해 csv 파일을 한 줄씩 파악합니다. 만약 row[2]에서 '[속보]'가 있다면 row[2]를 출력하고 count를 하나 올립니다.
2022.02.21
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 (11일차)
웹 사이트 불러오는 과정은 익숙할 듯 싶어 생략했습니다. 우선, 영단어와 번역된 단어가 저장된 모습이 {'apple' : '사과', 'computer' : '컴퓨터를 하다'} 같이 딕셔너리 형식을 취하고 있어서 dict = {} 을 만들었습니다. 2. 0이 입력될까지 무한 반복 과정을 보이고 있어, while문을 사용했습니다. 3. if 문에 driver.close()을 넣었는데, 마지막 dict를 출력해주기 직전에 바꿔주면 더 깔끔할 것 같다는 생각이 들었습니다. 4. 번역을 시도하면, 영단어가 사라지지 않고 그대로 남은 채 다음 영단어를 받아오는 문제가 생겨, 새로 입력 받기 전에, 입력 부분에 clear()을 취하였습니다. + 드라이브를 받아오는 과정에서 usb 사용과 관련해 오류가 발생했습니다. 이에 기존의 코드, chrome_driver = ChromeDriverManager().install() service = Service(chrome_driver) driver = webdriver.Chrome(service = service) 이것 대신, options = webdriver.ChromeOptions() options.add_experimental_option('excludeSwitches', ['enable-logging']) driver = webdriver.Chrome(options=options) 이것을 사용하니, 오류가 해결되었습니다.
2022.02.18
@gowl0707님이 포스트를 업데이트했습니다.
포스트
파이썬 크롤링 (10일차)
2022.02.18
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 (10일차)
네이버 NAVER 에 접속해보았습니다. 코드는 다음과 같습니다. Chromedriver를 설치하는 과정에서 드라이버를 찾을 수 없다는 문제가 있었지만 재설치를 통해 무사히 넘어갔습니다!
2022.02.17
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 (9일차)
힌트 '이차원 리스트'가 많은 도움이 되었습니다! 첫번째 유형 리스트로 [정렬방식, URL일부] 로 묶어 type1~6까지 만들었습니다. 타입은 문자열입니다. 정렬방식은 단순 출력 용도이기에 문자열로, URL일부는 변수 URL = "http..." + keyword + "&s=" + 뒤에 붙이기 위해 동일하게 문자열로 만들었습니다. 2 . 두번째 유형 리스트에는 첫번째 유형 리스트를 묶었습니다. list = [type1... type6] 은 = [["<랭킹 순>", "7"], ["<판매인기 순>", "8"], ... ["<신규상품 순>", "3"]] 형태로 되어 있습니다. 이것을 for문으로 돌려 (21번째 줄) type = list[0]일 때, list[1]일 때, ... list[5]일 때 URL = "http..." + ... + type[1] 즉, "http..." + ... + "7" "http..." + ... + "8" "http..." + ... + "1" "http..." + ... + "2" "http..." + ... + "13" "http..." + ... + "3" 이 되도롭 합니다. 동시에 type[0]을 출력하여 해당 type[1]의 URL에서의 정렬방식를 나타냅니다.
2022.02.16
@gowl0707님이 포스트를 업데이트했습니다.
포스트
파이썬 크롤링 (8일차)
2022.02.16
@gowl0707님이 포스트를 업데이트했습니다.
포스트
파이썬 크롤링 (8일차)
2022.02.16
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 (8일차)
1. 기본: https://browse.gmarket.co.kr/search?keyword=%EB%A7%88%EC%8A%A4%ED%81%AC G마켓 랭크 순: https://browse.gmarket.co.kr/search?keyword=%eb%a7%88%ec%8a%a4%ed%81%ac&s=7 의 7 판매 인기 순: https://browse.gmarket.co.kr/search?keyword=%eb%a7%88%ec%8a%a4%ed%81%ac&s=8 의 8 낮은 가격 순: https://browse.gmarket.co.kr/search?keyword=%eb%a7%88%ec%8a%a4%ed%81%ac&s=1 의 1 높은 가격 순: https://browse.gmarket.co.kr/search?keyword=%eb%a7%88%ec%8a%a4%ed%81%ac&s=2 의 2 상품평 많은 순: https://browse.gmarket.co.kr/search?keyword=%eb%a7%88%ec%8a%a4%ed%81%ac&s=13 의 13 신규 상품 순: https://browse.gmarket.co.kr/search?keyword=%eb%a7%88%ec%8a%a4%ed%81%ac&s=3 의 3 각 뒷자리의 숫자가 바뀐다는 것을 알 수 있습니다. 2. 태그: span 선택자: class = image__awards-points
2022.02.15
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 (7일차)
네이버 영화의 [영화 인기검색어] 부분을 출력해보았습니다. 랭킹 : 네이버 영화 (naver.com) 윗 사진의 노란색 네모칸에서 순위와 영화명만 해보았요! HTML 코드 일부를 가져왔습니다. 빨간색 부분을 보면, 태그 a 안에 <a 어쩌고> <span class="blind">1위</span> "나일 강의 죽음" </a> 이렇게 되어 있습니다. 그래서 순위를 제외한 영화명만 출력하고 싶었는데 부분만 출력하는 방법을 몰라 내용 전체를 출력하게 되었습니다! 선택자 div 중에서 'class=box_type_1 mb_8' 와 관련된 데이터를 grade에 넣고 이를 다시 선택자 a인 정보만 빼와 movie에 저장하였습니다. 처음에는 movie.text로 출력하고자 하였으나, movie가 리스트화 되어 있다는 오류 코드에 movie[i].text로 인덱스를 사용하여 출력하였습니다.
2022.02.14
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 (6일차)
원래 네이버 영화 메인(네이버 영화 (naver.com))을 했는데 데이터를 따오기 어려울 것 같아 네이버 영화 랭킹(랭킹 : 네이버 영화 (naver.com))으로 변경하였습니다!
2022.02.11
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 (5일차)
1. 코뮤: div.ellipsis.gm-tcol-c div.ellipsis 또는 div#cafe-info-action div.ellipsis.gm-tcol-c div.ellipsis (id 선택자 추가) 2. Since 2020.03.03: div.thm a.gm-tcol-c 3. 카페소개: a.u.gm-tcol-c 또는 div.info-view a.u.gm-tcol-c 또는 div#cafe-info-data div.info-view a.u.gm-tcol-c (id 선택자 추가) 답을 여러가지로 들어봤는데, 가장 보기 좋은 것은 id선택자+class선택자 인 것 같습니다. 물론 class+class도 가능하지만, 되도록이면 id+class로 하면 좋을 것 같다는 생각이 드네요. 1. 코뮤 2. Since 2020.03.03 3. 카페소개
2022.02.10
@dnfxmfk70님이
파이썬 크롤링 (4일차)
포스트에 댓글을 남겼습니다.
2022.02.10
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 (4일차)
모든 게시글: div 게시글 1개: div 닉네임: strong 글 내용: p 1. 모든 게시글 2. 게시글 1개 3. 닉네임 4. 글 내용
2022.02.08
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 (3일차)
크롤링하고 싶은 사이트: 네이버 영화 네이버 영화 (naver.com) 영화 인기 순위와 특정 영화의 별점 상/하위 n개 리뷰를 가지고 오고 싶습니다. <크롤링 유형> 영화 예매율은 사이트에 바로 나타나서 정적 크롤링이 필요할 것 같습니다. 영화 인기 순위와 리뷰는 추가 조작이 있어야 하므로 동적 크롤링이 필요할 것 같습니다.
2022.02.07
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 (2일차)
✔ 최근 로또 당첨 번호(번호 7개) 크롤링 https://dhlottery.co.kr/gameResult.do?method=byWin 정적 크롤링 : 웹 사이트를 접속하면 곧바로 페이지에 당첨번호, 회차 등이 나온다. 이는 별다른 조작없이 한 페이지에서 원하는 데이터를 얻을 수 있으므로 정적 크롤링에 해당한다. ✔ 번역기에서 언어 번역 결과 크롤링 https://papago.naver.com/ 동적 크롤링 : 번역을 하기 위해서는 번역기에 원하는 문구를 입력한 뒤, [번역하기] 버튼을 눌러야 한다. 이때 버튼을 누르는 추가 작업을 거치기 때문에 동적 크롤링에 해당한다.
2022.02.05
@Hyunseon님이
파이썬 크롤링 1일차
포스트에 댓글을 남겼습니다.
2022.02.05
@Hyunseon님이
파이썬 크롤링 1일차
포스트를 좋아합니다.
2022.02.04
@gowl0707님이 새 포스트를 작성했습니다.
파이썬 크롤링 1일차
안녕하세요, 아직 크롤링이 무엇인지 정확하게 이해되지 않아 걱정입니다ㅠㅠ 그렇지만 제가 크롤링 해보고 싶은 웹사이트는 [네이버 영화] 입니다! 사지처럼 사이트에 들어가기만 해도 영화 평점이 나오지만! 크롤러를 통해서 찾아보고 싶습니다! 또 평점 뿐만 아니라, 가능하다면 장르(개요)를 이용해 특정 장르만 출력해보고 싶습니다.