SlideShare une entreprise Scribd logo
1  sur  26
Télécharger pour lire hors ligne
NHN
 NEXT
 보안스터디
 /
 정윤성
Security From Internet Crawling Robot
이미지출처 : http://www.dailygalaxy.com/my_weblog/internet/
그전에..
검색
 web
 Crawler의
 동작원리
Web Crawler가 주기적으로 수집하는 결과를 (내용, xml, html 등)
내부적으로 저장, 사용자에게 빠르게 제공
@Chache
검색
 Web
 Crawler의
 동작원리
Robot.txt
 파일을
 참조
접근권한, 접근가능한 경로 등을 분석해서 수집해도 되는 컨텐트만을 수집
http://www.HomePage.com/robot.txt.
검색
 Web
 Crawler의
 동작원리
robots.txt
this is called The
 
Robots
 Exclusion
 Protocol
Web site owners use the /robots.txt file
to give instructions about their site to web robots;
로봇
 배제
 표준
의미
출처 : http://ko.wikipedia.org/wiki/로봇_배제_표준
로봇 배제 표준은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약
이 규약은 1994년 6월에 처음 만들어졌고, 아직 이 규약에 대한 RFC는 없다.
이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다.
따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다.
robots.txt
서술방법
http://www.robotstxt.org/ 을 통해 자세한 내용을 확인해할 수 있다
1. 웹사이트의 최상위 Root에 robot.txt 파일이 존재해야 한다.
2. 파일이름은 공백이 없는 소문자로 작성해야 한다.
3. User-agent는 bot을 명시한다.
.
.
.

Contenu connexe

Tendances

파알못의 파이썬 크롤러 이해하기
파알못의 파이썬 크롤러 이해하기파알못의 파이썬 크롤러 이해하기
파알못의 파이썬 크롤러 이해하기Hyeyeon Yang
 
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)Osori Hanyang
 
파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링HWANGTAEYONG
 
[NEXT] Flask 로 Restful API 서버 만들기
[NEXT] Flask 로 Restful API 서버 만들기 [NEXT] Flask 로 Restful API 서버 만들기
[NEXT] Flask 로 Restful API 서버 만들기 YoungSu Son
 
Node.js를 활용한 웹 크롤링(Crawling)
Node.js를 활용한 웹 크롤링(Crawling)Node.js를 활용한 웹 크롤링(Crawling)
Node.js를 활용한 웹 크롤링(Crawling)Jeong-gyu Kim
 
스프링 데이터 레디스 엘라스틱 발표자료
스프링 데이터 레디스 엘라스틱 발표자료스프링 데이터 레디스 엘라스틱 발표자료
스프링 데이터 레디스 엘라스틱 발표자료라한사 아
 
검색엔진이 데이터를 다루는 법 김종민
검색엔진이 데이터를 다루는 법 김종민검색엔진이 데이터를 다루는 법 김종민
검색엔진이 데이터를 다루는 법 김종민종민 김
 
안드로이드 DB, 서버 연동하기
안드로이드 DB, 서버 연동하기안드로이드 DB, 서버 연동하기
안드로이드 DB, 서버 연동하기은아 정
 
Google Hacking
Google HackingGoogle Hacking
Google HackingIlsun Choi
 
Parse.com 맛보기
Parse.com 맛보기Parse.com 맛보기
Parse.com 맛보기flashscope
 
장고로 웹서비스 만들기 기초
장고로 웹서비스 만들기   기초장고로 웹서비스 만들기   기초
장고로 웹서비스 만들기 기초Kwangyoun Jung
 
휴봇-슬랙 OSX 설치
휴봇-슬랙 OSX 설치휴봇-슬랙 OSX 설치
휴봇-슬랙 OSX 설치Juneyoung Oh
 
Fiddler 피들러에 대해 알아보자
Fiddler 피들러에 대해 알아보자Fiddler 피들러에 대해 알아보자
Fiddler 피들러에 대해 알아보자용진 조
 
HTTP 완벽 가이드 9~10장
HTTP 완벽 가이드 9~10장HTTP 완벽 가이드 9~10장
HTTP 완벽 가이드 9~10장Hyejin Oh
 
아라한사의 스프링 시큐리티 정리
아라한사의 스프링 시큐리티 정리아라한사의 스프링 시큐리티 정리
아라한사의 스프링 시큐리티 정리라한사 아
 
Django in Production
Django in ProductionDjango in Production
Django in ProductionHyun-woo Park
 
PHP로 Slack Bot 만들기
PHP로 Slack Bot 만들기PHP로 Slack Bot 만들기
PHP로 Slack Bot 만들기Changwan Jun
 
Go revel 컨셉_정리
Go revel 컨셉_정리Go revel 컨셉_정리
Go revel 컨셉_정리라한사 아
 
Node.js에서 공공API를 활용해서 개발하기
Node.js에서 공공API를 활용해서 개발하기Node.js에서 공공API를 활용해서 개발하기
Node.js에서 공공API를 활용해서 개발하기Inho Kwon
 

Tendances (20)

파알못의 파이썬 크롤러 이해하기
파알못의 파이썬 크롤러 이해하기파알못의 파이썬 크롤러 이해하기
파알못의 파이썬 크롤러 이해하기
 
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
 
파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링
 
[NEXT] Flask 로 Restful API 서버 만들기
[NEXT] Flask 로 Restful API 서버 만들기 [NEXT] Flask 로 Restful API 서버 만들기
[NEXT] Flask 로 Restful API 서버 만들기
 
Node.js를 활용한 웹 크롤링(Crawling)
Node.js를 활용한 웹 크롤링(Crawling)Node.js를 활용한 웹 크롤링(Crawling)
Node.js를 활용한 웹 크롤링(Crawling)
 
스프링 데이터 레디스 엘라스틱 발표자료
스프링 데이터 레디스 엘라스틱 발표자료스프링 데이터 레디스 엘라스틱 발표자료
스프링 데이터 레디스 엘라스틱 발표자료
 
검색엔진이 데이터를 다루는 법 김종민
검색엔진이 데이터를 다루는 법 김종민검색엔진이 데이터를 다루는 법 김종민
검색엔진이 데이터를 다루는 법 김종민
 
안드로이드 DB, 서버 연동하기
안드로이드 DB, 서버 연동하기안드로이드 DB, 서버 연동하기
안드로이드 DB, 서버 연동하기
 
플라스크 템플릿
플라스크 템플릿플라스크 템플릿
플라스크 템플릿
 
Google Hacking
Google HackingGoogle Hacking
Google Hacking
 
Parse.com 맛보기
Parse.com 맛보기Parse.com 맛보기
Parse.com 맛보기
 
장고로 웹서비스 만들기 기초
장고로 웹서비스 만들기   기초장고로 웹서비스 만들기   기초
장고로 웹서비스 만들기 기초
 
휴봇-슬랙 OSX 설치
휴봇-슬랙 OSX 설치휴봇-슬랙 OSX 설치
휴봇-슬랙 OSX 설치
 
Fiddler 피들러에 대해 알아보자
Fiddler 피들러에 대해 알아보자Fiddler 피들러에 대해 알아보자
Fiddler 피들러에 대해 알아보자
 
HTTP 완벽 가이드 9~10장
HTTP 완벽 가이드 9~10장HTTP 완벽 가이드 9~10장
HTTP 완벽 가이드 9~10장
 
아라한사의 스프링 시큐리티 정리
아라한사의 스프링 시큐리티 정리아라한사의 스프링 시큐리티 정리
아라한사의 스프링 시큐리티 정리
 
Django in Production
Django in ProductionDjango in Production
Django in Production
 
PHP로 Slack Bot 만들기
PHP로 Slack Bot 만들기PHP로 Slack Bot 만들기
PHP로 Slack Bot 만들기
 
Go revel 컨셉_정리
Go revel 컨셉_정리Go revel 컨셉_정리
Go revel 컨셉_정리
 
Node.js에서 공공API를 활용해서 개발하기
Node.js에서 공공API를 활용해서 개발하기Node.js에서 공공API를 활용해서 개발하기
Node.js에서 공공API를 활용해서 개발하기
 

En vedette

이슈관리 및 브랜치관리
이슈관리 및 브랜치관리이슈관리 및 브랜치관리
이슈관리 및 브랜치관리Yoonsung Jung
 
Microservice Architecture
Microservice ArchitectureMicroservice Architecture
Microservice ArchitectureYoonsung Jung
 
(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토
(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토
(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토INSIGHT FORENSIC
 
Understanding complicated complex and chaos
Understanding complicated complex and chaosUnderstanding complicated complex and chaos
Understanding complicated complex and chaosThomas Vander Wal
 
세션4.손상영
세션4.손상영세션4.손상영
세션4.손상영gojipcap
 
[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안
[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안
[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안aRchie WS. Kim
 
[TechDIY.org]The workbook of "Woops! Robot"(Korean)
[TechDIY.org]The workbook of "Woops! Robot"(Korean) [TechDIY.org]The workbook of "Woops! Robot"(Korean)
[TechDIY.org]The workbook of "Woops! Robot"(Korean) Ji Lee
 
구글
구글구글
구글zerk87
 
Updating Legacy Systems: Making the Financial Case for a Modernization Project
Updating Legacy Systems: Making the Financial Case for a Modernization Project Updating Legacy Systems: Making the Financial Case for a Modernization Project
Updating Legacy Systems: Making the Financial Case for a Modernization Project ILM Professional Services
 
머신 러닝(Machine Learning)
머신 러닝(Machine Learning)머신 러닝(Machine Learning)
머신 러닝(Machine Learning)BoYoung Lee
 
Using the KVMhypervisor in CloudStack
Using the KVMhypervisor in CloudStackUsing the KVMhypervisor in CloudStack
Using the KVMhypervisor in CloudStackShapeBlue
 
6장 지능형 웹 크롤링
6장 지능형 웹 크롤링6장 지능형 웹 크롤링
6장 지능형 웹 크롤링Chanil Kim
 
2015 SW마에스트로 100+ 컨퍼런스_오픈스택 Swift로 시작하는 오픈소스 분석 삽질기
2015 SW마에스트로 100+ 컨퍼런스_오픈스택 Swift로 시작하는 오픈소스 분석 삽질기2015 SW마에스트로 100+ 컨퍼런스_오픈스택 Swift로 시작하는 오픈소스 분석 삽질기
2015 SW마에스트로 100+ 컨퍼런스_오픈스택 Swift로 시작하는 오픈소스 분석 삽질기2015 SW마에스트로 100+ 컨퍼런스
 
Selenium for XE
Selenium for XESelenium for XE
Selenium for XE승훈 오
 
01 페이스북특강 (daum it pro bono) 140308
01 페이스북특강 (daum it pro bono) 14030801 페이스북특강 (daum it pro bono) 140308
01 페이스북특강 (daum it pro bono) 140308csr_hope
 
SW Maestro 1-1 Project Keynote PDF
SW Maestro 1-1 Project Keynote PDFSW Maestro 1-1 Project Keynote PDF
SW Maestro 1-1 Project Keynote PDF진수 한
 
Refactoring(inline class, Hide delegate, remove middle man)
Refactoring(inline class, Hide delegate, remove middle man)Refactoring(inline class, Hide delegate, remove middle man)
Refactoring(inline class, Hide delegate, remove middle man)DaeMyung Kang
 
git, git flow
git, git flowgit, git flow
git, git floweva
 

En vedette (20)

이슈관리 및 브랜치관리
이슈관리 및 브랜치관리이슈관리 및 브랜치관리
이슈관리 및 브랜치관리
 
Microservice Architecture
Microservice ArchitectureMicroservice Architecture
Microservice Architecture
 
(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토
(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토
(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토
 
Understanding complicated complex and chaos
Understanding complicated complex and chaosUnderstanding complicated complex and chaos
Understanding complicated complex and chaos
 
세션4.손상영
세션4.손상영세션4.손상영
세션4.손상영
 
[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안
[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안
[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안
 
[Week5]R_scraping
[Week5]R_scraping[Week5]R_scraping
[Week5]R_scraping
 
[TechDIY.org]The workbook of "Woops! Robot"(Korean)
[TechDIY.org]The workbook of "Woops! Robot"(Korean) [TechDIY.org]The workbook of "Woops! Robot"(Korean)
[TechDIY.org]The workbook of "Woops! Robot"(Korean)
 
구글
구글구글
구글
 
Updating Legacy Systems: Making the Financial Case for a Modernization Project
Updating Legacy Systems: Making the Financial Case for a Modernization Project Updating Legacy Systems: Making the Financial Case for a Modernization Project
Updating Legacy Systems: Making the Financial Case for a Modernization Project
 
머신 러닝(Machine Learning)
머신 러닝(Machine Learning)머신 러닝(Machine Learning)
머신 러닝(Machine Learning)
 
Using the KVMhypervisor in CloudStack
Using the KVMhypervisor in CloudStackUsing the KVMhypervisor in CloudStack
Using the KVMhypervisor in CloudStack
 
Change Requirement
Change RequirementChange Requirement
Change Requirement
 
6장 지능형 웹 크롤링
6장 지능형 웹 크롤링6장 지능형 웹 크롤링
6장 지능형 웹 크롤링
 
2015 SW마에스트로 100+ 컨퍼런스_오픈스택 Swift로 시작하는 오픈소스 분석 삽질기
2015 SW마에스트로 100+ 컨퍼런스_오픈스택 Swift로 시작하는 오픈소스 분석 삽질기2015 SW마에스트로 100+ 컨퍼런스_오픈스택 Swift로 시작하는 오픈소스 분석 삽질기
2015 SW마에스트로 100+ 컨퍼런스_오픈스택 Swift로 시작하는 오픈소스 분석 삽질기
 
Selenium for XE
Selenium for XESelenium for XE
Selenium for XE
 
01 페이스북특강 (daum it pro bono) 140308
01 페이스북특강 (daum it pro bono) 14030801 페이스북특강 (daum it pro bono) 140308
01 페이스북특강 (daum it pro bono) 140308
 
SW Maestro 1-1 Project Keynote PDF
SW Maestro 1-1 Project Keynote PDFSW Maestro 1-1 Project Keynote PDF
SW Maestro 1-1 Project Keynote PDF
 
Refactoring(inline class, Hide delegate, remove middle man)
Refactoring(inline class, Hide delegate, remove middle man)Refactoring(inline class, Hide delegate, remove middle man)
Refactoring(inline class, Hide delegate, remove middle man)
 
git, git flow
git, git flowgit, git flow
git, git flow
 

Similaire à robot.txt와 meta tag를 이용한 크롤링 설정

Html5 앱과 웹사이트를 보다 빠르게 하는 50가지
Html5 앱과 웹사이트를 보다 빠르게 하는 50가지Html5 앱과 웹사이트를 보다 빠르게 하는 50가지
Html5 앱과 웹사이트를 보다 빠르게 하는 50가지yongwoo Jeon
 
Daum5강 당신도 파워블로거가 될 수 있어요!
Daum5강 당신도 파워블로거가 될 수 있어요!Daum5강 당신도 파워블로거가 될 수 있어요!
Daum5강 당신도 파워블로거가 될 수 있어요!Sue Hyun Jung
 
SEO_GETCHA_HANJUNG
SEO_GETCHA_HANJUNGSEO_GETCHA_HANJUNG
SEO_GETCHA_HANJUNGJung Han
 
REST API 설계
REST API 설계REST API 설계
REST API 설계Terry Cho
 
Network path reference
Network path referenceNetwork path reference
Network path referenceSol Kim
 
Daejeon IT Developer Conference Struts2
Daejeon IT Developer Conference Struts2Daejeon IT Developer Conference Struts2
Daejeon IT Developer Conference Struts2plusperson
 
Polymer따라잡기
Polymer따라잡기Polymer따라잡기
Polymer따라잡기Han Jung Hyun
 
REST Ovewview
REST OvewviewREST Ovewview
REST OvewviewTerry Cho
 
HTML5 스펙 소개
HTML5 스펙 소개HTML5 스펙 소개
HTML5 스펙 소개Toby Yun
 
portfolio-subtitle-convert-김남운
portfolio-subtitle-convert-김남운portfolio-subtitle-convert-김남운
portfolio-subtitle-convert-김남운Namwun Kim
 
구글 검색엔진 최적화(Seo) 정리
구글 검색엔진 최적화(Seo) 정리구글 검색엔진 최적화(Seo) 정리
구글 검색엔진 최적화(Seo) 정리라한사 아
 
Code_The_Web_150524_HTML_CSS
Code_The_Web_150524_HTML_CSSCode_The_Web_150524_HTML_CSS
Code_The_Web_150524_HTML_CSSChangwhan Yea
 
XE3 SEO를 다루기 - XE Open seminar #2
XE3 SEO를 다루기 - XE Open seminar #2XE3 SEO를 다루기 - XE Open seminar #2
XE3 SEO를 다루기 - XE Open seminar #2XpressEngine
 
3.web의역사와browser
3.web의역사와browser3.web의역사와browser
3.web의역사와browsercheonsu park
 
Social Tutorial Platform: Webbles
Social Tutorial Platform: Webbles Social Tutorial Platform: Webbles
Social Tutorial Platform: Webbles Wonkyung Lyu
 
JSP 프로그래밍 2014-2018년 기말시험 기출문제
JSP 프로그래밍 2014-2018년 기말시험 기출문제JSP 프로그래밍 2014-2018년 기말시험 기출문제
JSP 프로그래밍 2014-2018년 기말시험 기출문제Lee Sang-Ho
 

Similaire à robot.txt와 meta tag를 이용한 크롤링 설정 (20)

Html5 앱과 웹사이트를 보다 빠르게 하는 50가지
Html5 앱과 웹사이트를 보다 빠르게 하는 50가지Html5 앱과 웹사이트를 보다 빠르게 하는 50가지
Html5 앱과 웹사이트를 보다 빠르게 하는 50가지
 
Daum5강 당신도 파워블로거가 될 수 있어요!
Daum5강 당신도 파워블로거가 될 수 있어요!Daum5강 당신도 파워블로거가 될 수 있어요!
Daum5강 당신도 파워블로거가 될 수 있어요!
 
SEO_GETCHA_HANJUNG
SEO_GETCHA_HANJUNGSEO_GETCHA_HANJUNG
SEO_GETCHA_HANJUNG
 
REST API 설계
REST API 설계REST API 설계
REST API 설계
 
웹표준 교육
웹표준 교육웹표준 교육
웹표준 교육
 
Network path reference
Network path referenceNetwork path reference
Network path reference
 
Daejeon IT Developer Conference Struts2
Daejeon IT Developer Conference Struts2Daejeon IT Developer Conference Struts2
Daejeon IT Developer Conference Struts2
 
Polymer따라잡기
Polymer따라잡기Polymer따라잡기
Polymer따라잡기
 
2-2. html5
2-2. html52-2. html5
2-2. html5
 
REST Ovewview
REST OvewviewREST Ovewview
REST Ovewview
 
HTML5 스펙 소개
HTML5 스펙 소개HTML5 스펙 소개
HTML5 스펙 소개
 
portfolio-subtitle-convert-김남운
portfolio-subtitle-convert-김남운portfolio-subtitle-convert-김남운
portfolio-subtitle-convert-김남운
 
Seo
SeoSeo
Seo
 
구글 검색엔진 최적화(Seo) 정리
구글 검색엔진 최적화(Seo) 정리구글 검색엔진 최적화(Seo) 정리
구글 검색엔진 최적화(Seo) 정리
 
Code_The_Web_150524_HTML_CSS
Code_The_Web_150524_HTML_CSSCode_The_Web_150524_HTML_CSS
Code_The_Web_150524_HTML_CSS
 
Code_The_Web_1
Code_The_Web_1Code_The_Web_1
Code_The_Web_1
 
XE3 SEO를 다루기 - XE Open seminar #2
XE3 SEO를 다루기 - XE Open seminar #2XE3 SEO를 다루기 - XE Open seminar #2
XE3 SEO를 다루기 - XE Open seminar #2
 
3.web의역사와browser
3.web의역사와browser3.web의역사와browser
3.web의역사와browser
 
Social Tutorial Platform: Webbles
Social Tutorial Platform: Webbles Social Tutorial Platform: Webbles
Social Tutorial Platform: Webbles
 
JSP 프로그래밍 2014-2018년 기말시험 기출문제
JSP 프로그래밍 2014-2018년 기말시험 기출문제JSP 프로그래밍 2014-2018년 기말시험 기출문제
JSP 프로그래밍 2014-2018년 기말시험 기출문제
 

robot.txt와 meta tag를 이용한 크롤링 설정