본문 바로가기
밤꼬마 - etc

리스틀리- 웹 페이지 크롤링(엑셀 주 사용자 주목)

by 밤꼬마 2021. 10. 5.
728x90
반응형

IT종사자?

정말 큰 범주안에서 보면 나는 IT업종 종사자라고도 볼 수 있겠다. 시간이 지나면서 다양한 용어가 나오고 새로운 뜻으로 이야기가 되는 경우들을 종종 보는데 최근 "메타버스"라는 단어도 여러 포털사이트에서 언급이 되고 또, 여러 분야에서 핵심키워드로 노출이 되는 경우들을 보았다. 

대한민국을 넘어 전 세계의 모든 사람들은 이 IT와 뗄레야 뗄수 없는 관계가 되어 버렸다. 

내 눈에 읽고 자주 보이던 단어가 최근에 있었는데 그게 바로 크롤링이였다. 
대략 크롤링이라는 단어가 어떤 단어이다 정도는 알고 있었는데 정확한 뜻을 오늘에서야 찾아봤다.

크롤링

웹사이트(website), 하이퍼링크(hyperlink), 데이터(data), 정보 자원을 자동화된 방법으로 수집, 분류, 저장하는 것.

크롤링을 위해 개발된 소프트웨어를 크롤러(crawler)라 한다. 크롤러는 주어진 인터넷 주소(URL)에 접근하여 관련된 URL을 찾아내고, 찾아진 URL들 속에서 또 다른 하이퍼링크(hyperlink)들을 찾아 분류하고 저장하는 작업을 반복함으로써 여러 웹페이지를 돌아다니며 어떤 데이터가 어디에 있는지 색인(index)을 만들어 데이터베이스(DB)에 저장하는 역할을 한다.

크롤링과 유사 개념으로 소프트웨어를 통해 대상 웹사이트와 같은 데이터 소스에서 데이터 자체를 추출하여 특정 형태로 저장하는 스크래핑(scraping) - 데이터 스크래핑(data scraping)이라고도 한다 - 이 있다. 빅데이터 분석에서는 크롤링을 통해 필요한 데이터가 어디 있는지 알아내고, 이를 스크래핑을 통해 수집, 저장 하여 분석에 사용하는 것처럼 두 기술을 결합하여 사용하기도 한다.

크롤링 기술이 악용되어 정보를 무단으로 복제하게 되면 지식재산권 침해 문제가 발생할 수 있다. 이러한 경우를 사전에 방지하기 위해 웹 페이지 소유자는 웹 페이지에 로봇 배제 표준(robots exclusion standard)을 사용하여 접근 제한에 대한 설명을 robots.txt에 기술한다. 또는 ‘noindex’ 메타 태그(meta tag)를 사용하여 크롤러로 검색 색인이 생성되는 것을 차단할 수 있다.
[네이버 지식백과] 크롤링 [crawling] (IT용어사전, 한국정보통신기술협회)

뭐 이런 개념인데 쉽게 설명하자면 내가 원하는 정보 값을 입력하여 데이터로 만들 수 있다 정도로 생각하면 될거 같다.

리스틀리

오늘 아침 우연치 않게 디스플레이광고를 보다 접한 사이트? 프로그램 인데 이 리스틀리가 내가 원하는 데이터를 엑셀로 변환을 해주는 크롬확장프로그램이다. 

출근을 해서 해당 확장프로그램을 크롬에 설치하고 시연 해봤을때 업무특성상 엑셀을 많이 사용하고 데이터를 다루는 일이 많은데 나에게는 꽤나 유용한 프로그램이 될것 같다라는 생각이 들어 이렇게 포스팅을 해본다. 

 

추천 직업군

온라인 쇼핑몰 유관업종 종사자들에게는 선택이 아니고 필수 확장프로그램이 되겠다라는 생각이 들더라. 
그외에도 온라인 CS를 담당하는 사람들에게도 해당 확장프로그램은 매우 유용하게 쓰일 듯 싶더라 
마케팅을 담당하거나, 클라이언트나 클라이언트의 경쟁사 모니터링에도 매우 유용할듯 싶어 사용을 권한다. 

프로그램 사용법이나, 사용의 자세한 내용은 아래의 링크로 대처한다.
(이미지 캡쳐하는게 너무 귀찮아 링크로 대처한다.)

지식의 전당 PPSS 네이버 포스팅

나 처럼 귀차니즘이 심한 사람들에게는 주로 그리고 애용하여 쓰일듯 싶으며,
(클릭하는게 귀찮아서 단축키를 외어버리고, OFFICE는 단축키를 만들어 사용한다)

확장 프로그램 및 프로그램의 상세한 설명은 아래의 링크를 클릭하면 된다.

 

데이터 추출을 클릭 1번에 강력추천 : 리스틀리

반응형

댓글