리눅스에서 웹페이지(html)를 텍스트(txt)로 변환하기
반달가면 이글루에서 백업 - http://bahndal.egloos.com/511670
특정 웹페이지 또는 html 파일의 본문 내용만 뽑아서 텍스트로 변환하는 방법이다. 텍스트 기반의 웹브라우저인 lynx를 이용하면 되겠다.
일단 설치부터 하자. 우분투/데비안 기준이다. 터미널창에서 아래와 같이 입력.
apt-get install lynx
자, 이제 반달가면의 블로그 첫 페이지를 텍스트로 변환해 보자. -dump 옵션을 사용하면 된다.
# 본문을 화면에 출력
lynx -dump http://bahndal.egloos.com
# 본문을 텍스트로 저장
lynx -dump http://bahndal.egloos.com > bahndal.txt
저장하고 있는 html 파일에 대해서도 적용 가능하다. 아래의 예시를 참고하자.
# html 파일의 본문을 텍스트로 변환
lynx -dump my_webpage.html > my_webpage.txt
요즘 같은 세상에 텍스트만 나오는 이런 브라우저가 웬말이냐 싶을 수도 있지만, 광고 배너 등 정신 사나운 그림 다 제외하고 글자만 보고 싶을 때 나름 유용하다. -dump 옵션을 빼면 일반적인 웹브라우저로 동작한다.
# 반달가면의 블로그 보기
lynx http://bahndal.egloos.com
# 쿠키 허용
lynx -accept_all_cookies http://bahndal.egloos.com
터미널창에서 동작하는 브라우저이므로, 마우스 대신 화살표키를 이용하자. 종료하려면 q를 누르면 된다. 정말로 종료하겠느냐고 묻는데, y를 누르면 종료.