리눅스2023. 4. 18. 15:09

 

반달가면 이글루에서 백업 - http://bahndal.egloos.com/511670

 

특정 웹페이지 또는 html 파일의 본문 내용만 뽑아서 텍스트로 변환하는 방법이다. 텍스트 기반의 웹브라우저인 lynx를 이용하면 되겠다.

일단 설치부터 하자. 우분투/데비안 기준이다. 터미널창에서 아래와 같이 입력.

apt-get install lynx

자, 이제 반달가면의 블로그 첫 페이지를 텍스트로 변환해 보자. -dump 옵션을 사용하면 된다.

# 본문을 화면에 출력
lynx -dump http://bahndal.egloos.com

# 본문을 텍스트로 저장
lynx -dump http://bahndal.egloos.com > bahndal.txt

저장하고 있는 html 파일에 대해서도 적용 가능하다. 아래의 예시를 참고하자.

# html 파일의 본문을 텍스트로 변환
lynx -dump my_webpage.html > my_webpage.txt

요즘 같은 세상에 텍스트만 나오는 이런 브라우저가 웬말이냐 싶을 수도 있지만, 광고 배너 등 정신 사나운 그림 다 제외하고 글자만 보고 싶을 때 나름 유용하다. -dump 옵션을 빼면 일반적인 웹브라우저로 동작한다.

# 반달가면의 블로그 보기
lynx http://bahndal.egloos.com

# 쿠키 허용
lynx -accept_all_cookies http://bahndal.egloos.com

터미널창에서 동작하는 브라우저이므로, 마우스 대신 화살표키를 이용하자.  종료하려면 q를 누르면 된다. 정말로 종료하겠느냐고 묻는데, y를 누르면 종료.

728x90
Posted by 반달가면