2015. 7. 26. 07:00

w3m VS lynx 비교.

336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.

안녕하세요.

오늘은 w3m 과 lynx 관련되서 글을 적을까 합니다.

종종 웹페이지 파싱 처리 할 상황이 있긴 합니다.

간단한 페이지의 경우 line by line으로 처리 할 때가 있습니다.

관건은 html 태그 제거 입니다.

그러다가 lynx 의 –dump 기능을 활용 하여 처리 할려고 하는데,

특정 웹 페이지는 한글이 깨져서 나오는게 아니겠습니까?

결국 개인적인 결론은 일전에 C#에서 작업 했던 기억과 비슷합니다.

일단 lynx 에서 웹페이지를 읽어 들일 때 전체 인코딩은 UTF-8 로 읽어 들였지만,

한글 페이지 내부의 contents encoding은 euc-kr 인 상황이 문제 입니다.

이럴 경우 다시 요청을 해서 읽어 들이던지 내부에서 해당 contents를 아예 euc-kr 로 재 인코딩 하는 수 밖에 없습니다.

그래서 w3m을 사용해서 처리 해보니 잘 되네요..

해당 옵션은 이게 아닐까 합니다.

Lynx 에서 깨진 모습

 

해당 옵션 입니다.

UTF-8을 줄경우 아예 안나오더군요.

UTF-8, euc-kr 2개 총 4개의 조합으로 해도 안되더군요.

아래는 w3m의 결과 입니다.

설정에 보면 automatic charset dectect when loading 이라고 되어 있습니다.

이게 아마 contents 안의 meta 정보중 char-set을 읽어 들이던지, 또는 아예 로딩시 페이지 안의 캐릭터 인코딩을 자동으로 검출해서

처리 하는게 아닐까 합니다.

감사 합니다.