2015. 7. 26. 07:00
w3m VS lynx 비교.
2015. 7. 26. 07:00 in 관련자료
336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.
안녕하세요.
오늘은 w3m 과 lynx 관련되서 글을 적을까 합니다.
종종 웹페이지 파싱 처리 할 상황이 있긴 합니다.
간단한 페이지의 경우 line by line으로 처리 할 때가 있습니다.
관건은 html 태그 제거 입니다.
그러다가 lynx 의 –dump 기능을 활용 하여 처리 할려고 하는데,
특정 웹 페이지는 한글이 깨져서 나오는게 아니겠습니까?
결국 개인적인 결론은 일전에 C#에서 작업 했던 기억과 비슷합니다.
일단 lynx 에서 웹페이지를 읽어 들일 때 전체 인코딩은 UTF-8 로 읽어 들였지만,
한글 페이지 내부의 contents encoding은 euc-kr 인 상황이 문제 입니다.
이럴 경우 다시 요청을 해서 읽어 들이던지 내부에서 해당 contents를 아예 euc-kr 로 재 인코딩 하는 수 밖에 없습니다.
그래서 w3m을 사용해서 처리 해보니 잘 되네요..
해당 옵션은 이게 아닐까 합니다.
Lynx 에서 깨진 모습
해당 옵션 입니다.
UTF-8을 줄경우 아예 안나오더군요.
UTF-8, euc-kr 2개 총 4개의 조합으로 해도 안되더군요.
아래는 w3m의 결과 입니다.
설정에 보면 automatic charset dectect when loading 이라고 되어 있습니다.
이게 아마 contents 안의 meta 정보중 char-set을 읽어 들이던지, 또는 아예 로딩시 페이지 안의 캐릭터 인코딩을 자동으로 검출해서
처리 하는게 아닐까 합니다.
감사 합니다.
'관련자료' 카테고리의 다른 글
많은 UI 제작시 엑셀활용 (0) | 2015.08.12 |
---|---|
컨버팅 프로젝트의 리스크. (0) | 2015.08.04 |
Android 티스토리 로그인시 세션 만료 관련항목. (0) | 2015.07.07 |
Android Studio ADB 설치. (0) | 2015.06.27 |
후킹 관련된 정리. (0) | 2015.05.31 |