2014. 3. 14. 15:15

웹페이지 인코딩 문제.

336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.

안녕하세요.

최근 파싱쪽을 진행 하면서 웹 파싱을 하고 있습니다.

모니터링 관련되서인데요.

인코딩 문제에 부딪혀서 이것저것 찾아 보니,

UTF-8 , ISO-8859-1과 euc-kr 의 문제 였습니다.

파일의 경우 라면 직접 읽어 들어서 처음 5 바이트로 BOM 처리가 되었나 보겠는데,

C# 클래스를 사용 할 경우 웹페이지를 읽을 때 이미 인코딩이 적용되어서 읽어 들이게 됩니다.

이럴 경우 다른 방법보다는,

직접 페이지에 charset을 파악 해서 다시 페이지 요청 처리 하면 됩니다.

여기 meta에서 파싱 처리 하면 됩니다.

참고로 다른 charset 사용하는 부분도 있으니 유념 해야 합니다.

 

이게 아닐 경우 직접 byte로 읽어 들인 후 UnicodeDetecting 관련된 로직을 적용 하면 되는데요.

이럴 경우 배보다 배꼽이 더 커지는 경우가 있습니다.

감사 합니다.


추가: 2014-07-13

헤더의 값에 관해서 언급이 빠졌네요.

헤더에 인코딩 정보가 같이 있더라도, 막상 contents 는 다른 방식의 인코딩을 적용 할수 있기에, 직접 contents 에서 encoding 을 추려 내서 재 요청 해야 됩니다.


'관련자료' 카테고리의 다른 글

Event Adder-3  (0) 2014.05.05
이벤트 Adder – 2  (0) 2014.05.04
구글 email 전송시 유의 사항. 5.7.0 security issue  (0) 2014.02.25
CSV 파싱 테스트  (0) 2014.02.21
ANTLR3 과 ANTLR4에서 약간 다른점이 있네요.  (0) 2014.02.20