2014. 3. 14. 16:46

웹 페이지 파싱 툴 - 5

336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.

안녕하세요.

오늘 하루 날 잡고 파싱 툴을 만듭니다.

기존에 웹 모니터링은 사이트 별로 태그를 가공 처리 할 부분이 상이 하기에,

각 사이트별로 태그 분석 툴을 만들려고 했습니다.

그게 현재 만드는 툴입니다.

오늘 적용된 내용입니다.

  • 파싱 처리 시 간혹 입력되는 '\n' 캐릭터 처리.
  • Meat안에 있는 Encoding 으로 적용 처리.

가장 태그가 Manage 안되는곳중 한곳이 신문사가 아닌가 싶습니다.

조선 일보를 선택했습니다.

A 태그를 다 잘 빼오네요.

의외로 인코딩 문제가 웹에서는 많은 비중을 차지 하는 것 같습니다.

웹서버에 character set을 요청을 해도 결국 메타의 charater set을 읽어 와서 처리합니다.

감사 합니다.

'습작 및 R&D' 카테고리의 다른 글

부동산 실거래가 - 2  (1) 2014.07.08
웹페이지 파싱 툴 – 6(Naver Music)  (0) 2014.03.21
웹 페이지 파싱 툴 – 4  (0) 2014.03.14
웹페이지 파싱 툴 – 3 (뽐뿌 온라인 장터)  (0) 2014.03.11
Torrentproject DL-4  (0) 2014.03.11