개인작업공간 :: HTML Parser

2014. 7. 23. 02:41

HTML Parser - 1

2014. 7. 23. 02:41 in 습작 및 R&D

336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.

안녕하세요.

HTML Parser 가 어느정도 완성이 되어서 포스팅 합니다.

요약

현재 root->child->child 형태로 타고 들어가니,

Xpath 라든지, WatIN 처럼 FindBy 같은걸 통해서 해당 TAG를 갖고 오는 기능 추가 해야 할 듯 합니다.

테스트 페이지 입니다.

첫번째 항목을 Chrome을 통해서 요소 검사 합니다.

크롬에서 내용은 이러 합니다.

해당 Path 입니다.

//*[@id="ires"]/ol/li[1]/div/h3/a

해당 Xpath 인데요 원리는 연구 해봐야겠네요.

디버깅 모드에서 캡쳐된 화면입니다.

해당 글의 속성만 캡쳐해서 보면 아래와 같습니다.

값을 복사해 봤습니다.

+ [0] {[class, 'l tl']} System.Collections.Generic.KeyValuePair<string,string>

+ [1] {[href, 'http://torrentproject.com/55e049118ebdf166e6ddab2273a692c337de1323/']} System.Collections.Generic.KeyValuePair<string,string>

+ [2] {[title, 'Shaun T Insanity Deluxe torrent']} System.Collections.Generic.KeyValuePair<string,string>

위에 빨간 부분이 파싱된 태그의 속성값 입니다.

해당 링크를 클릭했을 때 열린 화면과 URL 입니다.

파싱된 href 의 값을 비교 해봤습니다.

둘다 맞네요.

감사 합니다.

추후 개선을 가하면될 듯 합니다.

이제 한숨 쉬어도 될 듯 하네요.