2014. 7. 23. 02:41

HTML Parser - 1

336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.

안녕하세요.

HTML Parser 가 어느정도 완성이 되어서 포스팅 합니다.

요약

  • Tokenize를 합니다.
  • Parser를 통해서 Parsing 된 TAG를 Parent & Child로 짝을 이뤄 줍니다.

현재 root->child->child 형태로 타고 들어가니,

Xpath 라든지, WatIN 처럼 FindBy 같은걸 통해서 해당 TAG를 갖고 오는 기능 추가 해야 할 듯 합니다.

테스트 페이지 입니다.

http://torrentproject.com/?s=test

 

첫번째 항목을 Chrome을 통해서 요소 검사 합니다.

 

크롬에서 내용은 이러 합니다.

 

해당 Path 입니다.

 

//*[@id="ires"]/ol/li[1]/div/h3/a

해당 Xpath 인데요 원리는 연구 해봐야겠네요.

 

 

 

디버깅 모드에서 캡쳐된 화면입니다.

 

해당 글의 속성만 캡쳐해서 보면 아래와 같습니다.

값을 복사해 봤습니다.

+        [0]    {[class, 'l tl']}    System.Collections.Generic.KeyValuePair<string,string>

+        [1]    {[href, 'http://torrentproject.com/55e049118ebdf166e6ddab2273a692c337de1323/']}    System.Collections.Generic.KeyValuePair<string,string>

+        [2]    {[title, 'Shaun T Insanity Deluxe torrent']}    System.Collections.Generic.KeyValuePair<string,string>

 

위에 빨간 부분이 파싱된 태그의 속성값 입니다.

 

해당 링크를 클릭했을 때 열린 화면과 URL 입니다.

 

http://torrentproject.com/55e049118ebdf166e6ddab2273a692c337de1323/

http://torrentproject.com/55e049118ebdf166e6ddab2273a692c337de1323/

 

파싱된 href 의 값을 비교 해봤습니다.

둘다 맞네요.

감사 합니다.

 

추후 개선을 가하면될 듯 합니다.

이제 한숨 쉬어도 될 듯 하네요.