HTML Parser - 1
안녕하세요.
HTML Parser 가 어느정도 완성이 되어서 포스팅 합니다.
요약
- Tokenize를 합니다.
- Parser를 통해서 Parsing 된 TAG를 Parent & Child로 짝을 이뤄 줍니다.
현재 root->child->child 형태로 타고 들어가니,
Xpath 라든지, WatIN 처럼 FindBy 같은걸 통해서 해당 TAG를 갖고 오는 기능 추가 해야 할 듯 합니다.
테스트 페이지 입니다.
http://torrentproject.com/?s=test
첫번째 항목을 Chrome을 통해서 요소 검사 합니다.
크롬에서 내용은 이러 합니다.
해당 Path 입니다.
//*[@id="ires"]/ol/li[1]/div/h3/a
해당 Xpath 인데요 원리는 연구 해봐야겠네요.
디버깅 모드에서 캡쳐된 화면입니다.
해당 글의 속성만 캡쳐해서 보면 아래와 같습니다.
값을 복사해 봤습니다.
+ [0] {[class, 'l tl']} System.Collections.Generic.KeyValuePair<string,string>
+ [1] {[href, 'http://torrentproject.com/55e049118ebdf166e6ddab2273a692c337de1323/']} System.Collections.Generic.KeyValuePair<string,string>
+ [2] {[title, 'Shaun T Insanity Deluxe torrent']} System.Collections.Generic.KeyValuePair<string,string>
위에 빨간 부분이 파싱된 태그의 속성값 입니다.
해당 링크를 클릭했을 때 열린 화면과 URL 입니다.
http://torrentproject.com/55e049118ebdf166e6ddab2273a692c337de1323/
http://torrentproject.com/55e049118ebdf166e6ddab2273a692c337de1323/
파싱된 href 의 값을 비교 해봤습니다.
둘다 맞네요.
감사 합니다.
추후 개선을 가하면될 듯 합니다.
이제 한숨 쉬어도 될 듯 하네요.
'습작 및 R&D' 카테고리의 다른 글
HTML PARSER – 3 (뽐뿌휴대폰계시판) (0) | 2014.07.24 |
---|---|
HTML PARSER – 2 (0) | 2014.07.23 |
부동산 실거래가 – 5 ( 네이버 연동 ) (1) | 2014.07.14 |
부동산 실거래가 - 4 (0) | 2014.07.09 |
부동산 실거래가 – 3 자료 수집끝 (0) | 2014.07.08 |