- 静的ページのみからの収集に限定しました
- WebページよりURLを収集する時、自ページは相対パスが使用されている場合が一般的です
http://からのURLに変換するのが結構手数がかかります、これを自動で変換して収集します
- 収集対象ページの文字コードはShift-JIS EUC-JP JIS UTF-8 UTF-16LE UTF-16BE が可能です
- 実際にURLを収集してみると、収集したくない余分なものも収集してしまう場合も多々あります
例えば、「次ページ」とか「前ページ」とか、そうした場合、これを除外できます
- 逆に、実際にURLを収集してみると隠しリンクも見つかるかも(よくある事です)
|