我正在用 Ruby (1.9)编写一个爬虫程序,它从很多随机的站点中消耗大量 HTML。
在尝试提取链接时,我决定只使用 .scan(/href="(.*?)"/i)
而不是 nokogiri/hpicot (主要加速)。问题是,我现在收到很多“ invalid byte sequence in UTF-8
”错误。
据我所知,net/http
库没有任何特定的编码选项,输入的内容基本上没有正确的标记。
What would be the best way to actually work with that incoming data? I tried .encode
with the replace and invalid options set, but no success so far...