将 Nokogiri 文档转换为 Ruby Hash

有没有一种简单的方法可以将 Nokogiri XML 文档转换成 Hash?

就像 Rails 的 Hash.from_xml

48495 次浏览

我将这段代码与 libxml-ruby (1.1.3)一起使用。我自己没有使用 nokogiri,但是我知道它使用 libxml-ruby。我还鼓励您查看 ROXML (http://github.com/Empact/roxml/tree) ,它将 xml 元素映射到 ruby 对象; 它构建在 libxml 之上。

# USAGE: Hash.from_libxml(YOUR_XML_STRING)
require 'xml/libxml'
# adapted from
# http://movesonrails.com/articles/2008/02/25/libxml-for-active-resource-2-0


class Hash
class << self
def from_libxml(xml, strict=true)
begin
XML.default_load_external_dtd = false
XML.default_pedantic_parser = strict
result = XML::Parser.string(xml).parse
return { result.root.name.to_s => xml_node_to_hash(result.root)}
rescue Exception => e
# raise your custom exception here
end
end


def xml_node_to_hash(node)
# If we are at the root of the document, start the hash
if node.element?
if node.children?
result_hash = {}


node.each_child do |child|
result = xml_node_to_hash(child)


if child.name == "text"
if !child.next? and !child.prev?
return result
end
elsif result_hash[child.name.to_sym]
if result_hash[child.name.to_sym].is_a?(Object::Array)
result_hash[child.name.to_sym] << result
else
result_hash[child.name.to_sym] = [result_hash[child.name.to_sym]] << result
end
else
result_hash[child.name.to_sym] = result
end
end


return result_hash
else
return nil
end
else
return node.content.to_s
end
end
end
end

看一下我为 Nokogiri XML Node 制作的简单混合。

Http://github.com/kuroir/nokogiri-to-hash

下面是一个使用例子:

require 'rubygems'
require 'nokogiri'
require 'nokogiri_to_hash'
html = '
<div id="hello" class="container">
<p>Hello! visit my site <a href="http://kuroir.com">Kuroir.com</a></p>
</div>
'
p Nokogiri.HTML(html).to_hash
=> [{:div=>{:class=>["container"], :children=>[{:p=>{:children=>[{:a=>{:href=>["http://kuroir.com"], :children=>[]}}]}}], :id=>["hello"]}}]

我是在试图简单地将 XML 转换为 Hash (而不是在 Rails 中)时发现这一点的。我本来想用 Nokogiri 的,但最后还是用了 诺力

然后我的代码是琐碎的:

response_hash = Nori.parse(response)

其他用户指出,这样做不管用。我还没有验证,但似乎解析方法已经从类移到了实例。我上面的代码在某个时候起作用了。新的(未经验证的)代码将是:

response_hash = Nori.new.parse(response)

如果您在 Nokogiri 选择的节点只包含一个标记,您可以提取密钥、值并将它们压缩到一个 hash 中,如下所示:

  @doc ||= Nokogiri::XML(File.read("myxmldoc.xml"))
@node = @doc.at('#uniqueID') # this works if this selects only one node
nodeHash = Hash[*@node.keys().zip(@node.values()).flatten]

有关 Ruby 数组合并的更多信息,请参见 http://www.ruby-forum.com/topic/125944

如果要将 Nokogiri XML 文档转换为散列,只需执行以下操作:

require 'active_support/core_ext/hash/conversions'
hash = Hash.from_xml(nokogiri_document.to_s)

下面是一个更简单的版本,它创建了一个健壮的 Hash,其中包含元素和属性的名称空间信息:

require 'nokogiri'
class Nokogiri::XML::Node
TYPENAMES = {1=>'element',2=>'attribute',3=>'text',4=>'cdata',8=>'comment'}
def to_hash
{kind:TYPENAMES[node_type],name:name}.tap do |h|
h.merge! nshref:namespace.href, nsprefix:namespace.prefix if namespace
h.merge! text:text
h.merge! attr:attribute_nodes.map(&:to_hash) if element?
h.merge! kids:children.map(&:to_hash) if element?
end
end
end
class Nokogiri::XML::Document
def to_hash; root.to_hash; end
end

实战经验:

xml = '<r a="b" xmlns:z="foo"><z:a>Hello <b z:m="n" x="y">World</b>!</z:a></r>'
doc = Nokogiri::XML(xml)
p doc.to_hash
#=> {
#=>   :kind=>"element",
#=>   :name=>"r",
#=>   :text=>"Hello World!",
#=>   :attr=>[
#=>     {
#=>       :kind=>"attribute",
#=>       :name=>"a",
#=>       :text=>"b"
#=>     }
#=>   ],
#=>   :kids=>[
#=>     {
#=>       :kind=>"element",
#=>       :name=>"a",
#=>       :nshref=>"foo",
#=>       :nsprefix=>"z",
#=>       :text=>"Hello World!",
#=>       :attr=>[],
#=>       :kids=>[
#=>         {
#=>           :kind=>"text",
#=>           :name=>"text",
#=>           :text=>"Hello "
#=>         },
#=>         {
#=>           :kind=>"element",
#=>           :name=>"b",
#=>           :text=>"World",
#=>           :attr=>[
#=>             {
#=>               :kind=>"attribute",
#=>               :name=>"m",
#=>               :nshref=>"foo",
#=>               :nsprefix=>"z",
#=>               :text=>"n"
#=>             },
#=>             {
#=>               :kind=>"attribute",
#=>               :name=>"x",
#=>               :text=>"y"
#=>             }
#=>           ],
#=>           :kids=>[
#=>             {
#=>               :kind=>"text",
#=>               :name=>"text",
#=>               :text=>"World"
#=>             }
#=>           ]
#=>         },
#=>         {
#=>           :kind=>"text",
#=>           :name=>"text",
#=>           :text=>"!"
#=>         }
#=>       ]
#=>     }
#=>   ]
#=> }

如果在配置中定义类似的内容:

ActiveSupport::XmlMini.backend = 'Nokogiri'

它包括一个在 Nokogiri 的模块,你获得的 to_hash方法。

使用 Nokogiri将 XML 响应解析为 ruby hash。

doc = Nokogiri::XML(response_body)
Hash.from_xml(doc.to_s)