最佳答案
我正在寻找 C # 代码转换为纯文本的 HTML 文档。
我不是在寻找简单的标记剥离,而是一些将输出纯文本与 合情合理原始布局的保存。
输出应该是这样的:
我已经看过 HTML 敏捷包,但我不认为这是我需要的。还有人有其他建议吗?
编辑: 我刚刚从 CodePlex下载了 HTML 敏捷包,并运行了 Html2Txt 项目。多么令人失望(至少将 html 转换为文本的模块) !它所做的只是撕掉标签,压平桌子等等。输出与 Html2Txt@W3C 生成的输出完全不同。可惜这个消息来源似乎不可用。 我想看看是否有更“罐装”的解决方案。
编辑2: 谢谢大家的建议。苍蝇特警队告诉了我我想去的方向。我可以使用 System.Diagnostics.Process
类运行带有“-dump”开关的 lynx.exe,将文本发送到标准输出,并使用 ProcessStartInfo.UseShellExecute = false
和 ProcessStartInfo.RedirectStandardOutput = true
捕获标准输出。我将用 C # 类包装这一切。这段代码只是偶尔被调用,所以我并不太关心生成一个新的进程与在代码中完成它的区别。而且,山猫跑得很快! !