文本或字节串 - 开卷题库

小开

最佳答案

ByteStrings主要用于二进制数据，但如果您只需要 ASCII 字符集，它们也是处理文本的有效方法。如果需要处理 unicode 字符串，则需要使用 Text。然而，我必须强调，两者都不能替代对方，而且它们通常用于不同的用途: 虽然 Text代表纯 Unicode，但无论何时，只要通过套接字或文件传输文本，仍然需要在二进制 ByteString表示之间进行编码。

这里有一篇关于 unicode 基础的好文章，它很好地解释了 unicode 码点(Text)和编码的二进制字节(ByteString) : The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets之间的关系

您可以使用数据，文本，编码模块在两种数据类型之间进行转换，如果使用惰性变量，则使用数据，文本，懒惰，编码(似乎是基于错误消息进行转换)。

小开

您肯定希望将 Data.Text 用于文本数据。

encodeUtf8是正确的选择。这个错误:

无法匹配预期的类型 Data.ByteString.Lazy.Internal. ByteString against inferred type Data.ByteString.Internal.ByteString

意味着您向需要懒惰字节串的代码提供严格字节串。使用 fromChunks函数转换起来很容易:

Data.ByteString.Lazy.fromChunks :: [Data.ByteString.Internal.ByteString] -> ByteString

所以您需要做的就是在需要惰性字节串的地方添加函数 fromChunks [myStrictByteString]。

另一种方法是使用双重函数 toChunks来完成转换，它接受一个惰性字节串并给出一个严格块列表。

You may want to ask the maintainers of some packages if they'd be able to provide a text interface instead of, or in addition to, a bytestring interface.

小开

使用来自 Data.String.Conversions的单个函数 cs。

它将允许您在 String、 ByteString和 Text(以及 ByteString.Lazy和 Text.Lazy)之间进行转换，这取决于输入和预期的类型。

您仍然需要调用它，但不再需要担心各自的类型。

有关用法示例，请参见这个答案。

小开

值得一提的是，我发现这两个 helper 函数非常有用:

import qualified Data.ByteString.Char8 as BS
import qualified Data.Text             as T


-- | Text to ByteString
tbs :: T.Text -> BS.ByteString
tbs = BS.pack . T.unpack


-- | ByteString to Text
bst :: BS.ByteString -> T.Text
bst = T.pack . BS.unpack

例如:

foo :: [BS.ByteString]
foo = ["hello", "world"]


bar :: [T.Text]
bar = bst <$> foo


baz :: [BS.ByteString]
baz = tbs <$> bar