Parsing 在Haskell中解析可打印文本文件
我正试图找出在Haskell中解析特定文本文件的“正确”方法 在F#中,我循环每一行,用正则表达式测试它,以确定它是否是我要解析的行,如果是,我使用正则表达式解析它。否则,我将忽略该行 该文件是一个可打印的报告,每页都有标题。每个记录是一行,每个字段由两个或多个空格分隔。下面是一个例子:Parsing 在Haskell中解析可打印文本文件,parsing,haskell,text,Parsing,Haskell,Text,我正试图找出在Haskell中解析特定文本文件的“正确”方法 在F#中,我循环每一行,用正则表达式测试它,以确定它是否是我要解析的行,如果是,我使用正则表达式解析它。否则,我将忽略该行 该文件是一个可打印的报告,每页都有标题。每个记录是一行,每个字段由两个或多个空格分隔。下面是一个例子: MY COMPANY'S NAME
MY COMPANY'S NAME
PROGRAM LISTING
STATE: OK PRODUCT: ProductName
(DESCRIPTION OF REPORT)
DATE: 11/03/2013
This is the first line of a a two-line description of the contents of this report. The description, as noted,
spans two lines. This is more text. I'm running out of things to write. Blah.
DIVISION CODE: 3 XYZ CODE: FAA3 AGENT CODE: 0007 PAGE NO: 1
AGENT TARGET NAME ST UD TARGET# XYZ# X-DATE YEAR CO ENCODING
----- ------------------------------ -- -- ------- ---- ---------- ---- ---------- ----------
0007 SMITH, JOHN 43 3 1234567 001 12/06/2013 2004 ABC SIZE XL
0007 SMITH, JANE 43 3 2345678 001 12/07/2013 2005 ACME YELLOW
0007 DOE, JOHN 43 3 3456789 004 12/09/2013 2008 MICROSOFT GREEN
0007 DOE, JANE 43 3 4567890 002 12/09/2013 2007 MICROSOFT BLUE
0007 BORGES, JORGE LUIS 43 3 5678901 001 12/09/2013 2008 DUFEMSCHM Y1500
0007 DEWEY, JOHN & 43 3 6789012 003 12/11/2013 2013 ERTZEVILI X1500
0007 NIETZSCHE, FRIEDRICH 43 3 7890123 004 12/11/2013 2006 NCORPORAT X7
我首先构建了解析器来测试每一行,看看它是否是一条记录。如果它是一个记录,我只是用我自己开发的子字符串函数根据字符位置切掉了行。这个很好用
然后我发现我的Haskell安装中确实有一个正则表达式库,所以我决定尝试像在F#中一样使用正则表达式。这失败得很惨,因为库拒绝了完全有效的正则表达式
然后我想,帕塞克呢?但是,我爬得越高,使用它的学习曲线就越陡峭,我发现自己在想,对于解析这份报告这样的简单任务,它是否是正确的工具
所以我想问一些哈斯克尔的专家:你会如何分析这种报告?我不是要代码,不过如果你有,我很想看看。我真的在要求技术或技术
谢谢
另外,输出只是一个以冒号分隔的文件,文件顶部有一行字段名,后面是记录,可以为最终用户导入Excel
编辑:
非常感谢大家的评论和回答
因为我最初没有说清楚:示例的前十四行对每一页(打印)输出重复,每页的记录数从零到一整页不等(看起来像45条记录)。很抱歉,我之前没有说清楚,因为这可能会影响已经提供的一些答案
我的Haskell系统目前仅限于Parsec(它没有attoparsec)、Text.Regex.Base和Text.Regex.Posix。我必须了解如何安装attoparsec和/或其他正则表达式库。但现在,你说服了我继续学习Parsec。感谢您提供了非常有用的代码示例 对于如此简单的东西,我建议使用解析器的语言很少(我过去用正则表达式解析过许多类似的文件),但parsec使之变得如此简单-
parseLine = do
first <- count 4 anyChar
second <- count 4 anyChar
return (first, second)
parseFile = endBy parseLine (char '\n')
main = interact $ show . parse parseFile "-"
parseLine=do
首先这绝对是一个值得解析库做的工作。我的主要目标通常是尽快将数据转换成非文本形式,比如
module ReportParser where
import Prelude hiding (takeWhile)
import Data.Text hiding (takeWhile)
import Control.Applicative
import Data.Attoparsec.Text
data ReportHeaderData = Company Text
| Program Text
| State Text
-- ...
| FieldNames [Text]
data ReportData = ReportData Int Text Int Int Int Int Date Int Text Text
data Date = Date Int Int Int
为了论证,我们可以说,报告是
data Report = Report [ReportHeaderData] [ReportData]
现在,我通常创建一个解析器,它是一个与数据类型同名的函数
-- Ending condition for a field
doubleSpace :: Parser Char
doubleSpace = space >> space
-- Clears leading spaces
clearSpaces :: Parser Text
clearSpaces = takeWhile (== ' ') -- Naively assumes no tabs
-- Throws away everything up to and including a newline character (naively assumes unix line endings)
clearNewline :: Parser ()
clearNewline = (anyChar `manyTill` char '\n') *> pure ()
-- Parse a date
date :: Parser Date
date = Date <$> decimal <*> (char '/' *> decimal) <*> (char '/' *> decimal)
-- Parse a report
reportData :: Parser ReportData
reportData = let f1 = decimal <* clearSpaces
f2 = (pack <$> manyTill anyChar doubleSpace) <* clearSpaces
f3 = decimal <* clearSpaces
f4 = decimal <* clearSpaces
f5 = decimal <* clearSpaces
f6 = decimal <* clearSpaces
f7 = date <* clearSpaces
f8 = decimal <* clearSpaces
f9 = (pack <$> manyTill anyChar doubleSpace) <* clearSpaces
f10 = (pack <$> manyTill anyChar doubleSpace) <* clearNewline
in ReportData <$> f1 <*> f2 <*> f3 <*> f4 <*> f5 <*> f6 <*> f7 <*> f8 <*> f9 <*> f10
请注意,我更喜欢这种形式,但如果您愿意,也可以使用一元形式(我在doubleSpace
中使用过)。由于名称所隐含的原因,也很有用
要使用此功能,我强烈推荐GHCI和parseTest
函数。GHCI总体上非常方便,是测试单个解析器的好方法,而parseTest接受解析器和输入字符串,并输出运行状态、已解析字符串和任何未解析的剩余字符串。当您不太确定发生了什么时,这非常有用。假设头是固定的,并且每行的字段是“双空格”分隔的,那么在Haskell中为该文件实现解析器就非常容易了。最终的结果可能会比您的regexp更长(如果符合您的要求,Haskell中也有regexp库),但它的可测试性和可读性要高得多。我将演示其中的一些内容,同时概述如何为这种文件格式构建一个
我会用阿托帕塞克。我们还需要使用ByteString
数据类型(以及OverloadedStrings
PRAGMA,它允许Haskell将字符串文本解释为string
和ByteString
)以及Control.Applicative
和Control.Monad>中的一些组合符
{-# LANGUAGE OverloadedStrings #-}
import Data.Attoparsec.Char8
import Control.Applicative
import Control.Monad
import qualified Data.ByteString.Char8 as S
首先,我们将构建一个表示每个记录的数据类型
data YearMonthDay =
YearMonthDay { ymdYear :: Int
, ymdMonth :: Int
, ymdDay :: Int
}
deriving ( Show )
data Line =
Line { agent :: Int
, name :: S.ByteString
, st :: Int
, ud :: Int
, targetNum :: Int
, xyz :: Int
, xDate :: YearMonthDay
, year :: Int
, co :: S.ByteString
, encoding :: S.ByteString
}
deriving ( Show )
如果需要,您可以为每个字段填充更多描述性类型,但这不是一个坏的开始。因为每一行都可以独立解析,所以我将这样做。第一步是构建一个解析器行
类型——将其作为解析器类型读取,如果成功,它将返回一个行
为此,我们将使用解析器的Applicative
接口在解析器的“内部”构建Line
类型。这听起来很复杂,但很简单,看起来很漂亮。我们将以YearMonthDay
类型作为热身开始
parseYMDWrong :: Parser YearMonthDay
parseYMDWrong =
YearMonthDay <$> decimal
<*> decimal
<*> decimal
我们可以使用Attoparsec的parseOnly
函数测试这是一个有效的解析器
>>> parseOnly parseYMD "2013/12/12"
Right (YearMonthDay {ymdYear = 2013, ymdMonth = 12, ymdDay = 12})
现在,我们想将此技术推广到整个行
解析器。然而,有一个障碍。我们想通过testring来解析字段,比如“SMITH,JOHN”
,它可能包含空格。。。同时也用双空格分隔我们的行
的每个字段。这意味着我们需要一个特殊的ByteString
解析器,它使用任何字符,包括单个空格。。。但当它看到两个空格连成一行时就退出了
我们可以使用scan
combinator构建它scan
允许我们在解析中使用字符时累积状态,并确定何时动态停止解析。我们将保持一个布尔状态——“最后一个字符是空格吗?”——当我们看到一个新的空格而知道前一个字符也是空格时,就停止
parseStringField :: Parser S.ByteString
parseStringField = scan False step where
step :: Bool -> Char -> Maybe Bool
step b ' ' | b = Nothing
| otherwise = Just True
step _ _ = Just False
我们可以使用parseOnly
再次测试这个小部件。让我们尝试解析三个字符串字段
>>> let p = (,,) <$> parseStringField <*> parseStringField <*> parseStringField
>>> parseOnly p "foo bar baz"
Right ("foo "," bar "," baz")
>>> parseOnly p "foo bar baz quux end"
Right ("foo bar "," baz quux "," end")
>>> parseOnly p "a sentence with no double space delimiters"
Right ("a sentence with no double space delimiters","","")
现在我们可以构建行解析
parseStringField :: Parser S.ByteString
parseStringField = scan False step where
step :: Bool -> Char -> Maybe Bool
step b ' ' | b = Nothing
| otherwise = Just True
step _ _ = Just False
>>> let p = (,,) <$> parseStringField <*> parseStringField <*> parseStringField
>>> parseOnly p "foo bar baz"
Right ("foo "," bar "," baz")
>>> parseOnly p "foo bar baz quux end"
Right ("foo bar "," baz quux "," end")
>>> parseOnly p "a sentence with no double space delimiters"
Right ("a sentence with no double space delimiters","","")
someSpaces :: Parser Int
someSpaces = do
sps <- some space
let count = length sps
if count >= 2 then return count else mzero
>>> parseOnly someSpaces " "
Right 2
>>> parseOnly someSpaces " "
Right 4
>>> parseOnly someSpaces " "
Left "Failed reading: mzero"
lineParser :: Parser Line
lineParser =
Line <$> (decimal <* someSpaces)
<*> (parseStringField <* someSpaces)
<*> (decimal <* someSpaces)
<*> (decimal <* someSpaces)
<*> (decimal <* someSpaces)
<*> (decimal <* someSpaces)
<*> (parseYMD <* someSpaces)
<*> (decimal <* someSpaces)
<*> (parseStringField <* someSpaces)
<*> (parseStringField <* some space)
>>> parseOnly lineParser "0007 SMITH, JOHN 43 3 1234567 001 12/06/2013 2004 ABC SIZE XL "
Right (Line { agent = 7
, name = "SMITH, JOHN "
, st = 43
, ud = 3
, targetNum = 1234567
, xyz = 1
, xDate = YearMonthDay {ymdYear = 12, ymdMonth = 6, ymdDay = 2013}
, year = 2004
, co = "ABC "
, encoding = "SIZE XL "
})
parseFile :: S.ByteString -> [Either String Line]
parseFile = map (parseOnly parseLine) . drop 14 . lines