用Haskell写了个爬虫框架,支持open-closed table任务调度,目前还是单线程的,包含HTML解析和标签筛选。用起来还挺方便的。跑了一下CPU占用率有点高,可能是HTML解析的效率太低。目前的做法是把整个HTML解析成标签树,但其实有点浪费,因为很多分支都不会被用到。考虑可以修改成惰性解析,当需要检索某个标签的时候才解析相应的标签。这里有待改进。

源码在Github上,也写了相应的Wiki