网页去噪步骤: 1) 节点分割。将网页映射为DOM树, 依据目前DOM节点的信息与子节点信息进行节点分割, 完成信息块提取。 2) 测试分割条。第一借助网页的初始坐标和终止坐标作为初始化分隔条, 然后借助页面块与分割条之间的地方关系生成新的测试条。 3) 借助分隔条的权值重构语义块, 沿着分隔条从低到高的方向进行迭代合并, 如此最后将网页分割成主题有关性非常高的块的集合。