• ISSN 0258-2724
  • CN 51-1277/U
  • EI Compendex
  • Scopus 收录
  • 全国中文核心期刊
  • 中国科技论文统计源期刊
  • 中国科学引文数据库来源期刊

基于多种策略的页面内容提取算法

高琰,谷士文,谭立球

downloadPDF
高琰, 谷士文, 谭立球. 基于多种策略的页面内容提取算法[J]. 江南娱乐网页版入口官网下载安装学报, 2007, 20(4): 473-477.
引用本文: 高琰, 谷士文, 谭立球. 基于多种策略的页面内容提取算法[J]. 江南娱乐网页版入口官网下载安装学报, 2007, 20(4): 473-477.
GAO Yan, GU Shiwen, TAN Liqiu. Web Content Extraction Based on Multiple Strategies[J]. Journal of Southwest Jiaotong University, 2007, 20(4): 473-477.
Citation: GAO Yan, GU Shiwen, TAN Liqiu. Web Content Extraction Based on Multiple Strategies[J].Journal of Southwest Jiaotong University, 2007, 20(4): 473-477.

基于多种策略的页面内容提取算法

详细信息
    作者简介:

    高琰(1973- ),女,讲师,博士,研究领域为智能信息处理,E-mail:gaoyan@mail.csu.edu.cn

Web Content Extraction Based on Multiple Strategies

    • 摘要:针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容.

    • 加载中
    计量
    • 文章访问数:1369
    • HTML全文浏览量:79
    • PDF下载量:422
    • 被引次数:0
    出版历程
    • 收稿日期:2006-06-14
    • 刊出日期:2007-08-25

    目录

      /

        返回文章
        返回
          Baidu
          map