`
touchinsert
  • 浏览: 1288531 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

wrapper的来历

 
阅读更多
以下内容摘自文献
Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, et al. 2006. A Survey of Web Information Extraction Systems. IEEE transactions on knowledge and data engineering, 18(10): 1411-1428

执行信息抽取的程序被称为抽取器(extractor)或包装器(wrapper)。包装器的最初定义来自于信息集成系统的一个部件,该部件提供一个统一的查询界面,可以通过该界面从多个异构信息源中获得数据。在一个信息集成系统中,一个包装器通常是一段程序,用该程序将一个信息源(例如一个数据库服务器或一个Web服务器)进行包装,这样,信息集成系统不需要改变其核心查询应答机制,就能够访问该信息源。当信息源是Web服务器时,包装器必须通过超文本传输协议(HyperText Transfer Protocol, HTTP)查询Web服务器,收集查询结果页面;然后对HTML (HyperText Mark up Language,超文本标记语言)文档执行信息抽取,获取其中的内容;最后把抽取结果和其他数据源的抽取结果集成起来。在这三个过程中,信息抽取往往得到更多的关注,有一些人甚至直接使用包装器来描述抽取程序。一个包装器通常执行一个模式匹配过程(如某种有限自动机),匹配过程的依据是一组抽取规则。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics