1. 制定背景
中央政府门户网站内容主要来源于国务院办公厅和地方政府网站、部门两站。中央政府门户网站获取各级政府及部门网站内容的形式主要有网上抓取、信息报送、网站链接和栏目共建等方式。其中网上抓取是中央政府门户网站从各级政府及部门网站获取信息的主要方式之一。
网上抓取所面临的问题是,各级政府及部门网站缺乏统一的内容格式规范,不利于采集工具自动抓取和分析信息,部分属性不易准确提取。为了更准确地采集和分析各级政府及部门网站信息,需要规范网站的页面内容格式。各级政府及部门网站按照统一要求经过规范化修改后,中央政府门户网站可以通过采集工具
实现准确的网上信息自动抓取。
同时,为了构建政府网站服务体系,实现政府网站群的联合检索功能,需要制定各级政府及部门网站检索系统的接口规范。
2 名词解释
服务系统:指各级政府及部门网站上提供的网上办事服务系统、网上申报服务系统、网上数据查询系统等网上应用服务系统。网上采集工具的目标不是把其中的数据内容进行采集,而是从网站群上自动发现这些服务系统,获取入口URL和相关描述信息,从而提供链接服务。
联合检索:在中央政府门户网站提供的联合检索功能指,系统能够将检索请求分发给各级政府及部门网站的站内检索系统,并将各网站站内检索系统的结果统一合并处理后返回给查询用户。这样,用户得到的检索结果是各级政府及部门网站检索结果的合集。
3 制定目标
为了实现各级政府及部门网站的网上信息抓取,制定政府网站的建设规范是关键环节。本规范围绕信息采集和网页分析功能,在保持现有网站建设模式、不增加信息通道的前提下,使符合规范的网站可被中央政府门户网站采集工具程序自动识别,实现网站和网页属性自动标引,最大限度减少人工介入。
本规范配合中央政府门户网站采集工具的功能,实现以下目标:
(1)收集并验证网站信息;
(2)准确收集各级政府及部门网站的政务信息;
(3)自动发现并登记网上服务系统;
(4)实现政府网站群联合检索;
(5)准确分析网页属性信息。
为实现上述目标,本规范制定了五方面条款,具体含义和作用说明如下:
1.网站信息:用于标注网站和栏目的信息,比如名称、行业、地区、栏目名称、分类等。通过对网站信息的标注,不但可以使采集程序获得网站的基本信息,更重要的是,可以把这些信息作为政府网站的检验标志之一,实现政府网站验证校对。
2.政务信息:指各级政府及部门网站发布的与政府业务相关的信息,包括但不限于机构信息、法律法规、规范性文件、办事指南等。政务信息是政府网站所发布的主要信息,在中央政府门户网站建设中,需要将各级政府及部门网站所发布的政务信息进行汇总、分类,提供导航、检索等服务。
3.服务系统:在中央政府门户网站建设中,需要提供网上服务系统的准确定位地址信息,方便公众通过中央政府门户网站查询并快速到达该服务系统的入口网页。
4.检索系统接口:许多政府网站提供站内内容检索服务。但是网站所采用的检索入口以及结果展示页面各不相同,需要统一检索系统接口,实现政府网站群的联合检索功能。
5.网页内容:网页中包含标题、正文、作者、发表日期、正文、来源等信息,但是如果没有格式规范,网页分析程序难以准确提取这些信息。通过制定统一的网页内容格式规范,可以实现网页内容的准确分析和提取。
实现规范的基本方法是,在网页HTML中,嵌入特定意义的标识信息,用于标注各项有意义的内容,这些嵌入的标识信息采用HTML的meta置标,在实现属性标注功能的同时,不影响网页的显示效果。
4 适用对象和范围
本规范适用于各级政府及部门网站的建设,包括国务院各部门网站,副省级以上地方政府网站。中央政府门户网站采集工具将全面支持本规范,实现对符合规范的政府网站的准确数据采集。
5 制定原理和原则
5.1 制定原理
构成网页的HTML文件逻辑上可以分为内容(Content)和页面展示(Style)两部分,内容部分包括网页的标题、日期、正文、作者等数据元素,它决定了网页所包含的信息;页面展示部分包括每个元素的位置、字体、大小、颜色等,它决定了网页在浏览器中的显示效果。HTML文件能够将内容和页面展示有机地结合为一体。
本规范的制定主要从网页内容标注入手,从内容层面对网页进行标注,而忽略页面展示层面。具体方法是,利用HTML文件的特性,在不影响网页展示效果的前提下,加入各类属性置标,规定网站发布内容必须包含的信息。例如,在网页中标注网站信息、栏目信息、标题、日期、作者、来源、服务系统等元数据内容,从根本上保证其它应用对该网页属性的准确识别和提取。
5.2 规范制定原则
各级政府及部门网站已经经历了多年的建设,花费了设计和管理维护人员的大量心血。为了尽量减少网站的改动,规范制定过程中充分考虑了各级政府及部门网站的实际特点和改造难度,提供可行的操作规范。
规范条款简单明了,贴近实际应用,提供明确的操作步骤,方便维护人员实施。
5.2.2 划分等级
为了使本规范具有更好的可行性,避免一刀切所带来的网站改造压力,采用了划分等级的方法,方便分阶段、分步骤实现对规范的支持。具体等级划分和含义如下:
● 1级:重要程度高,实现紧急度高。
● 2级:重要程度中,实现紧急度高。
● 3级:重要程度高,实现紧急度低。
5.3 条款描述方法
每项规范条款从以下方面给出描述:
编号:规范条款编号。
用途:给出规范条款的用途。
等级:给出规范条款的等级。
范围:给出规范条款的影响范围,范围的描述方法包括:
主页:指各级政府及部门网站的主页。
栏目:指各级政府及部门网站上的栏目页面。
内容页:指非主页、非栏目,包含政务信息等实际内容的网页。
各级网页:泛指各级政府及部门网站上的网页。
网页索引文件:为向网站外部提供站内网页信息而专门设置的XML索引文件,它包含网站所发布网页的索引信息。
服务系统主页:特指各个服务系统的入口网页。
系统接口:指系统可以提供某种形式的调用接口,实现请求的接收和执行结果的返回。
内容:给出具体的规范内容及标注方法。
5.4 其它说明
规范条款描述中使用“*”号来区分必标注项和可选标注项,带有“*”号的meta置标为必须标注项,不带“*”号的属性为可选项。
条款中涉及“地区”属性,应按照中国行政区划中的规范地名名称进行标注。省和市之间用半角“/”符号分隔,比如“山东省青岛市”应标注为“山东省/青岛市”。
条款中涉及“行业”、“分类”等属性,目前各单位可以自行填写(或者暂时省略不填),在中央政府门户网站制定统一的相关规范之后,再按统一规范执行。分类标注可以支持多级,类和类之间采用半角“/”分隔。
条款中有关“地区”、“分类”、“作者”等属性,均可以填写多值,多值之间采用半角分号“;”分隔。
当有多项条款需要作用在一个网页上时,把各项条款需要在网页上所作的标注内容进行简单累加即可。
为了满足政府网站将来发展的需要,本规范中网页置标的格式遵循XHTML规范,网页标签的元素和内容全部采用英文小写,并且网页标签闭合。
6 规范条款
6.1 网站信息规范
6.1.1 主页标注
编号:No.1
说明:在各级政府及部门网站的主页上给出网站名称、主页URL、行业、地域、分类等属性。
用途:该属性是网站的一项重要属性,用于标注网站的名称和属性。
等级:1。
范围:主页。
内容:在主页(一般为index.html/index.htm/index.asp/index.jsp等)HTML文件中,在<head>区域内用meta置标的方式给出网站名称、主页URL、行业、地区、分类。格式描述:
*<meta name="sitename"content="[网站名称]"/>
*<meta name="siteurl"content="[URL地址]"/>
<meta name="guild"content="[行业]"/>
*<meta name="district"content="[地区]"/>
<meta name="sitecatalog"content="[分类]"/>
其中,“网站名称”是指网站的正式名称。例如:
<meta name="sitename"content="中国农业信息网"/>
<meta name="siteurl"content="http://www.agri.gov.cn/"/>
<meta name="guild"content="农业"/>
<meta name="district"content="北京市"/>
<meta name="sitecatalog"content="农业"/>
6.1.2 栏目标注
编号:No.2
说明:在各级政府及部门网站的栏目页面上标注栏目属性。
用途:利用该标注可以获得网页所属的栏目信息。
等级:3。
范围:栏目。
内容:在栏目HTML文件中,在<head>区域内用meta置标的方式标注栏目名称。
格式描述:
*<meta name="channel"content="[栏目名称]"/>
*<meta name="chnlcatalog"content="[分类]"/>
例如:
<meta name="channel"content="三讲教育"/>
<meta name="chnlcatalog"content="政治/三讲教育"/>
6.2 政务信息规范
6.2.1 政务信息标注(1)
编号:No.3
说明:在各级政府及部门网站的主页上标注政务信息。
用途:对网站的政务信息进行标注。
等级:l。
范围:主页。
内容:在主页HTML文件中,用meta置标的方式,将包含政务信息的栏目列出,如果多个栏目中包含政务信息,则可以为每个栏目填写一个meta置标。格式描述:
*<meta name="serve"content="[栏目URL],[分类],[地区]"/>
其中,“分类”是指政务信息的分类属性,可以是法律法规、政策解释、办事指南等;“地区”是指政务信息的地域属性;属性之间用半角逗号“,”分隔。
例如:
<meta name="serve"content="http://www.beijing.gov.cn/fg/def
ault.htm,法律法规,北京市"/>
6.2.2 政务信息标注(2)
编号:No.4
说明:在网页中标注本网页为一条政务信息。
用途:用于对网站中政务信息网页进行标注。
等级:3。
范围:内容页。
内容:在内容页的HTML文件中,在<head>区域内用meta置标的方式标注政务信息。格式描述:
*<meta name="serve"content="[分类],[地区]"/>
其中,“分类”是指政务信息的分类属性,可以是法律法规、政策解释、办事指南等;“地区”是指政务信息的地域属性;属性之间用半角逗号“,”分隔。
例如:
<meta name="serve"content="法律法规,北京市"/>
6.3 服务系统规范
6.3.1 服务系统标注
编号:No.5
说明:在各级政府及部门网站的主页上给出所包含的服务系统信息。
用途:对于包含应用系统(比如“机动车违章查询系统”,“在线招投标系统”等)的网站,通过在主页上对这些服务系统的基本信息进行标注,即可实现这些服务系统被自动收集和整合的目的。
等级:1。
范围:主页。
内容:在主页的HTML文件中,在<head>区域内用meta置标的方式给出本网站服务系统的基本信息。如果一个网站有多个服务系统,则可以为每个应用填写一个meta置标。格式描述:
*<meta name="services"content="[网上服务名称],[服务入口URL],[分类],[地区]"/>
属性之间用半角逗号“,”分隔。例如:
<meta name="services"content="北京市公安局公安交通管理局车辆违法查询,http://www.bjjtgl.gov,cn,公安,北京市"/>
6.4 检索系统规范
6.4.1 检索系统接口
编号:No.6
说明:对各级政府及部门网站的站内检索服务提出规范化要求。
用途:用于实现政府网站群联合检索。
等级:2。
范围:系统接口。
内容:为了实现政府网站群的联合检索,对各级政府及部门网站目前的站内检索系统提出规范化要求。基本思想是,各网站实现一套统一的检索接口,包括能够接受统一格式要求的HTTP检索请求,并返回统一格式要求的检索结果页面。
(1)接收统一的HTTP检索请求:
站点检索系统能够接收以下格式提交的检索请求:
http://[hostname]/[程序名]?query=[检索条件]&page=[页码]&
count=[每页数目]&export=xml
其中,“程序名”、“检索条件”、“页码”、“每页数目”是可变参数,可由联合检索程序设置,分别表示调用的检索程序名、检索条件、取结果的页码编号、每页包含的网页数。
“检索条件”是gb18030(兼容gb2312和gbk)或utf-8两种编码之一;检索的词间关系支持“and”运算,使用半角空格分隔(比如“北京 美国”表示检索“中国”和“美国”同时出现的文章)。页码取值范围l—l0;每页数目取值范围10—20,一般取10或20,对于超出上述取值范围的请求,检索系统可以不支持。
联合检索应用程序会将经过URL编码的请求发送给站点检索系统。例如,检索词为“北京”的检索请求可能为:
http://www.xinhuanet.com/search?query=%B1%B1%BE%A9&page=l&count=20&export=xml
为了实现站点检索系统的安全调用,除了上述基本检索方式之外,系统还提供一种安全检索方式,对于对安全性有较高要求的网站,通过实现安全访问接口,达到安全访问的目的。
安全调用的基本思路是,中央政府门户网站的联合检索应用程序对检索请求进行加密处理,各级政府及部门网站的站内检索系统对检索请求进行解密,只有经过正确解密的请求才被认为是合法的检索请求,其它检索请求不被响应。这样可以屏蔽非法的检索请求,减轻系统的运行压力。
具体做法是,利用RSA加密算法生成一对钥匙——公钥和私钥,公钥由中央政府门户网站公开给各级政府及部门网站的站内检索系统使用,私钥在中央政府门户网站联合检索应用中使用。联合检索应用程序首先利用私钥对正常检索请求的URL串进行加密,形成一个加密的URL串,表现为:
http://[hostname]/[程序名]?search=[加密字符串]
其中,“加密字符串”为原表达式“query=[检索条件]&page
=[页码]&count=[每页数目]&export=xml”经过私钥加密后的字符串。
联合检索应用程序对上述加密URL进行URL编码后发送给各级政府及部门网站的站内检索系统。
站内检索系统接收到加密URL的检索请求后,首先进行URL解码,获得加密的URL串,然后进行认证——使用公钥对URL串进行解密,如果能够正确还原出“query=[检索条件]& page=[页码]&count=[每页数目]&export=xml”这样格式的字符串,则执行检索并返回检索结果,否则,认证失败,站内检索系统不执行检索操作。
转载:西安市人民政府网