******(******心)入选《国家古籍珍贵名录》******设项目招标项目的潜在供应商应在线上获取招标文件,并于***年06月04日 10时00分(北京时间)前递交投标文件。
包号:***
包组名称:入选《国家古籍珍贵名录》******设
************属行业:******业
通过对采购方入选《国家古籍珍贵名录》古籍,严格依据***年2******(******心)发布的《************设:古籍数字化和知识标引规范手册(暂行)》为标准,进行古籍数字化和知识标引,总加工量不少于16.8万筒子叶。中标人******数字化加工,******(******心)。
一、古籍图像数字化
1.1******指标
1.1.1 ******参数
以满足古籍数字图像长期保存要求为目的。长期保存级标准如表1所示。
1.1.2 ******级加工参数
******级标准,******************。其加工主要参数及要求如表 2 所示。
1.2 ******要求
(1)******图像清晰,数据文件叶码连续,没有重叶、缺叶,错叶、折叶等情况(原书缺叶、错叶除外)。******小尺寸一致,颜色接近。
(2)按1:1比例扫描,图书叶面外围要求留白,宽度不超过1厘米;书叶间距不超过0.1厘米。
(3)以原书的上边沿为基准,************心线,保持原文献的天头、地脚的尺寸不变,左右两边的尺寸基本不变。******于0.2度。
(4)原件表面有其他粘贴物件时,先将原件与粘贴物(即粘贴物覆盖于文献)一起扫描,然后将粘贴物掀开,再次扫描原件。
(5)古籍整理完毕后,需根据古籍实际透字状态确定有无必要添加衬纸。透字情况不很严重、不影响阅读的情况下,无需添加衬纸。必须注意的是,******成损坏。加垫衬纸前应先评估图书纸张厚度、纸张强度、折叶空隙等情况,选择适宜的衬纸。衬纸应保持整洁,出现污渍、褶皱时要及时更换。
(6)******幅面(如地图)分画幅扫描时,各扫描区域边缘必须留有 2厘米(含)以上的重复扫描区。
(7)******图像完整清晰,无扭曲、变形现象发生。数字图像文件用图形图像类软件检查清晰度(******至实际尺寸***%),确保图像不失真。
(8)******************正。******,当数字图像文件与古籍原件颜色不一致时,******正,******工作。
1.3******理要求
1.3.1 长期保存级(A)处理内容及要求
******理应在未改变原扫描图像色彩位数、分辨率、像素、格式等情况下进行。
(1)******理。******理,对方向不正确的图像进行旋转还原,以符合阅读习惯。
(2)图像剪裁。************。古籍原书与背景纸外边缘距离0.5~1厘米。
(3)******理,不能更改图像的颜色,******理。
1.3.2 ******级(D)处理内容及要求
1.3.2.1 格式转换
由长期保存级文件(A)******级(D)文件。在评估文献的纸张颜色、******小、版面、清晰度等因素基础上,将无损 TIFF 格式按 jpeg*** 压缩方法,选择适宜的压缩因子,******理后转换为 PDF 格式文件。
1.3.2.2 图像切分
(1)******理。******的古籍图像为双半叶 TIFF 文件,PDF文件须按半叶图像进行切分保存。切分图像分辨率不做任何改变,******线为切分线,******理为独立的页面。书脊右侧的半叶为页面 A,书脊左侧的半叶为页面B。切分后,包含古籍版框和文字的图像信息应完整无损,并按命名规则对切分文件进行命名。
(2)******理。古籍封面的TIFF文件带有色卡和标尺。******小一致,须对封面 PDF ******理,裁切后只保留古籍封面。
1.3.2.3 图像拼接
******幅面(如地图)******影像后,******理,即对PDF******理。拼接时对图像分辨率不做任何改变,拼接后图像与古籍的原貌基本一致,无重影,******无明显歪斜变形。按命名规则重新对拼接文件进行命名。
1.3.2.4 双层 PDF 输出
******理和 OCR 识别,采用图在文上的模式进行双层PDF输出。该文件是双层的,上层是原始图像,下层是识别结果。
PDF******有叶。根据图像尺寸、颜色、数据存储量,按JPEG*** 有损压缩,压缩因子适度动态调整,在确保图像清晰的情况下,******占空间至最小。
PDF******使用的字体以 ****** 方式嵌入 PDF 文件。
PDF单个文件存储容量不超过1MB。
PDF文件格式编码为1.5版本以上,兼容Adobe reader6.0 及以上版本。
二、古籍元数据著录
2.1古籍基本元数据
2.1.1 著录总则
2.1.1.1 著录对象
******分的著录对象为以古籍原件为来源的古籍数字资源,也包含古籍原件。
2.1.1.2 著录单位
古籍元数据的著录单位分为两个级别:(1)以每种古籍原件(或其对应的古籍数字资源)的每个藏本为基本著录单位。(2)以每种古籍原件的每个版印为基本著录单位。著录时可根据具体情况及需求选取著录单位的级别。
******说的种 ,既包括内容上能够独立存在的一组数字资源对象,也包括内容上不宜分割的一个数字资源对象。
2.1.1.3 著录用文字和数字
古籍著录应使用规范的繁体汉字。
题名 ******的卷数、 日期 ******的年号纪年应使用汉文数字著录;其他如数量、******元纪年等数字均用阿拉伯数字著录。
2.1.2 扩展原则
(1)******,如没有恰当的元素可供复用,允许自行扩展元素。
(2)自行扩展的元素不能和已有的元素有任何语义上的重复。
(3)扩展的修饰词必须遵循向上兼容的原则,即修饰词在语义上不能超出被修饰词(元素)的语义。
(4)新增加的元素和修饰词须优先采用 DCMI(Dublin Core Metadata Initiative ******元数据倡议)中的元素和修饰词,******的元素和修饰词。
(5)新增元素如果复用来自其他元数据标准的元素和修饰词,必须说明来源,使用时严格遵循其语义。
2.1.3 著录项目
需要著录的古籍基本元数据共有17个元素,详见表3 古籍基本元数据著录项目列表。
2.1.4 元数据描述
******分通过名称、******、标签、定义、注释、术语类型、限定、元素修饰词、 编码体系应用于、编码体系修饰词、必备性、可重复性 12 个属性及说明项目对表 3 古籍基本元数据进行描述,各元素及修饰词著录细则见《手册》附录 A。
2.2结构数据
******分标引对象为整理后的 PDF文件目录结构,包括品种层、子目层(有则必备)、册目录、册内文件数量。
2.2.1 标引规则
(1)准确记录古籍原书各册信息,以及各册与古籍图像的对应关系。
(2)古籍数字资源按子目拆分或者合订拆分时,按实际拆分结果,记录古籍书册信息,以及与古籍图像的对应关系。
2.2.2 标引项目
古籍分册保存目录结构的标引项目及属性如表 4所示。
2.2.3 标引项目说明
(1)加工记录标识号
古籍数字资源的加工唯一标识号,作用于古籍元数据和对象数据的关联。应填写正确,以免链接错误。
(2)******序号
******顺序号。数据类型为数字型,每条记录从1开始编号。
(3)册名称
古籍册次名称,自拟每册名称。名称包含册顺序号,并用括号括注该册古籍的起讫卷次信息,如第一册(卷首上、卷首下) 第二册(卷一至二) 。
(4)册号
古籍图像文件按册 保存的文件目录名称,数据类型为数字型,为4位阿拉伯数字,如*** *** 等。
(5)册内文件数
******图像文件的数量。数据类型为数字型,用阿拉伯数字表示。
2.3卷目和篇名数据
******分标引对象为整理后的 PDF各级目录和文件。
2.3.1标引规则
(1)******古籍数字资源的分卷和篇名信息。如果加工的古籍是丛书,应先将丛书拆分为子目,再对每个子目做卷目篇名数据。
(2)******应做到准确、客观。
准确性要求:标引词(******的卷号、卷名、篇名)与标引对象(图像文件的文件名)指向正确。******难以确定的文字可以结合与该字相配的词组,分析比较词意,取用表意准确的字进行标引。难以确定或使用现有字库无法录入的文字,可选择描述的方式,具体参见《汉语文古籍机读目录格式使用手册》中***字段系统外字附注的相关规定。
客观性要求:客观性是指标引词必须来源于古籍文献,不加入标引人员的看法和观点。目录类名与正文类名不一致时,以正文为准。卷名、篇名、篇作者等信息一律取自正文,原书目录(总目、分卷目等)作为参考。
(3)古籍原书有目录,******的分卷分篇层级进行标引。******古籍第一条记录取自古籍基本元数据 的题名项。第二条起按古籍原书实际内容顺序客观标引。
(4)古籍原书无目录,但有卷级信息,按书内正文客观标引;古籍原书无目录,且无卷级信息,第一条标引记录取自古籍基本元数据 的题名项;第二条标引题名项+正文。这里的正文两字直接录入,用于提示读者开始阅读正文,指向正文卷端首叶位置。
2.3.2 标引项目
古籍分卷、篇名、责任者的标引项目及属性如表 5 所示。
2.3.3 标引项目说明
(1)加工记录标识号
古籍数字资源的加工唯一标识号,作用于古籍元数据和对象数据的关联,应填写正确,以免链接错误。******古籍的加工记录标识号是一个号,各种数据类型在使用加工记录标识号时应保持一致。
(2)******序号
************顺序号。每个加工记录标识号下的标引记录从1 开始编号。
(3)层级号
表示一个加工记录标识号下的各级卷目篇目之间的层级关系。书名为1级, 卷目层级为2级。同一级别卷目,属于并列关系,可重复使用层级号 。卷内为包含关系的层级,从2级起,按序号递加方式标引。
层级号 卷名篇名
1 增補傷寒六書
2 陶節庵伤寒六書序
2 新刻陶節菴家藏秘授傷寒六書卷之一
3 傷寒鎖言
4 辯張仲景傷寒論
4 ******略
4 傷寒言證不言病
4 厥分寒熱辯
(4)卷名篇名
古籍总目、分卷目、******的分卷名称和卷内篇目名称,包括卷号、卷名和篇名。
标引是按照层级填写加工古籍的卷名篇名信息。如果古籍原书有目录,******的分卷分篇层级进行标引。若古籍原书无目录,卷名篇名信息一律取自原书正文。******的卷名、篇名、篇作者与正文不一致时,以正文为准。******古籍标引的第1级,填写该书古籍基本元数据的题名 项,即题名卷数。
******加工古籍的第2级,根据书内实际情况标引。如果正文前后有序、跋、目录等内容,若单独成卷,则单独列出,如首一卷 末一卷 目録二卷等;若未单独成卷,则依次逐一标引。************题标引。如果原书有相应名称,则卷名客观原样标引;如果原书无相应名称,则只标引卷次。
******小题,即既有书名卷次信息,又有卷名,******小题之间用1个汉字空格间隔,如漢書一 高紀第一上 漢書一 高紀第一下 漢書二 惠紀第二等。
如果原书卷端有编号(如道藏、大藏经的千字文帙号),也可以一起标引,与前面的卷名篇名之间用1个汉字空格间隔,如進鬻子表 顛一 鬻子卷下顛二。
******加工古籍的第3级,根据书内实际情况标引卷内篇名信息。有的内容并非篇名,但有助于读者定位阅读,也可以列出。
******古籍有多卷,******部分卷有1个篇名,部分卷有多个篇名,则统一将篇名作为卷的下一层级,保持全书的层级一致。如果仅存一卷且仅有1个篇名,可以将卷名、篇名写在一起,中间用1个汉字空格间隔,作为同一层级。
(5)责任者
即古籍总目、分卷目、******的分卷和卷内篇名的作者。有多名作者的客观标引。
著录序、跋及篇名对应的责任者,格式为(朝代/国别)责任者姓名, 如(宋)程頤 。如果责任者有多个,责任者之间用逗号间隔,如(唐)韓愈,(宋)陸佃。******题跋的责任者,************著录,在这里做相同标引。
(6)册号
古籍图像文件按册保存的文件目录名称,数据类型为数字型,为4位阿拉伯数字,如*** ***等。******在册文件目录名称。
(7)叶码
******在册号目录内的文件名称,******理,************的流水号,用于补齐位数0不用填写。如:PDF 格式半叶文件,填写实际数字和字母, 2A 2B等。
2.4******理
******分标引对象为整理后的 PDF各级目录和文件。
2.4.1 标引规则
古籍的外字信息,每个外字填写一行。
2.4.2 标引项目
************理项目,如表6所示。
2.4.3 标引项目说明
(1)加工记录标识号
古籍数字资源的加工唯一标识号,与该书古籍基本元数据的加工记录标识号一致,作用于古籍基本元数据和对象数据的关联。应填写正确,以免链接错误。
(2)******序号
******顺序号。数据类型为数字型,每条记录从1开始编号。
(3)外字
******分。具体可参见《汉语文古籍机读目录格式使用手册》中***字段系统外字附注的外字描述方法进行描述。
(4)描述
补充说明该字字形及拼音等信息,如淘-氵,表示淘字去掉左边三点水、澄(氵→ 扌) 表示澄字左边三点水更换为提手旁,等等。
(5)位置
************书的册号和图像文件位置。册号、叶码之间以 间隔,如***A (表示在第1册第18叶A面)。
三、古籍全文文本转换
3.1 文本数据转换
文本资源是以字符、符号、词、短语、段落、句子或者其他字符排列形成的数据,用于表达意义,基本上来自用户使用的自然语言或者人工语言的知识内容。
文本资源可以有一定的逻辑结构。******古籍的信息可以由题名、前序、卷、篇、后序等组织而成。
文本数据分为结构化数据和非结构化数据。本手册采用非结构化文本数据制作,按照古籍文本内容的逻辑顺序进行录入,强调字符、数字和各种可打印符号的准确性和完整性,可以忽略版式信息,如分栏的文本以单元格或栏目顺序为单位进行录入,而不是逐行录入。
正文、注释、小注等区分。******、小字,将单行或双行小字, 在文本文件的对应位置用括号() 标识,将文字内容放在括号里。
正确划分文本段落。每个段落用 回行 ******理。
不需转换的空白页。为保持古籍内容完整性和页面连贯性,******空白页,并按照命名规则正确命名,内容标注为 [=此叶为空白叶页 =]
地图、******理。******地图、表格无需识别转换,在文本文件的对应位置用方括号 [ ] 做内容标注。如 [=******为地图=] 或 [=******为表格=] 。
因古籍图书的残缺、断版,文字漫漶不清等情况,造成文本数据转换困难时,可在文本文件对于应位置用方括号 [ ] 做出标注。如 [=******版面残缺=] [=******文字模糊=] 。
由图像文件逐页进行文本转换,生成单版 TXT 文件,文件名与对应图像文件名一致。
3.2 ******量要求
******量应达到以下要求:
(1)文本数据具备唯一标识符。
(2)文本数据内容应忠实于原典文献,完整有序。
(3)元数据著录项目完整,著录信息准确。
(4)******理。************无法显示的汉字,用符号〓 表示缺字,************外字表 ,详细填写该字的描述信息。
******编《汉语文古籍机读目录格式使用手册》中*** 字段系统外字附注等相关说明。
(5)文本数据与基本元数据、结构数据、标引数据、说明文件等各类数据,具有关联关系且著录无误。
(6)使用 UTF-8 编码方式、Unicode5.0 ******。文件格式与字符编码无误。
(7)文本数据的字符、符号等信息的综合错误率不超过 1‰。
四、数据命名规则
4.1 加工记录标识号
4.1.1 按古籍品种分配加工记录标识号
************古籍的唯一标识号。一般情況下,******古籍图书目录结构分为2层,包括函文件夹和册文件夹。函文件夹用加工记录标识号来命名,册文件夹用册次流水号来命名。古籍叶文件保存在册文件夹下。
当古籍是合函合订情况时,先按版本进行拆分,再为不同版本分配加工记录标识号。
加工记录标识号共15位数字,由4段组成:机构代码-资源类型-******设年-品种加工流水号,记录标识号各段之间不加任何连接符。具体如下:
机构代码:4 位。******************机构代码。
资源类型代码:3 位。
同《************设指南:资源类型代码表》
古籍资源代码为 ***。
******设年:4 位。
品种加工流水号:4 位
【示例】
4.1.2 按古籍丛书分配加工记录标识号
同古籍品种分配加工记录标识号 分配规则
【示例】
4.1.3 按子目分配加工记录标识号
为更好的表达古籍丛书和子目的关系,在丛书古籍加工记录标识号 15 位的基础上增加子目加工流水号。
子目加工记录标识号由5段组成:机构代码-资源类型-******设年-品种加工流水号-子目加工流水号,记录标识号各段之间不加任何连接符。具体如下:
机构代码:4 位。******(******心)统一分配。
资源类型代码:3 位
参见《************设指南:资源类型代码表》
古籍资源代码为 ***
******设年:4 位
品种加工流水号:4 位。
子目加工流水号:4 位
【示例】
4.2 文件目录命名
4.2.1 单本古籍
数据保存目录由两个层级结构组成:
第一级目录名称为加工记录标识号。
第二级目录名称为古籍册次。******古籍有多册实体,每一册命名为4位数字,从***开始,依次按流水号命名。
说明:存储结构适用于 TIFF 格式和 PDF 格式的文件目录。
详见【示例】御製圓明園詩 (清刻本) 4 冊國家圖書館藏
4.2.2 丛书古籍
(1)丛书款目文件目录
数据保存目录由两个层级结构组成:
第一级目录名称为丛书加工记录标识号。
第二级目录名称为古籍册次。******古籍有多册实体,每一册命名为 4 位数字,从***开始,依次按流水号命名。
说明:此存储结构只适用 TIFF 格式的文件目录。
详见【示例】二十四史三千二百五十卷(清乾隆武英殿本)*** 冊國家圖書館藏
(2)丛书子目文件目录
数据保存目录由三个层级结构组成:
第一级目录名称为丛书加工记录标识号。
第二级目录名称为子目记录加工标识号,即丛书加工记录标识号+4位子目顺序流水号。
第三级目录名称为子目册次。子目对应实体古籍的册次,每一册命名为4位数字,从***开始,依次按流水号命名。
当子目跨册时应进行数据拆分,先给子目加工记录标识号,然后从 *********立册次文件目录。
比如,第4种子目存于古籍第二册和第三册,拆分后文件保存两个目录,分别是:丛书加工标识号+ ***、丛书加工标识号+***;第5种子目也存于古籍第三册,拆分后文件目录是:丛书加工标识号+ ***。
说明:此存储结构只适用 PDF 格式的文件目录。
【示例】二十四史三千二百五十卷(清乾隆武英殿本)國家圖書館藏 包含 24 部子目:(1)史記一百三十卷;(2)前漢書一百卷;(3)後漢書九十卷;(4)三國志六十五卷;(5)晉書一百三十卷;(6)宋書一百卷;(7)南齊書五十九卷;(8)梁書五十六卷;(9)陳書三十六卷;(10)魏書一百十四卷;(11)北齊書五十卷;(12)周書五十卷;(13)南史八十卷;(14)北史一百卷;(15) 隋書八十五卷;(16)舊唐書二百卷;(17)唐書二百二十五卷;(18)舊五代史一百五十卷;(19)五代史七十四卷;(20)宋史四百九十六卷目錄三卷;(21)遼史一百十六卷;(22)金史一百三十五卷;(23)元史二百十卷目錄二卷;(24)明史三百三十二卷目錄四卷
******,第 24 部子目《明史三百三十二卷目錄四卷》有 *** 册
4.3 文件命名
4.3.1 长期保存级
古籍原件,以册为单位进行数字化,从古籍封面、前护、正文、后护、封底等依次加工。古籍原件的扫描,页面类型可选择筒子叶、双半叶方式,也可选择半叶方式。选择不同的页面类型,文件命名规则不同。
4.3.1.1 双半叶或筒子叶
古籍每一叶 (TIFF 格式)文件名由4位数字组成,文件命名从***开始,后以流水号递加顺序命名文件。
4.3.1.2半叶
图像 (TIFF格式)文件名为4位数字+1******写字母
******4位数字,从***开始,古籍封面命名为***,后以流水号方式以递加顺序命名文件;大写字母,古籍书脊右侧的半叶命名为A, 书脊左侧的半叶命名为B。
4.3.2 ******理
古籍原件有粘贴物、浮签、夹条等,******理。扫描时先将粘贴物平铺于当前拍(即粘贴物覆盖于古籍文献)扫描一拍,然后将粘贴物掀开,再次扫描当前拍。掀开粘贴物不得改变原固定方式。
******理的图像文件命名:
(1)双半叶或筒子叶
4位数字 + 1位小写字母
******,数字为原件内容的顺序流水号;小写字母,从 a 开始,顺序命名。
(2)半叶
4位数字 + 1位小写字母 + 1******写字母
******,数字为原件内容的顺序流水号;小写字母,从 a 开始,顺序命名;大写字母为古籍半叶命名。
4.3.3 ******级
4.3.3.1 半叶 PDF ******理
对古籍双半叶图像进行切分。******线为切分线,将古籍图像原有叶面切分为两个独立的古籍图像。书脊右侧的半叶命名为 A,书脊左侧的半叶命名为 B。
半叶文件名由4位数字+1 位字母组成,******分从 *** 开始,按流水号方式递加顺序命名文件。
以古籍双半叶图像为例,图像切分后的文件顺序,古籍封面为 ***.pdf,第二拍图像切分后命名为 ***A.pdf、***B.pdf,第三拍图像切分后命名为 ***A.pdf、***B.pdf,古籍封底命名不变,文件名后缀为 pdf。
4.3.3.2 ****** PDF ******理
文件名命名不变,与TIFF文件相同,参见 4.3.1.2 半叶的命名方式。后缀为 pdf。比如古籍第 6 叶 A 面为 ***A.tif,转换后为 ***A.pdf。
4.3.4 全文文本
全本文本(TXT格式)******级(PDF格式)文件命名应保持一致,即PDF文件名不变,后缀为txt。比如半叶 PDF 文件名为***A.pdf,全文文本文件命名为***A.txt。
4.3.5 XML文件
******书有一个XML文件。******古籍加工记录标识号来命名。比如加工编号为XXXX***,XML文件命名为 XXXX***.xml。
五、数据存储结构
5.1 保存结构和内容
(1)******示
一级目录:加工记录标识号
二级目录:metadata
object
information
三级目录:对象数据。在Object******立三个子目录,即TIFF、PDF、TXT
四级目录:******立的册目录
图: 单本古籍数据保存结构示意图
(2)******示
一级目录:丛书加工记录标识号
二级目录:metadata
object
information
三级目录:对象数据。 在Object ******立三个子目录,即TIFF、PDF、TXT
四级目录:子目加工记录标识号
五级目录:******立的册目录
图 丛书古籍数据保存结构示意图
5.2 元数据
元数据以 metadata 命名目录。
XML封装文件和文献整理登记表、古籍外字表的 Excel 文件存储路径为:根目录加工记录标识号metadata
注:XML 封装文件按照命名规则保存。
******文命名保存。
5.3 对象数据
对象数据以object命名目录。
TIFF文件、PDF文件、TXT文件存储路径分别为:
根目录加工记录标识号objectIFF册次
根目录加工记录标识号objectPDF册次
根目录加工记录标识号objectPDF子目记录加工标识号册次
根目录加工记录标识号objectXT册次
根目录加工记录标识号objectXT子目记录加工标识号册次
5.4说明文件
项目总体说明以information命名目录。
项目总体说明文件表存储路径为:根目录information
六、质量要求
6.1 元数据著录和标引要求
(1)遵照 XML1.0规范,使用UTF-8编码方式、Unicode5.0******。
(2)著录信息应严格按照文献实际内容进行客观著录,标引词与标引对象文件应正确链接,确保实用性。卷目篇目层级正确,链接正确。文字错误率不超过 0.3‰。
6.2******量要求
6.2.1 检查项目
(1)将图像文件(各种格式)******到1:1状态,逐叶检查清晰度、明亮度、色彩还原度,以及图像内容的完整性和准确性。检查事项包括但不限于图像透光、彩点、彩线、黑边、污点、歪斜、模糊(马赛克等);图像有压字、折角、异物、透字、漏字、夹框、夹字和图像倾斜、扭曲变形、图像裁切过度等情况。
(2)图像文件有无缺叶、倒叶,文件命名漏号、重号、错号等不规范现象。
(3)检查书叶图像的完整度。发现文件漏扫时应及时补扫并在正确位置插入图像文件。
(4)检查图像叶码是否连续,不得跳叶。
(5)加工数据以文献册次为单位,检查对应的各类标引数据是否齐全,链接准确。
(6)检查扫描(拍照)******技术指标。
(7)检查双层 PDF 文件的图像层和文字层的文字对位准确。
(8)按照命名规则,检查目录、文件、数据库、文档、******等名称是否正确。
(9)检查各类说明、******、验收等文档是否齐全。
(10)******有文件保存位置正确,可以有效打开和显示。
6.2.2质量标准
(1)图像完整性***%正确。不能丢失、错位。
(2)图像歪斜、压缩转换等综合错误率不超过1‰。
(3)双层PDF文件的图像层和文字层的文字对位准确,反显区域与文字区域相差1毫米以内。
(4)双层 PDF 文件与TXT文件的文字内容保持一致,文字错误率不超过1‰。
6.3 ******量要求
(1)文本数据的文字、版式、符号、段落顺序等,其字符综合错误率不超过1‰。
(2)******级 PDF 文件一一对应,叶面连续,不得跳号,不丢失文件。错误率为 0。
七、成果要求
7.1 数据内容
7.1.1 XML 文件
XML文件内容包括古籍基本元数据、结构数据、卷目篇名。
7.1.2 对象数据
长期保存级、******级数据,包括:
TIFF格式文件
PDF格式文件
TXT格式文件
7.1.3 文献整理登记表和外字表
文献整理登记表和外字表用 EXCEL表填写。
文献整理登记表内容包括:名录号、普查编号、索书号、题名、册数、总叶数、开本尺寸、透字、夹框、夹字、皱折、缺残叶、重叶、签条、夹纸、登记人员、登记日期、备注。
外字表的内容包括:加工记录标识号、******序号、外字、描述、位置。
7.1.4 说明文件
项目总体说明文件用 EXCEL 表填写。
填写内容包括:
******设年、单位名称;
记录标识号、题名、TIFF 格式文件数量、PDF格式文件数量、TXT 格式文件数量、******分辨率/拍照像素;
备注(需要特别说明的事项)
7.2 数据标准
(1)送检数据有效,与《数据说明文件》内容和数量一致,不夹杂无关文件。
(2)著录、标引文字、符号,标引位置等信息准确,综合错误率不超过0.3‰。
(3)双层 PDF、全文文本文件的内容编码、文字识别等,综合错误率不超过1‰。
(4)******方式、技术指标、文件格式、文件命名、******理等综合错误率不超过1‰。
(5)******古籍图像完整,无缺失;数据类型和文件结构符合规范要求,且无坏死文件、不携带病毒,错误率为0。
(6)达到标准的数据视为合格,在规定错误率范围内检查出的数据问题由资源提交单位进行修正;超出错误率、******数据进行整改、******理。
八、******备
供应商需提供不小于20T******备,满足本项目数据提交。
表1 古籍数字图像长期保存级标准
资源级别 | ******方式 | 技术规格 | |
长期保存级 (A) | 古籍原件 扫描(拍照) | 色彩位深 | RGB 24位 |
扫描分辨率 | *** DPI | ||
数字拍照 | ***万像素 | ||
保存格式 | TIFF(LZW) | ||
色调再现 | ICC配置文件 |
说明:若古籍的字体特别小,如小于4号字体,******分辨率。
表2 ******级标准
资源 级别 | 主要参数 | 说明 | |||
分辨率 | 色彩 位深 | 格式 | 文件 大小 | ||
******级别(D) | ******分辨率保持不变 | RGB 24位 | | ***KB ~ 1MB | 原有分辨率即本手册规定的 ******参数。 通过 JPEG*** ******理 和 OCR 识别,******对生 成。建议单个文件存储量不 大于 1MB。 |
表3 古籍基本元数据著录项目列表
元素 | 元素修饰词 | 编码体系修饰词 | 属性 |
标识符 | | | 必备,不可重复 |
加工记录标识号 | | 必备,不可重复 | |
国家珍贵古籍名录号 | | 有则必备,不可重复 | |
省级珍贵古籍名录号 | | 有则必备,不可重复 | |
古籍普查登记号 | | 有则必备,不可重复 | |
中国古籍善本书目号 | | 有则必备,不可重复 | |
书目记录标识号 | | 有则必备,不可重复 | |
题名 | | | 必备,可重复 |
并列题名 | | 有则必备,可重复 | |
其他题名 | | 有则必备,可重复 | |
主要责任者 | | | 有则必备,可重复 |
责任者说明 | | 有则必备,可重复 | |
责任方式 | | 有则必备,可重复 | |
其他责任者 | | | 有则必备,可重复 |
责任者说明 | | 有则必备,可重复 | |
责任方式 | | 有则必备,可重复 | |
版本类型 | | | 必备,不可重复 |
出版者 | | | 有则必备,可重复 |
出版地 | | 有则必备,可重复 | |
出版方式 | | 有则必备,可重复 | |
印刷者 | | 有则必备,不可重复 | |
印刷地 | | 有则必备,不可重复 | |
印刷方式 | | 有则必备,不可重复 | |
日期 | | | 有则必备,可重复 |
| 公元纪年 | 有则必备,可重复 | |
| 年号纪年 | 有则必备,可重复 | |
出版日期 | | 有则必备,可重复 |
元素 | 元素修饰词 | 编码体系修 饰词 | 属性 |
| 印刷日期 | | 有则必备,不可重复 |
载体形态 | | | 必备,可重复 |
装帧形式 | | 必备,可重复 | |
数量 | | 必备,不可重复 | |
开本尺寸 | | 可选,可重复 | |
图表 | | 可选,可重复 | |
附件 | | 可选,可重复 | |
附注 | | | 有则必备,可重复 |
版本描述 | | 有则必备,不可重复 | |
责任者附注 | | 可选,可重复 | |
残存附注 | | 有则必备,不可重复 | |
缺字附注 | | 可选,可重复 | |
丛书附注 | | 有则必备,不可重复 | |
合订附注 | | 有则必备,不可重复 | |
版框尺寸 | | 可选,可重复 | |
版式 | | 可选,可重复 | |
提要 | | 可选,可重复 | |
收藏历史 | | | 可选,可重复 |
******题跋者 | | 有则必备,可重复 | |
******题跋者说明 | | 有则必备,可重复 | |
******题跋方式 | | 有则必备,可重复 | |
文献保护 | | | 可选,可重复 |
文物级别 | | 可选,不可重复 | |
破损级别 | | 可选,不可重复 | |
馆藏信息 | | | 有则必备,可重复 |
收藏单位 | | 必备,不可重复 | |
索书号 | | 有则必备,可重复 | |
相关资源 | | | 可选,可重复 |
元素 | 元素修饰词 | 编码体系修 饰词 | 属性 |
| 丛书题名 | | 有则必备,不可重复 |
丛书链接 | | 有则必备,不可重复 | |
子目题名 | | 有则必备,可重复 | |
子目链接 | | 有则必备,可重复 | |
合订题名 | | 有则必备,可重复 | |
合订链接 | | 有则必备,可重复 | |
主题 | | | 可选,可重复 |
| 中国分类主 题 词 表 (CCT) | 可选,可重复 | |
| ******分类法 (FDC) | 可选,可重复 | |
语种 | | | 必备,可重复 |
权限 | | | 有则必备,可重复 |
文献类型 | | | 必备,可重复 |
表 4 古籍结构数据标引项目列表
序号 | 项目 | 属性 |
1 | 加工记录标识号 | 必备,不可重复 |
2 | ******序号 | 必备,不可重复 |
3 | 册名称 | 必备,不可重复 |
4 | 册号 | 必备,可重复 |
5 | 册内文件数 | 必备,可重复 |
表 5 古籍卷目篇名数据标引项目列表
序号 | 项目 | 属性 |
1 | 加工记录标识号 | 必备,不可重复 |
2 | ******序号 | 必备,不可重复 |
3 | 层级号 | 必备,可重复 |
4 | 卷名篇名 | 必备,可重复 |
5 | 责任者 | 有则必备,可重复 |
6 | 册号 | 必备,可重复 |
7 | 叶码 | 必备,可重复 |
表 6 古籍外字表标引项目列表
序号 | 项目 | 属性 |
1 | 加工记录标识号 | 必备,不可重复 |
2 | ******序号 | 必备,不可重复 |
3 | 外字 | 必备,可重复 |
4 | 描述 | 必备,可重复 |
5 | 位置 | 必备,可重复 |
4.2.1 单本古籍
【示例】御製圓明園詩 (清刻本) 4 冊國家圖書館藏
*** ........................ 一级目录 0 0 0 1 ............ 二级目录 0 0 0 2 0 0 0 3 0 0 0 4 |
4.2.2丛书古籍 (1)丛书款目文件目录 【示例】二十四史三千二百五十卷(清乾隆武英殿本)*** 冊國家圖書館藏
*** 2 ........................ 一级目录 0 0 0 1 ............. 二级目录 0 0 0 2 0 0 0 3 ...... 0 7 1 1 |
4.2.2丛书古籍 (2)丛书子目文件目录 【示例】二十四史三千二百五十卷(清乾隆武英殿本)國家圖書館藏 包含 24 部子目:(1)史記一百三十卷;(2)前漢書一百卷;(3)後漢書九十卷;(4)三國志六十五卷;(5)晉書一百三十卷;(6)宋書一百卷;(7)南齊書五十九卷;(8)梁書五十六卷;(9)陳書三十六卷;(10)魏書一百十四卷;(11)北齊書五十卷;(12)周書五十卷;(13)南史八十卷;(14)北史一百卷;(15) 隋書八十五卷;(16)舊唐書二百卷;(17)唐書二百二十五卷;(18)舊五代史一百五十卷;(19)五代史七十四卷;(20)宋史四百九十六卷目錄三卷;(21)遼史一百十六卷;(22)金史一百三十五卷;(23)元史二百十卷目錄二卷;(24)明史三百三十二卷目錄四卷
******,第 24 部子目《明史三百三十二卷目錄四卷》有 *** 册
*** ................................................. 一级目录 *** .......................... 二级目录 . . . . . . *** ***................ 三级目录 *** ...... *** |
(2)现场或远程完成投标文件解密。现场解密的,请供应商携带CA、******备(******办CA的插件)。
- 上一篇: 辽宁省检验检测认证中心器检院购置医疗器械可用性测试设备等1台套设备招标公告
- 下一篇: 暂无
更多内容请下载保标APP


