【环球新视野】3000万跳动的古籍字符 通过这个平台免费开放了
近日,由“北京大学-字节跳动数字人文开放实验室”研发的古籍数字化阅读平台“识典古籍”测试版正式上线。该平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。
在很多人的印象里,古籍文本往往艰涩难懂,而且接触机会不多。在数字时代,这种情况正在发生转变。借助现代技术对典籍进行数字化呈现,将卷帙浩繁的古代典籍“复活”,让那些尘封已久的字符重新跳动起来,成为每个人触手可及的工具与资料库。
近年来,OCR文字识别、AI句读和知识图谱等技术的快速发展让古籍数字化有了更多可能。一些科技公司与专业机构和科研院校合作,将技术优势与专业知识进行有效打通与融合,积累了较为成熟的技术和经验。
(资料图)
这些技术支撑起如今的“识典古籍”测试版,也成为更多古籍数字化的起点。未来三年内,“北京大学-字节跳动数字人文开放实验室”将陆续完成10000种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录。
“识典古籍”测试版网站首页 图/受访者提供
为什么古籍保护需要更开放?
古籍作为中华民族文化传承的重要渠道之一,记载了大量中华民族文化形态和发展历史。但由于朝代更迭、战争、自然灾害以及年代久远等原因,大量古籍已流失或毁坏。2007年,“中华古籍保护计划”开始实施,迄今已有15年。
经过全国古籍普查,每部古籍都拥有了一张“身份证”,研究人员还发现了包括《永乐大典》“湖”字册在内的一批珍贵文献。收藏环境方面,全国1000余家古籍收藏单位的库房条件有所改善,超过2000万册件古籍得到妥善保护。
古籍修复师在工作 图/受访者提供
而在2022年的当下,人们阅读古籍和查找资料的习惯和场景越来越多地转移到线上。同时,普通读者对于古籍的关注度也在不断上升。今年初,98岁的古籍版本目录学家沈燮元因为一部纪录片,受到广泛关注,在网络走红。
在抖音上,国家图书馆副馆长、国家古籍保护中心副主任张志清,国家图书馆古籍修复专家杜伟生、故宫书画修复专家沈洪彩等,通过短视频的形式介绍传统经典作品的保护与修复工作,让更多人了解到其中的知识和意义。
然而,古籍保护工作仍然任重道远。据“识典古籍”项目负责人介绍,目前亟需修复的古籍数量达到1000万册件。20万种古籍中,已有8万种完成影像数字化扫描,近4万种完成文本数字化。古籍修复人力成本很高,培养一名专业修复人员也需要极高的时间成本,而古籍数字化工作面临资金缺口大、技术难度高等困难。
在社会各界的努力下,一批数字化古籍平台涌现出来,包括中国哲学书电子化计划(Chinese Text Project)、书同文古籍数据库等等。这些平台有着各自的优势,但也有不同局限。书同文古籍数据库收费较高,普通读者无法随时随地查阅和使用。中国哲学书电子化计划目前囊括了超过三万部著作,但未能解决一个基本问题,用户常常无法访问。
在这样的背景下,更加开放的合作与探索开始出现。
开放合作下的新趋势
在文物保护与传承的过程中,文保机构、科研院校与科技公司的跨界合作越来越普遍,珍贵古籍、专业团队、先进技术由此得以融合。2018年,半导体公司英特尔与中国文物保护基金会合作,启动了利用3D建模与AI识别修复长城的项目。2021年3月,腾讯联合敦煌研究院开发了AI病害识别技术,用于壁画修复与保护。
2021年5月,阿里巴巴公益基金会联合四川大学、美国加州大学伯克利分校、中国国家图书馆等,推出“汉典重光”古籍平台,让一批珍藏于加州大学伯克利分校的中文古籍善本,以数字化的形式回归。该平台涵盖的古籍数量为20万页。
从2021年6月开始,字节跳动联合国家图书馆等机构、中国文物保护基金会等,在古籍修复、活化和数字化等领域开展了一系列合作,包括捐资1000万元,联合成立古籍保护专项基金等,定向修复百余册件珍贵古籍。
2022年3月17日,北京大学与字节跳动合作成立“北京大学-字节跳动数字人文开放实验室”,致力于研发开放的“古籍数字化平台”,将人工智能和大数据应用在海量的古籍文献上,实现对古籍内容的智能化整理和古文本知识图谱的自动生成。
近期上线的“识典古籍”平台测试版,便是这一合作的最新进展。据项目负责人介绍,该平台主要使用了三种技术,即文字识别、自动标点、命名实体识别。
“识典古籍”测试版页面 图/受访者提供
文字识别技术,是对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职等信息。目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。
同时,这些先进技术也离不开人的支持。北京大学数字人文研究中心主任王军表示,北大在这次合作中联合各大高校学者和文献专家,负责人工审核与校对,弥补人工智能有识别错误率的短板,并利用自有学术平台,连接更多专业研究者和学生群体。
该平台测试版已免费向所有用户开放,在数字化文本内容之外,提供足够权威的影印底本作为参照,同时提供主题词检索和繁简体转换功能,方便专业研究人员、古籍爱好者以更加高效便利的方式获取古籍内容。同时,“识典古籍”测试版也存在一些不足,比如典籍数量相对较少,标点错误率还需进一步改善。
接下来,“北京大学-字节跳动数字人文开放实验室”计划通过人工智能技术,实现全自动整理校对,借助全社会的力量,更高效地实现存量古籍全部数字化。同时,“识典古籍”还将向全社会开放古籍阅读检索研究能力,助力古籍文化传承和传统文化研究。