查看原文
其他

当期荐读 2020年第5期 | 知识诸宝是求: 青年学者笔谈(四)

图书情报知识 图书情报知识 2021-03-13

当图情“爱”上大数据



化柏林

( 北京大学信息管理系,北京,100871)


01


图书情报与大数据的“共同语言”

图书情报历来注重数据基础,以论文、专利、科技报告、网页等非结构化文本数据为主,属于典型的数据密集型学科。大数据产生于数据驱动的科学第四范式,具有数据规模大、数据来源多样、结构各异、处理速度快、价值密度低等特点。图书情报领域的数据本身也有这些特点。近年来公共文化云等数字服务平台以视频数据为主、并发用户数多、实时数据增长迅速等特点使得该领域与搜索引擎、电子商务等领域的大数据有着越来越多的共性。


大数据起源于搜索领域,之后在电子商务、社交媒体等领域得到快速推广与成功应用。搜索引擎主要解决信息与用户之间的连接问题,核心技术之一倒排文档索引就是来源于图情的信息检索领域,Page Rank的计算也是借鉴了参考文献与引用文献的思想。而后来的分布式文件系统、Map Reduce计算、深度学习等新技术使得大规模数据快速计算可以很好地应对业务模式与用户需求。


信息检索、信息组织、信息分析、参考咨询服务与决策支撑既是图书馆与情报的专业基础与学科核心,也是图情领域业务实践的关键环节。数据挖掘与大数据以数据采集、数据清洗、分析挖掘、模式评估、结果解读与展现为核心流程。 


图书情报通过统计分析、科学计量分析、分类聚类等方法进行分析挖掘、发现知识、凝练情报。大数据主要运用回归、分类、聚类、关联规则等数据挖掘方法以及以深度神经网络为代表的深度学习算法。图书情报领域随着数据的累积,也迫切需要这些方法的引入、移植改进与应用。


图书馆由资源为中心转向以用户为中心,服务于广大信息用户,全面做好用户服务工作。情报的主旨是“在准确的时间、以合适的方式、把准确的内容传递给正确的人”。大数据运用用户画像等方法实现个性化精准推荐,也是“以用户为中心”的典范,目前多数研究均是数据驱动的“用户为中心”。 


大数据分析与情报分析都是以信息和数据作为基础资源及研究对象,并对信息和数据进行有效地组织管理、分析挖掘,从而为用户提供相关服务。从数据基础、技术实现、分析方法、分析流程、服务应用等各个方面来看,图书情报与大数据有着太多的“共同语言”。


02


图书情报与大数据的“姻缘巧合”

20世纪末的20年,信息检索是图书情报的重要阵地,21世纪初的20年,科学计量与评价成为图书情报领域的重要研究内容,各类科学引文索引广泛应用于文献溯源、科学评价、人才引进等。可以说,信息检索与计量评价既扮演了学科发展过程中的“关键先生”,也是图情领域向其他学科领域进行输出服务的重要体现。进入新的时代,需要探寻学科新的输出点,找到这个点、挖掘好并充分放大。 


图书馆与情报的核心任务都是以数据、信息为主线,数据、信息、知识、情报这些概念之间的关系探讨一直是图书情报的热点话题,这些资源的序化、转化与融合覆盖了图书情报领域的主要任务与热点分布。大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和,可以看出,大数据也不简单地是数据量与技术算法的问题,同样也需要吸收相关学科的理念与方法,而图书情报领域恰好有这方面的优势。 


在大数据分析盛行的时代,如何将情报分析的“广快精准、去粗取精、去伪存真、见微知著”等理念与大数据分析的“倾向于全体数据而不是抽样数据、注重相关性分析而不是因果分析、追求效率而不是绝对精确”的分析理念有效结合起来,将情报分析的信息敏感性与面向大数据的深度学习算法有效结合起来,行成一套支持全景扫描、面向行业洞察的分析方法,将成为大数据与图情领域深度融合的着力点。


03


图情大数据的“点滴行动”

武汉大学率先成立了信息管理学院牵头的大数据研究院,由马费成教授担任院长,成为推动全校人文社会学科进行研究、开发、学习、交流、运用大数据的平台与阵地,起到了很好的带头与示范效应,之后南京大学等高校也借鉴这种方式成立了相应的大数据研究院。在学科建设方面,北京大学信息管理系、华中师范大学信息管理学院等信管院系已开办大数据管理与应用专业,专门在信管院系培养具备懂数据、管数据、用数据、研究数据等能力的复合型人才。 


在行业实践方面,中国科学技术信息研究所建有国家科技管理信息系统与决策剧场等,中科院文献情报中心建立了“慧科研”等智能知识服务平台,军事科学院军事科学信息研究中心建立了国防科技大数据智能情报平台,这些系统或平台基于多源异构的大数据资源,运用大数据技术与方法为前沿监测、行业跟踪、科研规划、科技决策等业务提供强有力的支撑。既保障日常为科研人员提供信息知识服务以及为科技决策人员提供情报服务,也保障重大突发事件时的快速专题分析,如面向疫情、面向中美贸易战等,做到“平时有保障、战时有支撑,平战结合一体化”。


 科技情报大数据掷地有声,公共文化大数据也遍地开花。从读者荐购到“你选书、我买单”,从借书排行榜、到馆统计到大数据智慧墙,从自助借还到机器人盘点上架,从网络点播到文化云,从馆际互借到文旅融合,这些平台都很好地将多源异构、甚至跨区域的资源数据与用户数据打通并集成关联起来,为用户提供更好的精准服务,为公共文化服务机构提供实时动态的业务监测与管理,为管理部门提供更全面的现状描绘与决策支撑。


大数据在图情领域最显著的应用体现在科技与文化两大领域,而科技、文化既可以在“经济、科技、文化”的论述中与经济相提并论,也可以在“科教文卫”的论述中占据半壁江山。大数据在图情领域近几年的论文、著作、项目、会议、教学中已频频现身、处处留影。从概念理念的引入到实践项目的落地,从模型算法到技术工具,从研究教学到行业实践,大数据全方位地影响图书情报领域,而图书情报也以积极热情的态度迎接大数据并付诸行动。


04


图情大数据如何过上“好日子”

这是一个由IT( Information Technology) 转向DT( Data Technology) 的时代,IT改变了人们工作、学习与生活的方式,DT 正在改变或即将改变人们思维与决策的方式。从精准营销到战略定位,从桌面办公到移动互联,从产业升级到社会变革,从社会治理到国家战略,大数据不仅改变了人们生活与工作的方式,也改变了人们思维与决策的方式。可以说,大数据不仅仅是一项技术,还是一种社会现象。 


这也是一个从IT的“T”转向IT的“I”的时代。信息时代侧重于信息技术,即是IT的“T”,所以计算机科学技术得到了飞速发展。大数据时代,将更侧重于信息内容,即 IT 的“I”,这使得信息管理领域迎来前所未有的机会。这两个转向将为注重信息资源管理与分析决策支持的图书情报领域迎来新的发展良机。能否抓住并利用这个机会,走出学科困境、助力行业发展将成为大数据时代图情发展的命脉。


图情大数据的发展包含以下几个方面: ①研究既有图情主题在大数据环境下的适应性与发展问题; ②利用大数据技术方法解决学科或领域现有的问题,如细粒度知识组织、大规模数据分析、用户画像与精准推荐等; ③研究数据资源本身的一系列问题,从数据资源到数据资产与数据资本,从数据处理到数据管理与数据治理,并能像研究图书分类、元数据、主题标引一样研究数据资源的目录体系、元数据、标准规范等;④利用原有的信息敏感性和传统的情报分析优势,为大数据分析贡献理念、方法与技术工具; ⑤培养学科领域的学生和从业人员的数据素养,包括对数据高度敏感、数据管理与治理能力,将大数据变成小数据的能力,发现数据规律并洞察、解读数据背后的原因,监测异常数据并能有效利用等。全员数据素养将会成为学科的共性、专业的优势与人才培养的特色。以上五个方面中,第1、2点是适应与借力大数据,第3、4点是利用传统学科优势促进大数据的新发展,为大数据的发展做出学科贡献,第 5 点决定图情大数据能否取得全面突破,是带动行业发展的关键,做不好就是木桶的短板,做好了就可能成为所有大数据分析行业的标杆与天花板。

制版编辑 | 卢慧质


--END--


当期荐读 2020年第6期 | 基于视觉注意力的图像情感研究框架(内含视频摘要)

当期荐读 2020年第5期 | 学术共同体共谋:特邀学者笔谈(十三)

当期荐读 2020年第5期 | 学术共同体共谋:特邀学者笔谈(十四)

当期荐读 2020年第5期 | 学术共同体共谋:特邀学者笔谈(十五)

当期荐读 2020年第5期 | 学术共同体共谋:特邀学者笔谈(十六)


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存