
基于主成分分析的科学评价.pdf
6页第 5 8卷 第 1 7期 2 0 1 4年 9月基于主成分分析的科学评价维度研究— — —以 P L o SO N E为例■宋丽萍 王建芳 刘芮[ 摘 要]借助主成分分析, 以 P L o SO N E的 A r t i c l e ? L e v e l M e t r i c s 为数据源对物理学、 化学、 社会学、 免疫学四学科的科学评价主要维度进行解析分析表明一维空间的科学评价在覆盖 5 0 %信息的同时将损失其余的5 0 %, 3个维度才能以 8 0 %的精度描述论文的学术影响力, 进而将科学评价的 3个维度分别命名为引用维、 共享维与利用维, 从而说明以引用为基础的传统科学评价的片面性, 并揭示科学评价的多维构成[ 关键词]主成分分析 科学评价 P L o SO N E A r t i c l e ? L e v e l M e t r i c s[ 分类号]G 2 0 3D O I : 1 0 . 1 3 2 6 6 / j . i s s n . 0 2 5 2- 3 1 1 6 . 2 0 1 4 . 1 7 . 0 1 8本文系国家社会科学基金项目“ 科技政策视角下科学评价指标及方法研究” ( 项目编号: 1 2 B T Q 0 3 3 ) 与教育部人文社会科学青年基金项目“ 基于群体智慧的微博客信息可信度评价机制研究” ( 项目编号: 1 2 Y J C 8 7 0 0 2 5 ) 研究成果之一。
[ 作者简介]宋丽萍, 天津师范大学管理学院教授, 博士, E ? m a i l : s l p ? l p @ 1 6 3 . c o m ; 王建芳, 中国科学院文献情报中心副研究员, 博士; 刘芮, 天津师范大学历史文化学院馆员, 硕士收稿日期: 2 0 1 4- 0 4- 2 4 修回日期: 2 0 1 4- 0 8- 0 1 本文起止页码: 1 1 9- 1 2 4 本文责任编辑: 王善军科学评价, 是一个探索中的问题对于什么是科学影响力, 目前没有清晰的界定, 科学评价方法尚处于争议之中, 然而科学评价的多维性是科学共同体的共识[ 1 ]维度, 英文为 d i m e n s i o n , 数学中指独立时空坐标的数目, 通常指我们分析目标对象所采用的角度主成分分析( p r i n c i p a l c o m p o n e n t sa n a l y s i s , P C A ) , 是将高维空间映射到低维空间中, 通过舍弃不重要的特征向量缩减维度、 消除变量之间相关性, 从而从原始变量中筛选最佳变量子集合的多元统计方法[ 2 ]本文将借助 P C A , 以 P L o SO N E为数据源对论文科学评价的主要维度进行解析。
1 相关背景印本环境中, 引用成为科学评价的同义语, 然而,科研环境的兴起打破了引用等同于学术影响力的成规, 如何描述数字时代的学术影响力成为新的议题恰逢此时, 美国北卡罗来纳大学博士研究生 J . P r i e m提出替代计量学( A l t m e t r i c s ) , 从而为科学评价提供了新的视角并将评价重心从期刊转至论文自身, 因此论文层面的科学评价成为关注的焦点, 而 P L o S 则成为论文科学评价的先行者P L o S期刊系列是开放获取的“ 领头羊” 其中P L o SO N E被誉为期刊的航母, 该刊创刊于 2 0 0 6年 1 2月, 因 2 0 0 9- 2 0 1 2 4年间影响因子保持 4以上而闻名,因收录范围跨越 5 0多个学科而著称2 0 0 9年 3月, 为规避期刊影响因子用于评价论文影响力的弊端, 并基于论文的重要性体现在发表后被关注与引用情形的出版哲学, P L o S在每篇文章后新增 A r t i c l e ? L e v e l M e t r i c s( A L M) 以探索论文层面的评价方式A L M采用利用状况( U s a g eS t a t s ) 、 社会共享状况( 包括 F a c e b o o k和T w i t t e r ) 、 学术性标签标注指标( 指 M e n d e l e y 和 C i t e U l i k e ) 、 学术性引用情形( 在 C r o s s R e f 、 S c o p u s 、 We bo fS c i e n c e 中引用情况) 、 非学术性引用情况( 在 N a t u r eB l o g s 等张贴的情况) 描述论文影响力[ 3 ]。
P L o SO N E所开创的以科学社区为主导的论文评价方式为出版界提供了良好范例, Wi l e y 、 E l s e v i e r 以及 N a t u r e 出版集团竞相效仿[ 4 ]本文将以 P L o SO N E为例, 立足于论文层面的科学评价, 通过上述指标间关系解析科学评价维度及其构成2 数据采集与统计鉴于 P L o SO N E具有学科综合性的特点, 本文采用 h t t p : / / w w w . p l o s o n e . o r g / 网站的 A L M, 选取其中物理学、 化学、 社会学、 免疫学用于分析其中免疫学、 物理学、 化学作为自然科学的代表, 而社会学则作为社会911宋丽萍, 王建芳, 刘芮. 基于主成分分析的科学评价维度研究— — —以 P L o SO N E为例科学的典型回溯年限为 2 0 0 8年, 以兼顾自然科学和社会科学引用行为的差异, 并保证 5年的被引统计区间以免疫学为例, 在 h t t p : / / w w w . p l o s o n e . o r g / 网站高级检索界 面中设 定检索 式 为: p u b l i c a t i o nd a t a=[ 2 0 0 8- 0 1- 0 1 T 0 0 : 0 0 : 0 0 ZT O2 0 0 8- 1 2- 3 1 T 2 3 : 5 9 :5 9 Z ] a n ds u b j e c t a r e a = " i m m u n o l o g y "a n da r t i c l et y p e =r e s e a r c ha r t i c l e 。
检索结果为: 社会学文献 1 6 2篇、 免疫学文献 3 5 4篇、 物理学文献 2 9 8篇、 化学文献 5 7 6篇,共计 13 9 0篇对于上述记录, 首先采用计算机编程语言 J a v a 抓取了文献的篇名, 并将其导入 E x c e l , 利用第三方软件包 o r g . a p a c h e 实现对于 Wo r d 与 E x c e l 的读写; 继而利用篇名链接, 点击 M e t r i c s 获取该文的 A L M指标数据采集日期为 2 0 1 3年 6月由于 C o n n o t e a 、G o o g l eB l o g 等指标记录过少, 不具统计意义, 数据前处理过程中将上述指标剔除, 最终将每篇论文在 S c o p u s 、We bo f S c i e n c e ( Wo S ) 、 G o o g l eS c h o l a r ( G S ) 、 C r o s s R e f 系统中的被引量、 A r t i c l eU s a g e 、 M e n d e l e y 与 C i t e U l i k e阅读统计、 F a c e b o o k记录等 8项数据用于进一步分析。
其中将每篇文献视作一条记录, 4个学科中各有 n个样本, 每个样本共有 8个变量, 从而构成 4个 n× 8阶矩阵鉴于 8维空间的复杂性, 下文将以 P C A探索综合变量以提取其中的主成分3 4个学科的主成分分析3 . 1 P C A必要性与适用性分析本文将通过相关分析确定变量的相关程度, 进而确定 P C A的必要性相关性分析结果表明( 见表 1-表 4 ) , 在 8个变量组成的 2 8个不重复的变量对中, 以相关系数 0 . 3为阈值, 免疫学为 1 5组, 占 5 3 . 6 %; 社会学为1 2组, 占4 2 . 9 %; 物理学为1 7组, 占6 0 . 7 %; 化学为 1 6组, 占 5 7 . 1 %由此说明接近 5 0 %或 5 0 %以上的变量具有相关性, 即这些变量存在信息上的重叠, 因此通过 P C A析出其中的主要因素是必要的表 1 物理学原始变量相关矩阵相关系数A r t i c l eU s a g eS c o p u sC r o s s R e fWo SG SC i t e U l i k eM e n d e l e yF a c e b o o kA r t i c l eU s a g e1 . 0 0 0. 2 2 6. 2 4 7. 2 2 0. 3 3 7. 1 8 2. 3 7 6. 5 4 6S c o p u s. 2 2 61 . 0 0 0. 9 3 9. 9 4 7. 9 5 2. 1 0 6. 5 1 1. 0 9 0C r o s s R e f. 2 4 7. 9 3 91 . 0 0 0. 8 9 5. 9 0 7. 0 8 1. 5 2 5. 0 9 9Wo S. 2 2 0. 9 4 7. 8 9 51 . 0 0 0. 9 1 2. 1 1 2. 4 9 5. 0 9 8G S. 3 3 7. 9 5 2. 9 0 7. 9 1 21 . 0 0 0. 1 7 6. 5 7 9. 2 5 6C i t e U l i k e. 1 8 2. 1 0 6. 0 8 1. 1 1 2. 1 7 61 . 0 0 0. 4 0 1. 1 6 6M e n d e l e y. 3 7 6. 5 1 1. 5 2 5. 4 9 5. 5 7 9. 4 0 11 . 0 0 0. 2 7 0F a c e b o o k. 5 4 6. 0 9 0. 0 9 9. 0 9 8. 2 5 6. 1 6 6. 2 7 01 . 0 0 0表 2 化学原始变量相关矩阵相关系数A r t i c l eU s a g eS c o p u sC r o s s R e fWo SG SC i t e U l i k eM e n d e l e yF a c e b o o kA r t i c l eU s a g e1 . 0 0 0. 3 4 1. 3 3 7. 3 2 0. 3 7 3. 3 0 5. 4 8 6. 4 2 8S c o p u s. 3 4 11 . 0 0 0. 9 7 2. 9 9 2. 9 8 7. 0 9 9. 3 1 8. 1 8 3C r o s s R e f. 3 3 7. 9 7 21 . 0 0 0. 9 6 3. 9 6 1. 0 9 3. 3 3 9. 1 9 0Wo S. 3 2 0. 9 9 2. 9 6 31 . 0 0 0. 9 7 8. 0 8 6. 3 0 5. 1 4 7G S. 3 7 3. 9 8 7. 9 6 1. 9 7 81 . 0 0 0. 1 5 6. 3 4 3. 2 2 4C i t e U l i k e. 3 0 5. 0 9 9. 0 9 3. 0 8 6. 1 5 61 . 0 0 0. 3 3 0. 3 1 5M e n d e l e y. 4 8 6. 3 1 8. 3 3 9. 3 0 5. 3 4 3. 3 3 01 . 0 0 0. 0 6 2F a c e b o o k. 4 2 8. 1 8 3. 1 9 0. 1 4 7. 2 2 4. 3 1 5. 0 6 21 . 0 0 0表 3 免疫学原始变量相关矩阵相关系数A r t i c l eU s a g eS c o p u sC r o s s。
