<論文紹介> Google Scholarはニセ論文にだまされるか? 研究者が自分の被引用回数やh-indexを不正操作できるか、スペインの研究グループが実験

Journal of the American Society for Information Science and TechnologyGoogle Scholarは、学術論文を検索し引用関係も調べることのできる無料データベースとして、世界的に広く利用されるようになっています。このGoogle Scholarは近年機能の拡張を進め、研究者が自分の論文リストとともに引用データによる各種指標(被引用回数・h-index・i10-index)を載せたプロフィールページを作れるGoogle Scholar Citations、またh-indexを指標とするジャーナルランキングを見ることのできるGoogle Scholar Metricsを相次いでリリースしました。

いずれも、利用者にとっては非常に便利なサービスですが、Google Scholar Citationsによって示される被引用回数やh-indexなどのデータは、研究者の採用・昇進時の評価指標として使われる可能性があるため、その信頼性が気になるところです。悪意の研究者が自分の指標を実際よりもよく見せるために、不正な操作をできてしまうようでは困ります。そういった観点から、スペインの研究グループが、自分たちの過去の全論文を引用するニセ論文を偽名でネット公開して、Google Scholarのデータに反映されるかどうかを試す実験を行いました。その結果が、このほどアメリカ情報科学技術協会誌Journal of the American Society for Information Science and Technologyで報告されました。

グラナダ大学などの研究者によるこのグループは、自分たちのウェブサイトの内容をコピー&ペーストして6報のニセ論文を作り、それぞれにグループメンバーの過去の論文すべて(129報)を引用させました。ニセ論文を架空の著者名でネットにアップロードしたのち、Google Scholarに捕捉されるよう、それらのニセ論文へのリンクを含むウェブページをグラナダ大学のサーバーで公開しました(2012年4月17日)。

1か月近く経った5月12日、各メンバーにGoogle Scholarから「あなたの論文が引用されました」というメールアラートが届き、ニセ論文による引用がGoogle Scholarに反映されたことが分かりました。研究者指標への影響の度合いは、それぞれのメンバーの論文本数や過去の被引用状況に左右されましたが、あるメンバーは被引用回数が400回以上増加、h-indexも2ポイント上昇しました。一方、メンバーが過去に論文を出版した各ジャーナルでも、一部ではランキング順位に大きく影響するほどの被引用回数の上昇が見られました。

その約半月後に、この実験は意外な展開とともに終了しました。5月29日に同グループは、この実験のことを大学サーバーにアップロードしたレポートと自分たちのブログで公表しました。するとそのわずか2日後、ニセ論文の架空著者に関わるデータがGoogle Scholarから完全に抹消され、併せて公表時に名前を出したメンバーのGoogle Scholar Citationsプロフィールが一時非公開になり、ニセ論文による影響を取り除いたうえで再公開されました。同グループでは、公表によってこの実験を知ったGoogle側が急遽対処したものと考えています。

今回の論文で著者らは、Google Scholar上の各種指標がいとも簡単に不正操作されてしまうことが明らかになったと指摘するとともに、信頼性の判断材料として引用先の文献の種類やソースごとに引用データを切り分ける機能を追加するなど、不正操作を見抜きやすくすることで研究者の誘惑を断ち切るような手段をGoogleが採用するよう提案しています。

カテゴリー: 一般, 論文 パーマリンク