COVID-19サーベイランスビッグデータの活用法とその教訓について
公開日:2023年7月27日
(IASR Vol.44 p108-109:2023年7月号)
世界保健機関(WHO)によれば、2023年5月7日現在の新型コロナウイルス感染症(COVID-19)の累積患者数が各国の人口の60%を超える国も報告されている1)。再感染などにより複数回の登録が考えられることや、報告基準が各国で違うことなどを踏まえると、数字自体の解釈は慎重にする必要があると考えられるが、世界中で非常に多くの感染者が発生したパンデミックであることには間違いない。日本ではCOVID-19の動向をモニタリングするために新型コロナウイルス感染者等情報把握・管理支援システム(HER-SYS)が2020年5月~2023年5月までCOVID-19のサーベイランスとして運用された。HER-SYSは医療機関が直接発生届をオンライン入力・登録できること、疫学調査や健康観察に関する項目などが一元的にデータベース化されたことによって、届出受理までの時間が短縮されることや対策への支援も期待されて運用され、2023年5月時点で2,400万件を超える件数が報告されている。
国立感染症研究所感染症疫学センターは、感染症発生動向調査事業における国の中央感染症情報センターと位置付けられ、全国における感染症の発生動向の提供と公開を求められている。これまで、COVID-19の発生動向については、新型コロナウイルス感染症週報や厚生労働省アドバイザリーボードの資料として定期的に還元しており、また他のデータを補完的に用いてリスクアセスメントと情報還元を行ってきた2)。
COVID-19サーベイランスの基幹データであるHER-SYSにおける届出件数とダウンロードしたデータ量を報告年月別にプロットしたところ、2020年12月には50万件を超え、データ量も1GBとなった。発生届の日次集計の運用が開始された2022年9月26日までに2,195万件、データ量も42.5GBとなった(図1)。またはオミクロン期の2022年1月~2023年5月までのHER-SYSデータとして収集された項目数を時系列に整理したところ、78項目増えていた(図2)。既存のデータを整理する項目などが含まれており、すべてが新規に追加されたものではないことに注意が必要であるが、パンデミックの拡大とともにデータ量およびデータ項目も大きく増加していることが分かる。
HER-SYSデータを用いた解析には、データサーバーからダウンロードして加工する必要がある。特にオミクロン期ではデータサイズが非常に大きくなり、ダウンロードおよび加工にかなりの時間を要したことがあった。そのために、1)加工時の日付や文字列などデータ属性の固定による読み取り時のエラー防止、2)過去データのアーカイブ化、3)データの目的に応じた分割化などを行い、データ解析の効率化を進めてきた。新たな感染症によるパンデミックへの対応として2022年10月より運用開始された次期感染症サーベイランスシステムでは、収集するデータをいくつかのデータベースに分割して格納してCSV形式での提供となるために、データ活用の点では時間短縮が期待される。
また、医療デジタルトランスフォーメーションが推進される状況では、感染症サーベイランスデータの積極的な利用が期待される。複数のデータベース間で連結を行う際にはリレーションできるID管理が必須であるが、個人情報に関連したいわゆる準識別子を用いたハッシュ化(元のデータに対して計算処理を行い規則性のない値に置き換えること)による連結も、データの有効利用という点で重要であると考えられる。当座は、入力項目が連結に使用される可能性を考慮することがデータマネージメントとして求められるのではと考える。
本稿では、サーベイランスデータであるHER-SYSデータの利用について実務的な観点から概説した。新たなパンデミックがどのような規模で発生するかは不明であるが、COVID-19パンデミックと同等の規模になる可能性は想定しておく必要がある。HER-SYSでの経験を踏まえて、今後のパンデミック時のデータマネージメントとしての注意点を記述した。
参考文献
- WHO, Coronavirus disease (COVID-19) pandemic
https://www.who.int/emergencies/diseases/novel-coronavirus-2019(外部サイトにリンクします)(2023年5月10日アクセス) - IASR 43: 280-282, 2022
国立感染症研究所感染症疫学センター第六室
神垣太郎 木村哲也 滝沢木綿 閻 芳域 北村則子 大谷可菜子