對地震預測結果的檢驗
中國地震局地球物理研究所 蔣長勝
對包括經濟活動、安全事故、自然災害、生態種群演化等任何復雜系統未來后果的預測,都需要進行科學檢驗,地震預測也不例外。面對“地震報得準不準?”這一類問題時的語塞,其實可以從對地震預測結果的檢驗上回答,盡管顯得技術控了一些。
預測檢驗的目的,除了驗證預測結果的可信程度和預測效果,實際上也是研發相應的預測方法/模型的重要技術手段。沒有科學的檢驗,對涉及未來的決策將無法操作,“預言家”和造謠者將橫行。對涉及公共安全的地震預測,無論是回答結果的信度、發展預測技術方法,還是向政府提供決策依據,科學檢驗都尤為重要。
都有哪些地震預測的檢驗技術?能解決哪些問題?
方法有很多,且針對不同預測的目的、預測內容可以進行不同的檢驗。一種是地震數檢驗(N-test),就是針對關注的某一級別以上的地震未來將發生多少個的預測,考察預測的地震是否太多或是太少。一種是預測震級檢驗(M-test),用于考察預測的震級與真實發生的震級之間的符合程度。還有可以同時考慮預測地震在地點上和震級分布關系上符合程度的Molchan檢驗(Molchan test)、似然檢驗(L-test)等等。中國地震學家們長期使用的R值評分,事實上是一種醫學上使用比較多的叫做“接受者操作特性曲線”檢驗(ROC-test)方法的一種特例。
問題來了,誰都知道大地震很少發生,在人類有限的地震觀測和記錄歷史上,這些小樣本事件能檢驗嗎?答案是能,而且檢驗的方式還不少。
一是,可以利用隨機模擬的方式創造出“人工地震目錄”,例如生成1000套不同的這種地震目錄進行檢驗。當然,創造不是胡來,需要一些條件約束。例如,可以將一套真實的地震目錄,通過對所有的地震的發生時間、位置、震級利用隨機數進行打亂、搭配;或者對真實的地震目錄擬合出若干個參數(比如利用最著名的“傳染型余震序列”模型),然后在確保這些參數不變、目錄中的相對獨立發生的地震保持不變的情況下,生成新的余震,從而形成一系列的新的“人工地震目錄”。
二是,用空間換時間。具體來說,就是在更大的空間范圍內,讓更多的地震樣本能夠被檢驗。這種空間換時間的方式,既不是新鮮玩法,也不是地震預測領域的專利。事實上,在以復雜系統為研究對象的其他自然科學中,例如生態學中采用的“協同分布式實驗”(coordinated distributed experiments,CDEs),就是在全球或大空間尺度下開展多地點的、同時、同規范的實驗來驗證一些科學假設。或許是受到生態學中CDEs研究方式的啟發,2006年由美國南加州地震中心(SCEC)發起了全球“地震可預測性合作研究”(CSEP)計劃,就是采用統一的研究區域、統一的地震目錄以及嚴格的統計檢驗,建立全球分布式的虛擬實驗室,開展“競賽”式的地震預測模型研發和預測檢驗。說白了,用空間換時間的檢驗方式,一方面增加了檢驗樣本,另一方面也使得不同構造區域的不同孕震方式盡量都被覆蓋。
地震預測的檢驗中,有一些非常重要的概念,包括概率(probability,簡寫為P)、概率增益(probability gain,簡寫為G)等等。其中,概率P是指在預測區域和預測時間段內,對關注的某一級別以上地震至少發生一次地震的幾率。概率增益G是指,相對于某一個大家都認可的、原理清晰但簡單的預測方法(也稱為“參考模型”),我們使用的預測方法相對于參考模型,所能提供的預測信息的有效性。概率增益G是從信息論中引入的概念,它的數值,可為具體的減災決策提供重要的參考信息。例如,意大利地震學家利用一種叫做“傳染型余震序列”(ETAS)的模型,對2009年意大利拉奎拉Mw6.3地震發生前1天的預測結果的概率增益G,相對于簡單的用于長期預測的Poisson模型(這是個倒霉的模型經常被用來比較的模型)可達到5~25倍,也就是說,ETAS模型所作出的短期預測結果比這個地區平時的地震危險性高出了5~25倍。美國地質調查局(USGS)在加州地區的地震預測中,使用一種名叫STEP的預測模型(2004年這個模型新研發出來的時候,影響力如日中天),在3-4級小地震發生后引起更大地震的預測中,可以給出的概率增益G將達到10~100倍。
所有的預測意見都能檢驗碼?還真有一些情況沒法檢驗,但實在很無奈。
例如,1977年,美國礦業局一位名叫Brian Brady的人,預測秘魯首都利馬附近發生9.9級地震(這個震級能把地球撕成兩半)。由于自己說不清、美國國家地震預測評估委員會專家聽不懂、缺乏理論依據和觀測支撐、沒有嚴格數學推導的某種推測(但號稱是基于愛因斯坦相對論、將電磁力與熱力學穩定性以及引力場方程相結合的某種“大理論”),這種廣泛宣傳并造成秘魯社會巨大震蕩的地震預測,確實無法檢驗,當然,預測本身也不會成功。
地震預測的檢驗本身還有很多問題需要細化,還在進化發展。
例如,預測一個7級地震跟預測一個5級地震的效益是明顯不同的,如何通過檢驗相對公正地描述這種不同?這種不同,不僅僅是兩者能量相差1000倍左右,還在于震級差別很大的“目標地震”孕震涉及的時空尺度與前兆表現的復雜程度明顯不同,開展預測的技術上的難度也就明顯不同。地震學家們比較聰明地研發了一種叫做“博弈評分”(gambling score)的方法,考慮到7級地震與5級地震的自然發生率的差異并作為權重,相對較好地解決了此類問題(見《Tectonophysics》第524-525期155-164頁)。
再例如,如何科學評價頻繁提交預報意見(甚至是時間段上的連續預測、全覆蓋,空間上到處“畫圈兒”、畫更大的圈兒)的情況?地震學家在預測檢驗的數學表達中,引入了“懲罰項”——對越大的預測覆蓋空間范圍扣除適當的分值以保證對預測精度的正確評價。
再再例如,中國地震學家對地震預測檢驗問題中,所涉及的地震前兆的顯著程度、統計規律的獨立性、地震活動性模型的真實程度等等問題,也進行了深入思考與討論(見《中國地震》24卷第3期197-206頁)。甚至如何對地震檢驗方法(的有效性)進行檢驗,也是地震學家們視野里的重要研究課題。精益求精,只有科學上的大量的嚴謹探索,才最終能凝練出可操作的、得到廣泛認同的科學方法。
說得多不如做得多,對于地震預測以及預測結果的檢驗,全世界的地震學家們都在努力著。
發布時間:2017年05月15日