是否存在可靠的各國平均 IQ 排名？

沒有。廣為流傳的各國排名主要來自一些被研究者批評取樣不良、資料缺失與方法可疑的數據集。並不存在一份權威、有共識的國家智力排行榜。

「各國平均 IQ」的數字從何而來？

大多數線上表格可追溯到理查德·林恩與塔圖·萬哈寧的彙編。獨立研究者一再質疑這些數字是如何收集與估計的，因此不應被當作既定事實。

測得分數的差異是否意味著某些國家更聰明？

不是。測得的測驗分數深受教育、健康、營養、語言與測驗熟悉度的影響。樣本之間的差異反映的是處境與方法，遠多於受測者任何固定的素質。

什麼是弗林效應？

它是 20 世紀間許多國家平均 IQ 測驗分數所觀察到的上升 — 通常約每十年三分。它顯示當生活與教育條件改變時，測得分數可以迅速變化，這削弱了固定國家 IQ 的概念。

各國平均 IQ：數據真正說了什麼

你可以在網路上找到依平均 IQ 為各國排名的表格 — 但它們遠不如看起來那麼可信。被引用最多的數字來自一些被研究者嚴厲批評取樣薄弱、方法可疑的數據集，而測得分數深受環境形塑，而非任何固定的國家特質。本文說明為何「各國平均 IQ」是一個真正複雜的問題，而非一張定案的排行榜。

這些數字從何而來

網路上流傳的幾乎所有逐國 IQ 表格都可追溯到理查德·林恩與塔圖·萬哈寧發表的彙編，最著名的是《IQ and the Wealth of Nations》（2002）及後續著作。這些書籍從各式各樣的研究中蒐集分數，並為每個國家指定一個單一的平均數字。

那個方便的單一數字正是問題所在。底層資料參差不齊，把它變成一份整齊的排名掩蓋了大量的不確定性。

研究者為何批評各國 IQ 數據集

獨立的心理學家與方法學家提出了嚴肅而反覆的反對意見。主要批評包括：

不具代表性的樣本。 有些國家數字建立在小型、非隨機的群體上 — 例如某一所特定學校或地區 — 無法代表整個國家。
資料缺失與估計。 對於某些沒有可用研究的國家，數值是從鄰國估計而來，而非實際測量。
不一致的測驗與條件。 分數來自不同測驗、不同年代與不同施測條件的彙整，使得直接比較不可靠。
弗林效應未必被一致處理。 由於許多地方的分數隨時間上升，不加調整地比較不同年代的研究會扭曲全貌。

特別針對撒哈拉以南非洲的資料進行檢視時，維舍茨與同事（2010）發現，這些彙編所用的估計值在仔細閱讀原始研究後並不被支持。他們的研究是一個清楚、可引用的例子，說明那些醒目的數字在細究之下如何站不住腳。

環境形塑測得分數

即使在分數測得良好之處，群體之間的差異也強烈受到處境影響，而非任何與生俱來的國家素質：

教育 — 受教育的年數與品質強烈影響推理測驗的表現。
健康與營養 — 早年營養、疾病負擔與醫療可及性都很重要。
測驗熟悉度 — 對計時、抽象、紙本或螢幕測驗的熟悉程度在各族群間差異很大。
語言與翻譯 — 即使是「文化公平」的測驗也並非完全不受文化影響，正如我們在瑞文漸進矩陣指南中所討論。

弗林效應：分數並非固定

不信任靜態國家排名最有力的理由之一是弗林效應 — 20 世紀間許多國家平均 IQ 分數有充分記錄的上升，通常約每十年三分（Flynn, 1987）。如果隨著教育與生活水準改善，測得的智力能在短短幾個世代內大幅攀升，那麼一個國家的「平均 IQ」就是移動的目標，而非永久的特徵。關於哪些是遺傳、哪些由環境形塑的更深問題，見IQ 是天生的嗎？。

那麼，誠實的答案是什麼？

並不存在可信、權威的國家智力排名。流行的表格建立在有爭議的資料上，它們所報告的差異更該以教育、健康與方法來解釋，而非任何民族之間的固定差異。負責任的結論是：對任何把各國 IQ 排行榜當作既定事實呈現的來源保持懷疑。

IQ 在個人層面最有意義，與同齡同儕公平比較 — 這正是一項個人測驗所做的事。