施、王前兩文的重點,是批評我們的調查樣本“明顯偏小”、沒有采取統計局所采用的隨機抽樣方法,因此“結果是不可靠的”,“估算結果明顯偏高”。如果結果“不可靠”,會有偏高和偏低兩種可能。為什么是偏高而不是偏低?
【財新網】(特約作者 王小魯)近日,國家統計局網站上連續登出了王有捐、施發啟兩位統計官員對我的灰色收入研究報告的商榷(注:下稱“研究報告”。該報告題為《灰色收入與國民收入分配》,全文載于中信出版社《比較》第48輯;為中國經濟體制改革研究會課題)。隨后,他們兩位又共同署名,在統計局網站上發表了另一篇文章,表示愿意繼續就此問題進行研究,并表示國家統計局準備采取措施來改善居民收入統計中的少報、漏報問題。
他們對我的研究報告進行公開討論,以及關于改善居民收入統計的表態,是一種積極的態度,我非常歡迎。但這方面的討論,并不僅限于統計數據的真實性問題,而是進一步關系到如何認識我國當前的收入分配狀況、如何應對當前突出的社會矛盾、如何推進改革來解決這些矛盾。我在這方面的研究,也是基于這個出發點而進行的。但搞清真實情況、獲得可信數據,是必要的前提。
因此,有必要把雙方爭議的一些問題搞清楚。本文對他們的商榷做一個回答,意在促使有關收入分配狀況的研究更加深入,為解決這些問題提供條件。
1.現行居民收入統計是否真實反映收入分配現狀
王有捐、施發啟的文章都同意目前的居民收入統計調查“存在漏報和少報的問題”,“高收入群體也較少進入調查樣本”;因此居民收入統計“可能存在低估的情況”。兩位也認為筆者的研究報告“在估算我國居民實際收入方面進行了有益的探索,尤其在獲取基礎數據和推算宏觀數據方面值得參考和借鑒”!捌洳捎镁用窦矣闷、商品住宅、出境旅游、銀行存款等外部相關數據對我國常規住戶調查居民收支數據進行驗證的方法為我們提供了不同的思路和模式,值得借鑒”。在這些方面,我們有一定的共同認識。
但施、王前兩文的重點,是批評我們的調查樣本比國家統計局的調查樣本量“明顯偏小”、沒有采取統計局所采用的隨機抽樣方法,因此“結果是不可靠的”,“估算結果明顯偏高”。
如果結果“不可靠”,會有偏高和偏低兩種可能。為什么是偏高而不是偏低?怎樣算出來“明顯偏高”?高多少?兩位商榷者并沒有做出解釋,看來還是根據現有統計數據來判斷的,就是說,似乎現有的收入統計仍然是可靠的,即便有偏差也不大。而筆者對高收入居民收入的估算“明顯偏高”,也是相對于統計數據而言。這不僅與兩位關于統計數據“可能存在低估”的說法有矛盾,而且涉及到一個關鍵問題:現行統計究竟是否反映了高收入群體的真實收入狀況?這是需要搞清楚的。
長期以來,我國收入分配差距持續擴大,特別是灰色收入大量存在,嚴重影響了收入分配狀況。但這些問題并沒有從統計上如實反映出來,特別是對高收入居民的收入統計嚴重脫離實際,不僅低估了收入差距擴大的嚴重性,也造成不同統計數據間的嚴重沖突。下面是幾個例子。
其一,據國家統計局公布的城鄉居民人均收入和城鄉人口數推算,2008年全國居民可支配收入總額不足13萬億元,而同樣來自國家統計局的資金流量表數據,卻顯示住戶可支配收入總額為18.2萬億元。后者是根據經濟普查得出的,應該比較全面。但這就證明居民住戶收入統計至少遺漏了5.3萬億元,漏掉了居民收入的近30%。類似情況已存在多年。如此嚴重的遺漏,還能認為是基本可靠嗎?這一問題,《第一財經日報》在8月30日發表的《居民收入統計局兩套數據打架 5.3萬億元差距待解》一文中已有論述。
其二,與其他宏觀統計數據比較,會發現遺漏遠不止5.3萬億元。以2008年數據算,全國居民儲蓄總額(收入減去消費)在2008年為3.5萬億元,而當年僅城鄉居民在金融機構的儲蓄存款就增加了4.5萬億元,加上居民當年購買商品住宅支出(扣除銀行貸款),在股市、債市和實體經濟的投資,手持現金等,實際的居民儲蓄應該在11萬億元~11.5萬億元之間(未計算居民在國外的存款和投資),是按居民收入統計數據計算的3.5萬億元儲蓄的3倍以上。上述計算依據的都是國家統計局公布的數據,這類數據沖突近些年來一直存在。
其三,按人均可支配收入水平算,根據統計,2008年城鎮居民人均收入只有1.57萬元;其中10%的最高收入家庭,人均也只有4.36萬元。這樣的人均收入是如何支撐當年2萬多億元商品住宅銷售的?是怎樣把房價炒上天的?就算只有10%的最高收入家庭能夠買得起房,這部分人的當年收入合計只有2.3萬億元,在買了2.1萬億元的商品住宅之后,他們吃什么?喝什么?拿什么錢買汽車?拿什么錢出國旅游?新存入銀行的4.5萬億元私人存款又是哪來的?
2008年,中國私人小汽車增加了560萬輛,保有量超過2800萬輛,而城鎮10%的最高收入家庭總共不過2000萬戶。據悉,價值數百萬的世界頂級豪華轎車勞斯萊斯,在中國的銷量已占全球第三,僅次于美、英。
2008年,中國居民因私出國出境4013萬人次,超過了同年美國出國人數(4002萬人次)。據日本官方統計,2009年僅訪日的中國游客有110萬人次,在日本境內人均花費11.7萬日元,而美國游客在日本人均花費僅2.5萬日元(2010年8月24日《參考消息》)。根據統計,中國城鎮居民的人均收入只相當于美國人均收入的1/15,10%最富城鎮家庭的人均收入也不到美國人均收入的1/5,怎么可能支撐這樣的高消費,統計上解釋得通嗎?
據悉,2008年內地流入澳門的賭資就高達數百億元。如果將其分攤給2000萬個最高收入家庭,每戶也有幾千元。這些錢又來自何處?
僅此幾例,足以說明關于高收入居民收入狀況的統計數據已嚴重脫離實際。這種情況不改變,會掩蓋實情,誤導決策,帶來嚴重后果。所以統計部門和經濟學者的共同責任,是面對現實,搞清情況,不能繼續滿足于統計調查“樣本量大”、“方法科學”等表面文章,回避這些尖銳的問題。
2.怎樣評價抽樣調查的可靠性?
施、王兩文質疑研究報告的兩個最主要理由,就是統計局住戶調查樣本量大,所采用的分層隨機抽樣方法“有著較嚴密的科學依據”;而我們的調查樣本小得多,沒有采取與統計局相同的抽樣方法,對樣本的選擇“存在主觀性”,因此缺乏可信度。但這些評論回避了兩個最重要的問題。
第一,樣本量大小,并不決定樣本是否無偏。只有當不存在系統性偏差時,大樣本才在精確度上更占優勢。與2億城鎮居民家庭相比,統計局6.5萬個住戶樣本也只占萬分之三。但這個樣本目前的問題,并不在于樣本量大小,而在于大量遺漏高收入戶。首先,由于在抽樣過程中頻繁遇到高收入居民拒訪,而替換的樣本不可能保證同樣的收入水平。這就必然導致樣本覆蓋面的系統性偏差。在這種缺陷未被糾正的情況下,樣本量再大,也不能提高其可信性。
第二,抽樣方法的“科學性”,不能彌補數據失真導致的非抽樣誤差。目前統計局樣本的收入數據,根據的是樣本戶的填報。而我們在調查中發現,如果沒有有效措施,70%的高收入戶有低報收入的傾向,而且報出的收入與他們的真實收入平均相差幾倍。但在此之前,我們未曾聽說統計局針對低報收入采取過措施。
王有捐先生在文章中說:“65000戶樣本量對全國和分省(區、市)有較高的代表性,在置信度為95%時,主要收支指標的抽樣誤差(不含漏報、少報等產生的非抽樣誤差)在5%以內!钡F在的主要問題恰恰出在“漏報、少報等產生的非抽樣誤差”。避開這個主要問題,抽樣誤差再小也沒有意義。就像醫生給病人開錯了藥,藥品質量再好也不解決問題。對于抽樣調查的評價,首先應該是結果的真實性,而不能滿足于理論上的“科學性”。
我們的研究項目在抽樣和推算方法上所做的探索,正是針對高收入樣本容易遺漏和收入數據不真實這兩個關鍵問題。我們如果采取與統計局同樣的隨機抽樣方法,也難免同樣的系統性偏差。因此我們針對不同收入區間設立了樣本配額,以確保不遺漏高收入樣本;同時借鑒了社會學的調查方法,通過各地的專業調查人員直接以他們熟悉的人群(親屬、朋友、同事、鄰里)為調查對象來收集各項收入支出信息。由于調查人員基本了解調查對象的家庭經濟狀況,并存在一定的信任關系,使嚴重低報收入的情況大大減少。
提到社會學調查方法,不能不提到我國老一輩社會學家費孝通和他的著作《江村經濟》。這本書是他對自己姐姐居住村莊的鄉親鄰里進行調查的成果,成為一部解剖中國鄉村經濟有代表性、影響深遠的著作。沒有聽說誰批評他的調查“樣本太小”,“沒有采用隨機抽樣方法”,因此“不科學”。這首先是因為信息的真實性和所反映問題的代表性。而這些并不是所有的大樣本隨機抽樣調查都能做到的。國際抽樣調查權威Kish在他的著作中,也沒有不適當地強調抽樣方法的“科學性”,反而把它看做“‘自己創造的藝術’和它的科學性的結合”(Kish:《抽樣調查》,中文版1997)。
在我們的調查中,為進一步降低敏感度,我們采取了匿名調查的方式,提供了信息保密和僅用于研究目的的承諾;在問卷設計上采取了先問消費、后問收入,先問分項、后問合計,不追問收入具體來源等調查方法。調查前,對各地調查人員進行了培訓。調查后,對收到的問卷進行了嚴格的質量和邏輯檢驗,剔除了相當數量不合格問卷。所有這些措施,都是為了保證數據的真實性。這使我們得到的調查數據避免了嚴重的系統性偏差。
由于在特定條件下采取了這種非常規調查方法,我們深知雖然得到的數據比較可信,但樣本分布并不代表城鎮居民的總體分布,不能用來做總體推斷。我們所采用的恩格爾系數法,就是在這種情況下所找到的一個解決問題的方法。由于基礎數據的可信性和樣本在不同地區、不同收入層次、不同職業身份的居民群體間分布的廣泛性,我們能夠用它獲取收入水平與恩格爾系數以及其他參數間的真實關系,并基于這種關系來對一定居民群體的收入水平進行推算。
這一方法得到的結果,并不是一個總體推斷,而是在統計局分組樣本的基礎上,利用統計局數據中可信度較高的變量(一個主要變量是恩格爾系數)來推算其真實收入水平,以校正其原來失真的數據。這一方法和總體推斷方法得到的結果非常不同。這在報告中有詳細的數據比較和說明。而施、王兩位一直強調我們是在做“總體推斷”,說“不是直接推斷也是間接推斷”,是很不客觀的。他們所批評的“沒有采用隨機抽樣方法”,也并不構成我們這項研究的缺點,反而是在有限條件下能找到的一個驗證統計數據失真的有效解決方法。
當然也要說明,這項研究的目的,是對統計數據的偏差進行檢驗并作出近似推算,而不是要代替常規統計。作為一個民間研究機構,我們不可能擁有像國家統計局那樣龐大的統計機構和遍布全國的調查隊伍,不可能進行能與之相比的大規模調查。但我們充分相信,所得到的高收入群體收入水平的推算結果,遠比現有的統計數據更真實,也能夠為改善統計數據提供一個參考。
3.關于對研究報告的誤讀和錯誤解釋
施、王兩文,除了對我們的調查樣本量和抽樣方法進行批評外,還提出了另外幾個理由說明研究報告的推算結果不可靠。但這幾個理由都有商榷的必要。
(1)。王有捐文章說,我們的調查方法是通過“親戚再找親戚,朋友再找朋友”的“滾雪球”方法,不適合用來“推斷總體”。
前面已經說得很清楚,我們并沒有用自己的樣本來“推斷總體”。同時,我們的調查也根本不是王有捐先生所說的“滾雪球”方法。所有的調查都是由經過培訓的各地調查員直接訪問其熟悉的人群所產生,并沒有經過任何中轉。如果認真讀過報告全文,應該不會產生這樣武斷的誤解。
(2)。王有捐先生質疑我們的調查方法:“試想,這些不愿意向統計局調查員透露自己實際收入的高收入人群會僅因為調查員是熟人就如實相告?”顯然是在暗示我們的調查方法可能也低估了高收入人群的收入水平。然而他卻以此為理由證明我們的“估算結果有過高之嫌”,這顯然是自相矛盾的。
王有捐文章還說,我們在問卷中詢問住戶是否愿意透露真實收入信息,是具有“明顯的傾向性”、“誘導性”,卻沒有說出傾向何在。而且問卷中這個問題只作為參考信息,并不改變任何原始收入數據和推算數據。以此來說明我們的推算過高,是說不通的。
(3)。王有捐說,研究報告在使用外部數據時“不嚴謹”,把居民儲蓄算高了。
其一,是說報告沒有區分居民存款和公款私存。實際上從實行存款實名制后,公款私存的情況少多了。仍然存在的公款私存,一般無非是化“大公”為“小公”,把公款變成某些單位人員小團體的消費資金,實際上就是灰色收入的一個來源。那么這還能算是“公款”嗎?
其二,是說報告沒有區分居民購房和單位購房。研究報告中計算的僅限于房地產開發商的住宅銷售部分。即便是單位出錢為個人購買住宅,難道不應計入個人收入嗎?
其三,是說報告沒有區分股市的居民投資、企業投資和國外投資。這更不客觀。研究報告中并沒有把股市、債市投資全部算成居民個人投資,而是保守地假定只有1/3來自居民儲蓄。這個估計也許不準確,但至少有高估和低估兩種可能,而斷定“高估”不知根據何在?
其四,說“房價收入比在中國的合理界限為3年的提法也有待于進一步探討”。但報告中根本沒有這樣的提法,而是說“根據國外經驗,通常商品住宅價格是居民家庭年收入的3~5倍,是可承受的價格”。上述說法不知來自何處?
(4)。施、王兩文都說恩格爾系數與收入密切相關,但也受其他因素影響,因此用恩格爾系數法推算收入水平“存在明顯問題”。事實上我們的研究通過模型分析法控制了影響恩格爾系數的多種因素,包括地區、城市規模(間接反映物價水平)、家庭平均教育水平、家庭規模、就業面等差異,在計算收入水平與恩格爾系數關系時已經排除了其他這些因素的影響。這再次說明兩位商榷者或者沒有認真讀過報告全文,或者有選擇地忽略掉了報告的某些部分。
(5)。施發啟提出:“如果采用報告中的計算結果,2008年居民可支配收入占GDP的比重將達到73.9%”,太高了,因此證明計算結果不合理。但施發啟文章的計算實際上是將居民收入上調,但假定GDP不變,才會得到上述比例。這個假定本身就不合理。報告中已作了說明,如果居民收入有大量遺漏,GDP核算不可能沒有遺漏。例如,有的企業將內部人員的灰色收入或對外部的行賄等支出,以虛假發票報銷等方式計入成本,低報了企業的實際增值,這些遺漏當然也不可能進入GDP核算。
(6)。施發啟文章還批評說,我們的調查數據是來自受訪者記憶,“沒有統計臺賬”,“調查方法不規范”。但就是在調查規范、有統計臺賬的情況下,統計局的高收入居民收入數據發生了嚴重的系統性偏差。我們的調查把最主要的工作放在保證數據的真實性方面。雖然舍棄了統計臺賬的方法,憑記憶容易產生數據誤差,但這種誤差是隨機的、雙向的,既可能偏低,也可能偏高。在平均的意義上,它們會在很大程度上互相抵消。而系統性偏差是同方向的,不可能互相抵消。因此可以有把握地說,這種隨機誤差會遠小于現行收入統計數據的系統性誤差。
綜上述,兩位商榷者提出的論據,有的是對研究報告的誤讀或錯誤解釋,有的是論據與結論南轅北轍。給人的感覺似乎是下結論在先,找根據在后,失去了學術上應有的客觀性。
還有一點需要討論,兩位在共同署名的第三篇文章中聲明,他們同筆者討論的是居民收入數據問題,而不是灰色收入問題。而在我看來,這兩者是難以分開的。雖然在統計上搞清灰色收入是很困難的事情,但鑒于目前灰色收入泛濫的情況,收入統計避開灰色收入就很難不失實。更重要的是,不澄清這些事實,躺在虛假數據上作分析,就無法合理應對收入分配狀況惡化的挑戰。
兩位的商榷文章當然也提出了一些有價值的意見。例如,施發啟指出,使用年平均人數計算比用年末人數計算更合理(盡管對結果沒有重大影響),也指出研究報告中雖然模型的解釋變量系數通過了顯著性檢驗,但模型擬合度偏低。王有捐認為,研究報告中用外部相關數據對收入數據進行檢驗的方法值得借鑒。這些意見是合理的,有益于這些問題的進一步研究。兩位對于改善統計數據的表態,也使人感到我們之間存在共同的基礎,希望保持交流,把收入分配狀況搞清楚!
(作者系中國經濟體制改革基金會國民經濟研究所副所長;本文首先刊于《第一財經日報》,財新網獲王小魯授權刊載)
|
|
|