Tỉ lệ tốt nghiệp: Địa phương nào đáng nghi ngờ nhất?
Điều thú vị là trong danh sách top 10, có đến 7 tỉnh từ miền Bắc, chỉ có 2 địa phương từ miền Trung và Nam (Đà Nẵng, Lâm Đồng và TPHCM). Trong khi đó, trong danh sách bottom 10 có đến 6 tỉnh từ Đồng bằng sông Cửu Long, 1 tỉnh thuộc vùng Tây Nguyên (Đak Lak), và đặc biệt không có tỉnh nào thuộc miền Bắc
Liên quan đến vấn đề tỉ lệ thi tốt nghiệp trung học phổ thông quá cao, Phó Thủ tướng Nguyễn Thiện Nhân yêu cầu rà soát lại xem địa phương nào có "thành tích" đáng nghi ngờ. Có nhiều cách làm để "rà soát".
Cách nghiêm chỉnh là xem tỉ lệ tốt nghiệp của từng trường qua nhiều năm. Cách làm thứ 2 không tốt lắm là phân tích tỉ lệ tốt nghiệp trung bình toàn tỉnh qua nhiều năm. Bài này dùng 1 phương pháp có thể nhận dạng ra địa phương nào đáng nghi ngờ.
Thật ra, câu hỏi đáng lẽ phải là: "Tỉnh/ thành nào có tỉ lệ học sinh đỗ trung học phổ thông cao nhất?". Đây là một câu hỏi chiếm khá nhiều thời lượng suy nghĩ của tôi. Để trả lời câu hỏi này, cần phải có dữ liệu về số học sinh tham dự thi tốt nghiệp trung học phổ thông (THPT) qua từng năm, của từng trường, trong từng tỉnh.
Với số liệu như thế thì việc trả lời câu hỏi trên không khó mấy. Tuy nhiên, trong điều kiện thiếu thốn dữ liệu, tôi nghĩ chúng ta có thể dựa vào tỉ lệ tốt nghiệp THPT mà các tỉnh thành và Bộ GD và ĐT công bố để trả lời câu hỏi trên.
Dễ mà không đơn giản !
Có lẽ đối với nhiều người, câu trả lời quá đơn giản: Chỉ cần tìm tỉ lệ tốt nghiệp THPT của một năm nào đó (như năm 2010 chẳng hạn), sắp xếp từ cao đến thấp, và nhận dạng địa phương có tỉ lệ tốt nghiệp cao nhất. Thật ra, đây cũng chính là phương pháp mà các quan chức trong Bộ GD và ĐT từng làm. Phương pháp này có lợi thế là đơn giản.
Nhưng phương pháp đơn giản đó có một khiếm khuyết lớn: Đó là chưa tính đến độ tin cậy của một địa phương. Để thấy sai lầm của phương pháp đó, chúng ta có thể xem qua số liệu thực tế về tỉ lệ tốt nghiệp THPT của 2 địa phương Hải Phòng và Hải Dương trong 5 năm 2007 - 2011:
Địa phương | 2011 | 2010 | 2009 | 2008 | 2007 | Trung bình |
Hải Phòng | 98.46 | 98.86 | 93.66 | 90.40 | 76.90 | 91.6 |
Hải Dương | 99.32 | 99.28 | 91.56 | 87.60 | 78.10 | 91.2 |
Tỉ lệ tốt nghiệp (trung bình) của Hải Phòng là 91.6%, và Hải Dương là 91.2%. Nhìn vào bảng trên, chúng ta có thể kết luận rằng Hải Phòng "giỏi" hơn Hải Dương? Cố nhiên là không. Bởi vì nếu nhìn kĩ, chúng ta sẽ thấy độ dao động của Hải Phòng cao hơn Hải Dương. Thật vậy, phương sai của Hải Phòng là 80.3, còn của Hải Dương là 78.9.
Nói cách khác, tuy Hải Dương có tỉ lệ tốt nghiệp tương đối thấp hơn Hải Phòng, nhưng tỉ lệ của Hải Dương đáng tin cậy (hiểu theo nghĩa dao động ít hơn) Hải Phòng. Do đó, không thể xếp hạng bằng cách đơn giản dựa vào tỉ lệ trung bình, và càng không thể dựa vào tỉ lệ tốt nghiệp của 1 năm, bởi vì độ dao động khá lớn giữa các năm trong 1 địa phương.
Một khía cạnh khác cũng có phần phức tạp hơn là mối tương quan giữa tốc độ tăng trưởng tỉ lệ tốt nghiệp và tỉ lệ tốt nghiệp năm 2007 (năm bắt đầu phong trào "Hai không"). Tính trung bình cho cả nước, tỉ lệ tốt nghiệp THPT tăng 9% mỗi năm (tôi gọi đó là "tốc độ tăng trường").
Nhưng không phải tỉnh thành nào cũng có cùng tốc độ tăng trưởng, mà tốc độ này dao động từ dưới 0 đến 25% mỗi năm. Điều quan trọng hơn là tốc độ tăng trưởng có liên quan nghịch đảo với tỉ lệ tốt nghiệp năm 2007 (xem Biểu đồ 1 dưới đây). Theo biểu đồ này, những tỉnh có tỉ lệ tốt nghiệp thấp trong năm 2007 thì trong những năm sau tỉ lệ tốt nghiệp tăng rất nhanh. Ngược lại, những tỉnh có tỉ lệ tốt nghiệp cao (như TPHCM, Nam Định, Hà Nam) thì tốc độ tăng trưởng khá chậm. Đây còn gọi là hiện tượng "regression toward the mean effect", tức là ảnh hưởng hồi qui trung bình. Nói cách khác, tỉnh nào có tỉ lệ quá cao hay quá thấp có xu hướng quay về trung bình toàn quốc.
Đây là 1 đặc điểm rất quan trọng, vì nó gợi ý rằng phương pháp phân tích đơn giản không thể giải quyết được vấn đề phương sai.
Biểu đồ 1: Mối tương quan giữa tỉ lệ tốt nghiệp năm 2007 (trục hoành) và tốc độ tăng trưởng tỉ lệ tốt nghiệp trong thời gian 2007-2010. Biểu đồ cho thấy địa phương nào có tỉ lệ tốt nghiệp cao vào năm 2007 thì tỉ lệ tăng trưởng thấp hơn so với các tỉnh có tỉ lệ tốt nghiệp thấp. Đây là hiện tượng "regression toward the mean effect" rất phổ biến trong đo lường, và cần phải được điều chỉnh để so sánh giữa các tỉnh thành khách quan hơn.
Phương pháp khách quan hơn
Do đó, phương pháp xếp hạng khách quan phải dựa vào 2 chỉ số: Trung bình và phương sai. Một phương pháp xếp hạng dựa vào 2 chỉ số đó là mô hình mà giới thống kê học gọi là Empirical Bayes (EB), có lẽ tạm dịch là "Phương pháp Bayes thực tế" (nghe ngô nghê quá, nhưng ai hay chữ hơn, xin góp ý).
Thật ra, đây là phương pháp mà giới nghiên cứu về chất lượng giáo dục và xếp hạng trường học thường hay sử dụng và kết quả rất thành công. Có thể đọc một bài báo tiêu biểu về mô hình này của Nan Laird và Thomas Louis (Empirical Bayes ranking methods) đăng trên tập san J Educat Stat 1989; 1:29-46).
Ảnh: VNE |
Nó một cách ngắn gọn, phương pháp EB dựa vào lí thuyết đo lường (theory of measurement), vốn hay áp dụng trong các xét nghiệm sinh hóa và lâm sàng. Có lẽ tôi phải giải thích về lí thuyết này. Hãy hình dung tỉ lệ tốt nghiệp THPT (tôi sẽ gọi tắt là Y) của một địa phương như TP.HCM trong 4 năm 2007-2010 là 94.6%, 93.3%, 95.1%, và 96.1%.
Như vậy, tính trung bình tỉ lệ tốt nghiệp của TP.HCM trong 4 năm là 94.8%, với phương sai 1.36 (xin nhắc lại, phương sai là 1 chỉ số đo lường độ dao động của một biến số. Phương sai cao có nghĩa là độ dao động hay biến chuyển cao, và đo lường có độ tin cậy thấp).
Lí thuyết đo lường phát biểu rằng giá trị quan sát (observed value; trong trường hợp này là tỉ lệ tốt nghiệp THPT mỗi năm) của 1 địa phương là tổng số của giá trị thật (true value) và sai số ngẫu nhiên. Gọi Yj là tỉ lệ tốt nghiệp THPT của một năm j, trị số thật là T, và sai số ngẫu nhiên là E, phát biểu đó có nghĩa là: Yj = T + Ej
Nói cách khác, tỉ lệ tốt nghiệp trong mỗi năm dao động chung quanh con số thật T với một độ khác biệt là E. Trong ví dụ của TP. HCM, phát biểu trên có thể hiểu là: Yj = 94.8 + Ej
Giả định rằng T và E độc lập nhau (tức không có tương quan gì với nhau), chúng ta có thể phát biểu thêm rằng phương sai của Y bằng phương sai của T cộng với phương sai của E. Gọi phương sai của Y là S, phương sai của T là ST, và phương sai của E là SE, chúng ta có thể viết: S = ST + SE
Từ đó, giới thống kê giáo dục định nghĩa hệ số tin cậy (coefficient of reliability, kí hiệu là R) là: R = ST / S
Do đó, nếu R gần bằng 1 thì điều đó có nghĩa là độ dao động giữa các năm trong một địa phương rất nhỏ. Tuy nhiên, ở đây, chúng ta sẽ không mấy quan tâm đến R, vì mục tiêu là tìm 1 phương pháp để xếp hạng các tỉnh.
Nhưng trong thực tế, chúng ta có đến 63 tỉnh thành. Do đó, chúng ta có 63 giá trị T, và 63 giá trị E. Bây giờ, chúng ta phải thêm một kí hiệu tiếp ngữ i để chỉ từng địa phương (tức là i = 1, 2, 3, ..., 63).
Do đó, thay vì viết T và E, chúng ta nên viết chính xác hơn là Ti và Ei. Chúng ta giả định rằng tập hợp Ti tuân theo luật phân phối chuẩn với trung bình là m và phương sai là u, và tập hợp Ei tuân theo luật phân phối chuẩn với trung bình 0 và phương sai v.
Bằng định lí Bayes, chúng ta có thể ước tính Ti như sau: Ti = (m/u + Yi/v) / (1/u + 1/v). Và phương sai là:
Wi = 1/(1/u + 1/v)
Công thức trên cho thấy tỉ lệ thật của 1 địa phương thực chất là 1 trọng số trung bình (weighted average) giữa tỉ lệ của địa phương đó và tỉ lệ trong quần thể (tức toàn quốc), với trọng số là số đảo của phương sai của địa phương và phương sai của quần thể.
Như vậy, địa phương có phương sai cao sẽ có "tỉ lệ thật" (Ti) thấp hơn so với địa phương có phương sai thấp nhưng có cùng tỉ lệ quan sát (Yi). Phương pháp này vừa mang tính logic vừa khách quan.
Nói cách khác, tỉ lệ tốt nghiệp trung bình về lâu về dài của 1 địa phương i là Ti với phương sai là Wi. Vì chúng ta giả định rằng 2 tỉ lệ tốt nghiệp tuân theo luật phân phối chuẩn, cho nên với 2 thông số Ti và Wi, chúng ta có thể xếp hạng các tỉnh 1 cách dễ dàng. Các thông số m, u, v được ước tính từ số liệu thực tế từ năm 2007 đến 2010.
Số liệu về tỉ lệ tốt nghiệp THPT mà tôi và đồng nghiệp thu thập được. Số liệu này chỉ đơn thuần là tỉ lệ tốt nghiệp trung bình cho 63 tỉnh thành từ năm 2006 đến 2011. Bởi vì năm 2006 là "đỉnh" của bệnh thành tích, nên tôi chỉ dùng số liệu từ năm 2007 đến 2011 cho ước tính các thông số trên.
Cách tôi làm bắt đầu bằng một câu hỏi: Xác suất mà 1 địa phương có tỉ lệ tốt nghiệp trên 90% là bao nhiêu? Dựa vào thông số Ti và Wi, chúng ta có thể ước tính xác suất trên một cách dễ dàng. Tôi chọn ngưỡng 90% để làm ngưỡng "đỗ" chỉ vì thuận tiện, chứ trong thực tế, chúng ta có thể chọn bất cứ ngưỡng nào.
Gọi xác suất trên là Z90, chúng ta có thể dựa vào Z90 mà xếp hạng. Nói cách khác, địa phương nào có Z90 càng cao thì đó là 1 chỉ số thể hiện học sinh địa phương đó học giỏi (=đỗ nhiều).
Kết quả
Nếu dựa vào tỉ lệ tốt nghiệp (tính trung bình từ 2007 - 2011) thì 5 địa phương đứng đầu bảng là: Nam Định, với tỉ lệ tốt nghiệp THPT 95.7%. Kế đến là TPHCM với tỉ lệ trung bình 94.4, Hà Nam 92.5%; Hải Phòng 89.9%; và Bắc Ninh 89.1%.
5 địa phương đứng cuối bảng là: Bắc Kạn 48.6%, Sơn La 52.3%, Cao Bằng 55.6%, Sóc Trăng 62.1%, và Yên Bái 62.6%. Tuy nhiên, như tôi trình bày trên, cách xếp hạng này không khách quan, vì chỉ dựa vào chỉ số trung bình, mà chưa tính đến độ dao động trong mỗi địa phương.
Dùng phương pháp EB (Empirical Bayes), tôi có một kết quả khác và tôi tin là khách quan hơn. Chẳng hạn như Nam Định, mặc dù có tỉ lệ thực tế (trung bình 2007-2011) là 95.7%, cao hơn TPHCM 94.4%; nhưng vì phương sai của Nam Định là 17.75, cao hơn TPHCM (chỉ 0.59), cho nên tỉ lệ thật (hay tỉ lệ về lâu về dài) của Nam Định là 92.8%, thấp hơn TPHCM (94.3%).
Chú ý tỉ lệ thật của TPHCM chẳng khác gì so với tỉ lệ thực tế, bởi vì độ dao động qua các năm của TPHCM quá thấp, và điều này chứng tỏ TPHCM không có bệnh thành tích nặng nề như các nơi khác. Kết quả cách xếp hạng này có thể xem trong bảng số liệu dưới đây.
Theo phân tích EB, thì TPHCM có tỉ lệ tốt nghiệp "thật" (true average) là 94.3%, và phương sai chỉ 0.58, tức rất ít dao động qua các năm, và xác suất mà TPHCM có tỉ lệ tốt nghiệp cao hơn 90% là 1. Do đó, TPHCM được xếp hạng số 1 trong bảng "học giỏi".
Nam Định tuy có tỉ lệ trung bình thực tế cao hơn TPHCM, nhưng vì độ dao động (phương sai) cao hơn TPHCM đến 26 lần, cho nên tỉ lệ thật chỉ 92.8% (tức thấp hơn TPHCM), và do đó, xác suất mà tỉ lệ tốt nghiệp trên 90% là 0.76. Nam Định được xếp vào hạng 2.
Danh sách "top 10" và "bottom 10" có thể tóm lược trong bảng sau đây:
Top 10 | Bottom 10 |
Thành phố Hồ Chí Minh Nam Định Hà Nam Thái Nguyên Hải Phòng Hải Dương Bắc Ninh Lâm Đồng Vĩnh Phúc Đà Nẵng | Dak Lak Đồng Tháp Bến Tre Bình Thuận Sóc Trăng Trà Vinh An Giang Kiên Giang Tây Ninh Ninh Thuận |
Điều thú vị là trong danh sách top 10, có đến 7 tỉnh từ miền Bắc, chỉ có 2 địa phương từ miền Trung và Nam (Đà Nẵng, Lâm Đồng và TPHCM). Trong khi đó, trong danh sách bottom 10 có đến 6 tỉnh từ Đồng bằng sông Cửu Long, 1 tỉnh thuộc vùng Tây Nguyên (Đak Lak), và đặc biệt không có tỉnh nào thuộc miền Bắc. Điều đau lòng là Kiên Giang, quê hương của tôi, nằm trong danh sách "bottom 10" do chính phương pháp của tôi (?)
Tuy nhiên, bất cứ phương pháp xếp hạng nào cũng chỉ có giá trị khi số liệu được thu thập một cách tối ưu, và đáp ứng các giả định đặt ra. Như tôi đề cập trong phần đầu, những số liệu này chưa phải là tốt nhất, vì thiếu 2 số liệu quan trọng là số học sinh thi.
Phải có số liệu này thì tỉ lệ cho từng tỉnh thành sẽ chính xác hơn. Ngoài ra, 1 giả định rất quan trọng trong phân tích này là tỉ lệ tốt nghiệp trong mỗi tỉnh thành phải tuân theo luật phân phối chuẩn. Nhưng chúng ta chưa có dữ liệu đầy đủ để kiểm tra xem giả định này đúng hay không.
Nói tóm lại, tỉ lệ tốt nghiệp THPT của bất cứ tỉnh thành nào cũng đáng nghi ngờ. Nhưng vấn đề là mức độ nghi ngờ cao hay thấp mà thôi, và trong trường hợp này có thể áp dụng phương pháp EB để xem xét.
1 điều chắc là không thể và không nên dựa vào tỉ lệ tốt nghiệp THPT trung bình hay của 1 năm vì 1 đặc điểm gần như là qui luật ở VN là độ biến chuyển về tỉ lệ tốt nghiệp qua các năm quá lớn, lớn hơn cả độ khác biệt giữa các địa phương.
Vấn đề chủ yếu là "bệnh thành tích" quá nặng nên tỉ lệ tốt nghiệp của bất cứ năm nào cũng khó tin được. Do đó, điều chỉnh cho phương sai là một cách đánh giá công bằng hơn là dựa vào một số liệu thực tế.
Phương pháp tôi trình bày trong bài này thật ra có thể ứng dụng để xếp hạng các trường, nhưng số liệu đòi hỏi chi tiết hơn. Hi vọng rằng phương pháp này sẽ được sử dụng nhiều hơn nữa ở nước ta (thật ra thì các nước tiên tiến đều sử dụng phương pháp EB) để xếp hạng các trường hay tỉnh/thành một cách khách quan hơn.
Hạng | Địa phương | Tỉ lệ "thật" (Ti) | Phương sai (Wi) | Z90 | P(Ti>90) |
1 | TPHCM | 94.29 | 0.58 | 5.60 | 1.0000 |
2 | Nam Định | 92.79 | 15.03 | 0.72 | 0.7641 |
3 | Hà Nam | 86.89 | 34.94 | -0.53 | 0.2994 |
4 | Thái Nguyên | 87.19 | 12.59 | -0.79 | 0.2143 |
5 | Hải Phòng | 83.74 | 46.33 | -0.92 | 0.1787 |
6 | Hải Dương | 83.68 | 43.32 | -0.96 | 0.1686 |
7 | Bắc Ninh | 82.57 | 51.37 | -1.04 | 0.1500 |
8 | Lâm Đồng | 84.19 | 30.25 | -1.06 | 0.1452 |
9 | Vĩnh Phúc | 83.37 | 31.64 | -1.18 | 0.1193 |
10 | Đà Nẵng | 82.24 | 42.92 | -1.18 | 0.1181 |
11 | Khánh Hòa | 81.65 | 42.82 | -1.28 | 0.1009 |
12 | Thái Bình | 78.67 | 73.60 | -1.32 | 0.0933 |
13 | Hưng Yên | 79.94 | 57.47 | -1.33 | 0.0923 |
14 | Hà Tĩnh | 79.50 | 59.33 | -1.36 | 0.0865 |
15 | Hà Nội | 80.28 | 50.58 | -1.37 | 0.0859 |
16 | Quảng Ninh | 79.03 | 64.08 | -1.37 | 0.0853 |
17 | Ninh Bình | 78.93 | 64.94 | -1.37 | 0.0848 |
18 | Bình Định | 80.48 | 47.81 | -1.38 | 0.0844 |
19 | Bắc Giang | 78.33 | 70.24 | -1.39 | 0.0818 |
20 | Quảng Ngãi | 79.44 | 53.49 | -1.44 | 0.0744 |
21 | Phú thọ | 76.97 | 80.66 | -1.45 | 0.0735 |
22 | Thanh Hóa | 77.59 | 72.68 | -1.46 | 0.0727 |
23 | Kon Tum | 77.23 | 74.31 | -1.48 | 0.0692 |
24 | TuyênQuang | 75.82 | 91.05 | -1.49 | 0.0686 |
25 | Nghệ An | 76.25 | 83.81 | -1.50 | 0.0666 |
26 | Thừa Thiên | 77.58 | 68.29 | -1.50 | 0.0664 |
27 | Lạng Sơn | 76.95 | 73.15 | -1.53 | 0.0635 |
28 | Hòa Bình | 75.62 | 86.65 | -1.54 | 0.0613 |
29 | Yên Bái | 75.44 | 88.58 | -1.55 | 0.0609 |
30 | Quảng Trị | 75.96 | 81.59 | -1.55 | 0.0600 |
31 | Quảng Nam | 77.07 | 67.06 | -1.58 | 0.0572 |
32 | Hà Giang | 75.36 | 85.83 | -1.58 | 0.0570 |
33 | Lai Châu | 75.85 | 78.95 | -1.59 | 0.0557 |
34 | Bà Rịa - VT | 77.90 | 54.95 | -1.63 | 0.0514 |
35 | Bình Phước | 76.24 | 68.37 | -1.66 | 0.0481 |
36 | Cao Bằng | 74.33 | 86.59 | -1.68 | 0.0461 |
37 | Sơn La | 74.22 | 87.67 | -1.68 | 0.0460 |
38 | Cà Mau | 76.93 | 56.33 | -1.74 | 0.0409 |
39 | Đồng Nai | 78.59 | 40.07 | -1.80 | 0.0357 |
40 | Quảng Bình | 77.18 | 50.32 | -1.81 | 0.0354 |
41 | Bạc Liêu | 74.24 | 69.11 | -1.90 | 0.0290 |
42 | Lào Cai | 75.30 | 59.45 | -1.91 | 0.0283 |
43 | Bình Dương | 75.25 | 58.85 | -1.92 | 0.0272 |
44 | Bắc Kạn | 72.02 | 81.39 | -1.99 | 0.0231 |
45 | Hậu Giang | 74.32 | 61.25 | -2.00 | 0.0225 |
46 | Cần Thơ | 81.39 | 16.97 | -2.09 | 0.0183 |
47 | Điện Biên | 73.16 | 64.09 | -2.10 | 0.0177 |
48 | Gia Lai | 73.84 | 58.51 | -2.11 | 0.0173 |
49 | Đak Nông | 73.10 | 61.81 | -2.15 | 0.0158 |
50 | Vĩnh Long | 78.73 | 26.23 | -2.20 | 0.0139 |
51 | Phú Yên | 74.66 | 47.23 | -2.23 | 0.0128 |
52 | Tiền Giang | 84.32 | 6.47 | -2.23 | 0.0127 |
53 | Long An | 83.94 | 6.77 | -2.33 | 0.0100 |
54 | Đak Lak | 71.62 | 59.97 | -2.37 | 0.0088 |
55 | Đồng Tháp | 73.91 | 34.65 | -2.73 | 0.0031 |
56 | Bến Tre | 78.42 | 17.62 | -2.76 | 0.0029 |
57 | Bình Thuận | 78.22 | 17.73 | -2.80 | 0.0026 |
58 | Sóc Trăng | 69.48 | 49.23 | -2.92 | 0.0017 |
59 | Trà Vinh | 78.82 | 11.95 | -3.23 | 0.0006 |
60 | An Giang | 76.93 | 15.62 | -3.31 | 0.0005 |
61 | Kiên Giang | 68.37 | 29.49 | -3.98 | 0.0000 |
62 | Tây Ninh | 76.78 | 7.22 | -4.92 | 0.0000 |
63 | Ninh Thuận | 71.18 | 11.39 | -5.58 | 0.0000 |
(Nguồn: Blog Nguyễn Văn Tuấn)