prezydenta Obamy plan ocenianie szkół wyższych na podstawie wyników studentów wywołało w dużej mierze pozytywną reakcję, skupioną wokół zdania, że diabeł tkwi w szczegółach. Ten frazes jest z pewnością prawdziwy, a kluczowym szczegółem, który zwiedzie twórców nowych ocen, jest to, jak dostosować wyniki każdej instytucji, aby uwzględnić cechy ciała studenckiego. Pewien rodzaj dostosowania ma kluczowe znaczenie dla zapewnienia uczciwych porównań między instytucjami — na przykład, aby uniknąć karania instytucji, które przyjmują studentów, którzy przyjeżdżają ze słabym przygotowaniem akademickim.
Beth Akers i ja argumentowaliśmy, że dostosowanie regresji jest obiecującą strategią dokonywania takich porównań. Analiza regresji pozwala na tworzenie wskaźników, które pokazują, jak dobrze instytucja radzi sobie w stosunku do tego, czego można by się spodziewać na podstawie charakterystyki jej studentów. Na przykład taka analiza może wskazywać, że uczelnie, na które uczęszczają studenci ze średnimi wynikami SAT/ACT wynoszącymi 1050 i gdzie 35 procent studentów kwalifikuje się do stypendiów Pell, mają zazwyczaj wskaźnik ukończenia sześcioletnich studiów wynoszący około 50 procent. Można by wtedy wywnioskować, że uczelnia z tymi cechami, ale z 65-procentowym wskaźnikiem ukończenia studiów, wykonuje całkiem dobrą robotę. Inna uczelnia z tymi samymi wskaźnikami ukończenia studiów, ale z cechami, które przewidywałyby 75-procentowy wskaźnik ukończenia, zostałaby uznana za całkiem słabą.
fazy księżyca dzisiaj usa
Prostszym sposobem porównania ogólnie podobnych instytucji jest użycie grup porównawczych lub grup rówieśniczych. Na przykład Departament Edukacji Stanów Zjednoczonych umożliwia instytucjom wybór członków grupa porównawcza z którymi zostaną porównane w raportach IPEDS Data Feedback Reports. W nowym rządowym systemie ocen można sobie wyobrazić wybór grup porównawczych na podstawie zestawu cech uczniów, takich jak przygotowanie akademickie i status społeczno-ekonomiczny.
Podejście grup porównawczych jest łatwiejsze do zrozumienia, ale niestety ma znaczne ograniczenia. Po pierwsze, grupy porównawcze z konieczności odrzucają potencjalnie przydatne informacje. Na przykład, można zdefiniować grupę porównawczą jako instytucje ze średnimi wynikami SAT/ACT pomiędzy 1000 a 1100, gdzie 30-40 procent studentów otrzymuje stypendia Pell. Ale oczywiście ta grupa obejmuje instytucje z tych zakresów. Czy naprawdę uczciwe jest porównywanie instytucji ze średnim wynikiem testu wynoszącym 1000, czyli 40% Pell, z instytucją ze statystykami 1100 i 30%?
Rysunek 1 porównuje oceny wszystkich czteroletnich uniwersytetów publicznych w USA obliczone na dwa różne sposoby. Metoda grup porównawczych dzieli instytucje na pięć kategorii na podstawie wyników SAT/ACT i pięć kategorii na podstawie rejestracji Pell, co daje łącznie 25 możliwych kategorii. Następnie ocena jest obliczana jako różnica między stopniem ukończenia każdej instytucji a średnią grupy porównawczej. Metoda korekty regresji oblicza ocenę, która jest różnicą między rzeczywistym współczynnikiem ukończenia studiów a współczynnikiem przewidywanym dla typowej uczelni o dokładnie takich samych cechach. Rysunek 1 pokazuje wyraźną zależność między tymi dwiema ocenami, ale wiele różnic. W szczególności uczelnie z taką samą oceną na podstawie grup porównawczych różnią się zauważalnie w swoich ocenach opartych na korekcie regresji.
Rysunek 1. Porównanie ocen na podstawie grup porównawczych i korekty regresji
Źródło: Obliczenia autorskie z IPEDS.
Drugim problemem związanym z grupami porównawczymi jest to, że nie da się ich zdefiniować na podstawie więcej niż bardzo małego zestawu cech. Tabela 1 ilustruje to, pokazując liczbę czteroletnich instytucji publicznych w każdej z 25 różnych grup porównawczych, zdefiniowanych w oparciu o pięć kategorii każdej z dwóch cech: średni wynik SAT/ACT i procent z grantem Pell. Ponad połowa grup porównawczych zawiera mniej niż 10 instytucji, a cztery grupy zawierają dokładnie jedną instytucję. W tym drugim przypadku porównania nie są nawet możliwe.
jaka jest prawa burta łodzi?
Tabela 1. Liczba czteroletnich instytucji publicznych, według wyniku SAT/ACT i procentu Pell
Źródło: Obliczenia autorskie z IPEDS.
Wiarygodny system ocen byłby oczywiście oparty na więcej niż tylko dwóch cechach, co tylko pogorszyłoby ten problem. Dodanie jeszcze jednej cechy z pięcioma kategoriami oznaczałoby 125 grup, a dodanie czwartej zwiększyłoby ją do 625 — więcej niż liczba czteroletnich instytucji publicznych w kraju! Problem ten można by rozwiązać poprzez mniejszą liczbę kategorii, ale to pogorszyłoby pierwszy problem poprzez wrzucenie do jednego worka instytucji o zupełnie innych cechach.
Należy zauważyć, że dzisiaj nie można było obliczyć wiarygodnych ratingów, nawet przy najostrożniejszych korektach regresji, ze względu na ograniczenia w istniejących danych o szkołach wyższych i uniwersytetach. Wiele instytucji, zwłaszcza uczelnie społeczne, nie zbiera danych na temat wyników SAT/ACT. Dane dotyczące demografii uczniów ograniczają się do kilku cech, takich jak uprawnienia Pell, rasa i płeć. A wyniki są ograniczone do wskaźników ukończenia studiów dla wąsko zdefiniowanej grupy studentów w całej instytucji, podczas gdy mogą występować znaczne różnice między różnymi programami w ramach uczelni. Konieczna będzie radykalna rewizja federalnych wysiłków w zakresie gromadzenia danych IPEDS, aby nowy system ocen uczelnianych odniósł sukces.
Regulacja regresji nie jest idealnym rozwiązaniem na wyrównanie szans dla instytucji obsługujących różne rodzaje studentów. Metoda regresji przyjmuje pewne założenia, które mogą nie być prawdziwe, aby uzyskać ocenę dla każdej instytucji, niezależnie od tego, czy rzeczywiście istnieją podobne instytucje (rozważ grupy w tabeli 1, które mają tylko jednego członka). I chociaż metoda daje wyniki, które wydają się być porównywalne w wielu różnych instytucjach, w rzeczywistości takie porównania mogą być nieodpowiednie. Najbardziej sensowne jest porównanie ocen skorygowanych o regresję w ramach ogólnych grup porównawczych (takich jak czteroletnie prywatne uniwersytety badawcze lub czteroletnie publiczne instytucje kompleksowe). Innymi słowy, każda pojedyncza metryka skorygowana o regresję powinna być częścią szerszego systemu, który obejmuje kilka miar, aby złagodzić próby skupienia się zbytnio na jednej miarze (lub próba gry).
Częstym zarzutem wobec korekty regresji jest to, że jest zbyt skomplikowane, aby wyjaśnić decydentom, uczelniom i potencjalnym studentom. Przejrzystość metodologii rządowej będzie oczywiście ważna, ale nie jest tak ważne, aby szczegóły metody były łatwo zrozumiałe dla każdego konsumenta ratingów. Większość bywalców restauracji w Nowym Jorku prawdopodobnie nie rozumie, w jaki sposób wydział zdrowia wymyśla oceny na piśmie, ale nadal traktuje je poważnie. W szkolnictwie wyższym ważniejsze jest, aby oceny były dokładnym wskaźnikiem jakości, niż aby podstawowa metodologia była łatwo zrozumiała dla mas.