Kiểm định Chuẩn hóa và Đánh giá Tham chiếu Chuẩn mực
Kiểm định chuẩn hóa và đánh giá tham chiếu chuẩn mực là việc sử dụng các công cụ chính thức được thực hiện và chấm điểm trong các điều kiện cố định, để hiệu suất của một cá nhân có thể được so sánh với phân bố điểm thu được từ một mẫu tham chiếu (chuẩn mực) đại diện. Trong bệnh lý ngôn ngữ-lời nói, các công cụ này tạo ra điểm chuẩn, thứ hạng phần trăm và tuổi tương đương được sử dụng để hỗ trợ các quyết định về đủ điều kiện, mức độ nghiêm trọng và chẩn đoán.
Definition
Một bài kiểm tra tham chiếu chuẩn mực là một phép đo được thực hiện và chấm điểm trong các điều kiện chuẩn hóa và được diễn giải bằng cách so sánh điểm thô của một cá nhân với phân bố điểm từ một mẫu chuẩn mực được xác định, thường được biểu thị dưới dạng điểm chuẩn hoặc thứ hạng phần trăm.
Scope
Chủ đề này bao gồm logic của đo lường tham chiếu chuẩn mực, ý nghĩa của chuẩn hóa, các thuộc tính tâm lý học (độ tin cậy, độ giá trị, tính đầy đủ của chuẩn mực) quyết định độ tin cậy của một bài kiểm tra, và việc giải thích cũng như giới hạn của các tiêu chí ngưỡng. Nó coi kiểm định chuẩn hóa là một phương thức đánh giá trong bệnh lý ngôn ngữ-lời nói và là một chủ đề phương pháp luận, không phải là hướng dẫn để kiểm tra một cá nhân.
Core questions
- Điểm chuẩn thực sự cho chúng ta biết điều gì về một cá nhân so với các đồng nghiệp?
- Mẫu chuẩn mực, độ tin cậy và độ giá trị của một bài kiểm tra phải đủ tốt đến mức nào trước khi điểm số của nó có thể hướng dẫn chẩn đoán?
- Nên đặt ngưỡng chẩn đoán ở đâu, và lựa chọn đó ảnh hưởng đến độ nhạy và độ đặc hiệu như thế nào?
- Khi nào kiểm định tham chiếu chuẩn mực là công cụ không phù hợp, và điều gì nên bổ sung cho nó?
Key concepts
- Chuẩn hóa việc thực hiện và chấm điểm
- Mẫu chuẩn mực (tham chiếu)
- Điểm chuẩn, thứ hạng phần trăm, tuổi tương đương
- Độ tin cậy (kiểm tra lại, tính nhất quán nội bộ)
- Độ giá trị (cấu trúc, nội dung, tiêu chí)
- Độ nhạy, độ đặc hiệu và các ngưỡng chẩn đoán
- Sai số đo lường chuẩn
- Diễn giải tham chiếu chuẩn mực so với tham chiếu tiêu chí
Mechanisms
Một bài kiểm tra được chuẩn hóa bằng cách cố định các mục, quy trình thực hiện và quy tắc chấm điểm, sau đó thực hiện nó trên một mẫu chuẩn mực được chọn để đại diện cho quần thể quan tâm. Điểm thô của một cá nhân được chuyển đổi, sử dụng phân bố của mẫu đó, thành điểm chuẩn hoặc phần trăm để định vị người đó so với các đồng nghiệp. Giá trị diễn giải của vị trí này phụ thuộc vào độ tin cậy của bài kiểm tra (tính nhất quán của phép đo), độ giá trị của nó (liệu nó có đo lường cấu trúc dự định hay không) và tính đại diện của các chuẩn mực. Việc sử dụng chẩn đoán bổ sung một quy tắc quyết định: một ngưỡng dưới đó hiệu suất được coi là rối loạn, vị trí của nó chi phối sự đánh đổi giữa độ nhạy và độ đặc hiệu (Spaulding, Plante, & Farinella, 2006).
Clinical relevance
Điểm tham chiếu chuẩn mực thường xác định điều kiện đủ để được hưởng dịch vụ và mức độ nghiêm trọng được ghi nhận của một rối loạn giao tiếp, do đó chất lượng tâm lý học của chúng có những hệ quả trực tiếp đối với việc ai được xác định. Mục này mô tả cách các điểm đó được suy ra và diễn giải cũng như các điều kiện mà chúng đáng tin cậy; đây là một định hướng tham chiếu và không quy định cách kiểm tra hoặc chẩn đoán một người cụ thể.
Evidence & guidelines
Các đánh giá phương pháp luận đã nhiều lần phát hiện ra rằng nhiều bài kiểm tra ngôn ngữ và phát âm đã xuất bản không đáp ứng các tiêu chí tâm lý học cơ bản về độ tin cậy, độ giá trị và tính đầy đủ của chuẩn mực, cảnh báo không nên dựa vào điểm số của chúng một cách thiếu phê phán (McCauley & Swisher, 1984). Các phân tích về tiêu chí đủ điều kiện cho thấy rằng các ngưỡng thông thường (ví dụ, hiệu suất thấp hơn một hoặc nhiều độ lệch chuẩn so với giá trị trung bình) không nhất quán phân biệt trẻ em bị suy giảm ngôn ngữ với các bạn cùng lứa phát triển bình thường, vì các bài kiểm tra khác nhau về độ chính xác chẩn đoán của chúng (Spaulding et al., 2006). Các Tiêu chuẩn về Kiểm định Giáo dục và Tâm lý học đưa ra các kỳ vọng chung về phát triển bài kiểm tra, bằng chứng về độ giá trị và sử dụng công bằng (AERA, APA, & NCME, 2014).
History
Kiểm định tham chiếu chuẩn mực trong các rối loạn giao tiếp đã mở rộng nhanh chóng vào giữa thế kỷ XX cùng với phong trào tâm lý học rộng lớn hơn được hệ thống hóa bởi các nhân vật như Anastasi. Đến những năm 1980, sự gia tăng của các bài kiểm tra ngôn ngữ và phát âm đã thúc đẩy việc kiểm tra tâm lý học có hệ thống (McCauley & Swisher, 1984), và công việc tiếp theo đã chuyển trọng tâm từ các ngưỡng tiện lợi sang độ chính xác chẩn đoán được ghi nhận và việc tích hợp các điểm chuẩn hóa với các bằng chứng đánh giá khác (Spaulding et al., 2006).
Debates
- Liệu hiệu suất dưới một ngưỡng thông thường có đủ để chẩn đoán suy giảm chức năng không?
- Các ngưỡng chẩn đoán như -1 hoặc -1.25 độ lệch chuẩn được sử dụng rộng rãi, nhưng độ nhạy và độ đặc hiệu của chúng thay đổi giữa các bài kiểm tra; việc dựa vào một ngưỡng thông thường duy nhất có thể vừa xác định quá mức vừa xác định dưới mức trẻ em, do đó ngưỡng phải được biện minh bằng độ chính xác chẩn đoán được đo lường của bài kiểm tra.
- Các mẫu chuẩn mực đại diện cho các quần thể đa dạng tốt đến mức nào?
- Khi một mẫu chuẩn mực không đại diện cho nền tảng ngôn ngữ hoặc văn hóa của một người, điểm chuẩn có thể làm sai lệch khả năng, đặt ra những câu hỏi lâu dài về việc sử dụng công bằng các bài kiểm tra tham chiếu chuẩn mực trên các quần thể.
Key figures
- Rebecca McCauley
- Linda Swisher
- Elena Plante
- Tammie Spaulding
- Anne Anastasi
Related topics
Seminal works
- mccauley-swisher-1984
- spaulding-2006
- anastasi-urbina-1997
Frequently asked questions
- Sự khác biệt giữa đánh giá tham chiếu chuẩn mực và đánh giá tham chiếu tiêu chí là gì?
- Đánh giá tham chiếu chuẩn mực so sánh điểm của một người với phân bố của một mẫu tham chiếu để cho thấy vị trí tương đối, trong khi đánh giá tham chiếu tiêu chí so sánh hiệu suất với một kỹ năng hoặc tiêu chuẩn được xác định bất kể các đồng nghiệp thực hiện như thế nào.
- Tại sao sai số đo lường chuẩn lại quan trọng?
- Vì không có bài kiểm tra nào hoàn toàn đáng tin cậy, một điểm số thu được là một ước tính; sai số đo lường chuẩn định lượng sự không chắc chắn của nó và đó là lý do tại sao điểm số được diễn giải tốt nhất dưới dạng khoảng tin cậy hơn là các điểm chính xác, đặc biệt là gần ngưỡng chẩn đoán.