교육 현장에서 학습으로서 평가의 기능에 주안점을 둔 형성평가에 대한 관심이 점점 높아지고 있다. 형성평가의 의의를 효과적으로 살릴 수 있는 방법 중에 하나는 동료평가이다. 동료평가는 학생들끼리 서로의 과제물이나 수행 과정에 대해 점수를 부여하거나 의견을 제시하는 평가 활동이다. 특히 글쓰기 수업에서 동료평가를 활용하면 학생들이 서로의 글을 비교·검토하면서 글을 평가하는 안목을 기를 수 있고, 자신의 글에 대해서 반성적으로 점검해볼 수 있는 기회를 제공한다. 결과적으로 학생들은 자신뿐 아니라 다른 학생의 사고과정을 반추하게 되어 글쓰기 능력을 발전시킬 수 있다. 동료평가는 또한 교수자들이 다수 학생들의 글쓰기 과제를 평가하는데 드는 시간과 노력을 경감시켜 주는 부수적 효과도 있다. 원칙적으로 교수자들이 학생들의 과제를 매번 평가하고 피드백을 주는 것이 이상적이지만, 현실적으로 상당한 부담이 될 수밖에 없다. 최근 동료평가를 더욱 효율적으로 시행하기 위해 웹 기반 동료평가 시스템도 개발되고 있어 앞으로 활용도가 더욱 높아질 것으로 예상되고 있다.하지만 동료평가 결과를 성적에 반영하는 문제에는 논란의 여지가 있다. 전문가가 아닌 비전문가 학생들이 실행한 동료평가 결과는 과연 얼마나 정확할까? 만약 학생들의 동료평가 결과가 정확하다면 이를 성적에 반영함으로써 더욱 효과적으로 이용할 수 있다.본 연구에서는 동료평가의 정확성을 향상시키는 방안들을 분석하였다. 특히 동료평가 사후에 통계적 절차에 따라 결과의 정확도를 개선하는 방법에 주목하였다, 구체적으로 우수 평가자의 평균을 적용하는 방안(select-crowd strategy)을 응용하여 상대적으로 정확도가 낮은 하위 평가자들을 제외시켜 나가는 방식들을 실행하고 비교하였다. 이를 통해 동료평가 결과의 정확성이 어떻게 개선되는지 살펴보았다.분석대상은 한 학기 동안 서울대학교 심리학과 학부 수업 중 이루어진 동료평가를 대상으로 삼았다. 이 동료평가는 클래스프렙(ClassPrep) 시스템을 활용하여 이루어졌다. 이 시스템은 예습을 위해 고안된 것이다. 학생들에게 한 가지 주제에 대해 클래스프렙에서 제시된 자료를 읽게 한 후 각자 그에 대한 글을 쓰도록 한 다음 다른 4명이 쓴 글들을 평가하도록 하였다. 그런 뒤 준전문가 2명이 모든 학생들의 글들을 각각 평가하고 채점하게 하여, 동료평가의 정확도를 비교하는 기준으로 삼았다. 우선 보통 통계에서 많이 쓰이는 이상치(outlier)를 제외하는 방법의 하나로 최고값과 최소값을 제거한 후 동료평가 점수를 준전문가 점수와 비교해 보았으나 유의미한 결과를 얻지 못하였다. 그 다음으로 하위 평가자 그룹을 제외한 점수를 준전문가 점수와 비교하였다. 이 때 준전문가척도와의 편차, 준전문가척도와의 상관관계, 동료평가 점수 평균과의 편차, 동료평가 점수 평균과의 상관관계를 보는 4가지 방법으로 측정하였으며, 각각 하위 25%, 50%를 순차적으로 제외하고 얻어진 동료평가의 점수를 준전문가 점수와 비교하였다. 연구 결과 각각 25%, 50%의 하위 평가자 그룹을 제외했을 때 모두 동료평가의 정확도가 개선되었다. 단순히 이상치만 제거했을 때 동료평가의 정확성은 개선되지 않았으나, 하위 평가자를 제외했을 때 준전문가척도와 비교한 경우나 동료평가 내부에서 비교한 경우 정확성이 유의미하게 향상되었다. 이러한 연구 결과는 동료평가의 사후적 통계 처치 방법에 따라 동료평가 결과의 정확도를 향상시킬 수 있음을 보여준다. 후속 연구를 통해 이 방법의 효과가 반복적으로 확인된다면, 실제 수업에서 동료평가가 학생과 교수자 모두에게 유용한 학습 도구로 활용될 수 있는 가능성을 높여줄 수 있을 것으로 기대된다.