

ScienceDirect
Procedia - Social and
Behavioral Sciences 173 (2015) 5 – 10
32nd International Conference of the
Spanish Association of Applied Linguistics (AESLA):
Language Industries
and Social Change
Identifying learning patterns in the upper-
intermediate level of English through large-scale testing
Irina
Argüelles-Alvareza*, Margarita
Martinez-Nuñezb
aDep. of
Linguistics Applied to Science and Technology, Universidad Politécnica de
Madrid, Crta. de Valencia, km 7, Madrid 28031, Spain
b Dep. of
Bussiness Organization, Management and Statistics, Universidad Politécnica de
Madrid, Crta. de Valencia, km 7, Madrid 28031, Spain
Abstract
In this paper we will summarize the
rationale and validation process of a multiple choice test developed at the
Universidad Politécnica de Madrid (UPM) to regulate the students’ access to the
subject “English for Professional and Academic Communication” for which a B2
proficiency level, in accordance with the Common European Framework of
Reference for Languages (CEFRL), was established as a minimum level. Item
difficulty and item discrimination are studied and analyzed from the
large-scale application of the test to 924 students. The aim of the study is to
reach preliminary conclusions about possible areas where sequential learning on
the part of students could be studied.
© 2015 The Authors. Published by
Elsevier Ltd. This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).
Peer-review
under responsibility of Universidad Pablo de Olavide.
Keywords:
Large-scale testing; learning patterns;
item response models; teaching and assessment processes
1.
Introduction
After having
extensively documented the rationale, layout, description and validation
process of a multiple choice test developed at the Universidad Politécnica de
Madrid (UPM) to regulate the students’ access to the subject “English for
Professional and Academic Communication” (Argüelles Álvarez et al., 2011;
Argüelles Álvarez & Pablo-Lerchundi, 2012; Argüelles Álvarez, 2013), it is
probably time now to move further in the analysis of the
* Corresponding
author. Tel.: +34-91-336-5229 E-mail address: irina@etsist.upm.es
1877-0428 © 2015 The Authors. Published
by Elsevier Ltd. This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).
Peer-review under responsibility of
Universidad Pablo de Olavide.
doi:10.1016/j.sbspro.2015.02.022
6 Irina Argüelles-Alvarez
and Margarita Martinez-Nuñez / Procedia - Social and Behavioral Sciences 173
(2015) 5 – 10
results obtained from the large-scale
application of the test to 924 students across University. In Argüelles Álvarez
(2013), test item difficulty was analyzed applying qualitative techniques to
reach preliminary conclusions about possible areas where sequential learning on
the part of students could be studied. This key idea that learners progress
through an order when acquiring grammatical structures, is supported by
convincing evidence (Ortega, 2011) and represents one major finding of Second
Language Acquisition (SLA) empirical research.
In what follows, we
will first revise the initial conclusions we reached in the past (Argüelles
Álvarez, 2013) with respect to item difficulty, as these could eventually be
seen as evidence of existing learning patterns. Then, we will present further
item analysis framed in item response theory (IRT) (Bachman, 1990, pp. 202-208)
that apply item response models in order to make predictions about individual’s
performance on specific items. This further quantitative study of items gives
us additional clues about the discriminability index of items and therefore,
how they relate with one another. At the same time, we also aim at determine
future lines for change in the original proficiency test. Besides the
theoretical study, we will try to establish a connection between test results
and eventual patterns in the students’ learning process.
2.
Test result
2.1.
Test reliability
Although test
reliability was already studied at the pilot stage (Arguelles Álvarez &
Pablo-Lerchundi, 2012) recent results obtained at the large-scale application
of the test across university are summarized in Table 1 with a result of:
Cronbach = 0.918.
Table
1. Test reliability
|
Cronbach
Alfa
|
N
elements
|
|
|
|
|
.918
|
924
|
|
|
|
This reliability
coefficient in the range of 0 and 1, estimates the extent to which test takers
would have obtained similar results in comparable parallel tests (Morales, 2012).
As for the test validity it was extensively studied, analyzed and justified in
Argüelles Álvarez (2013).
2.2.
Item difficulty
Although for
multiple-choice tests, the average item difficulty index is set higher to
compensate possible guessing strategies, standardised tests aim at a range of
30% to 70% spread of difficulty, averaging out at approximately 50% (Davies et
al., 1999, pp. 95-96). The degree of difficulty of a test item, calculated on
the basis of a group test performance, can eventually lead us to conclusions
about the degree of difficulty of the trait under test and items that are too
easy (with an index close to 100%) or too difficult (with an index close to 0%)
do not usually contribute to a test’s discriminability. The items in our test averaged
51.30% as described in Argüelles Álvarez (2013).
2.3.
Item discriminability
Item discrimination is
a crucial feature to consider in criterion-referenced testing as here,
discrimination implies the test’s capacity to distinguish between masters and
non-masters on the trait that the test is aimed to measure. Several statistical
techniques can be used to calculate item discrimination. According to Morales
(2012), the formula 1 below, for example, aims to calculate item discrimination
as follows:
DI
CAUR CALR Ngs
Fig.1: Formula
|
7
|
Where:
DI=item discrimination index;
CAUR=number of correct answers in the
upper range; CALR=number of correct answers in the lower range; Ngs=group size
And state the
discrimination intervals below: >0.61 Very High
0.41 to 0.60 High
0.31 to 0.40 Average < 0.30 Low
In calculating the
discrimination index (DI), first each student's test are scored and ordered.
Next, the 27% of the students at the top and the 27% at the bottom are
separated for the analysis. According to Wiersma & Jurs (1990, pp. 145),
“27% is used because it has shown that this value will maximize differences in
normal distributions while providing enough cases for analysis”.
The discrimination
index is therefore the number of students in the masters (higher) group who
answered the item correctly minus the number of students in the non-masters
(lower) group who answered the item correctly, divided by the number of
students in the largest group. Wood (1960) stated that when more students in
the lower group than in the upper group select the right answer to an item, the
item is showing negative discrimination or negative validity. Therefore, if we
assume that the criterion itself has validity, the item is not only useless but
is actually decreasing the validity of the test and consequently, should be
discarded.
Classical analysis has
traditionally calculated item discrimination by means of correlation techniques
such as the usual “Pearson product-moment correlation coefficients”. The
latter, take advantage of the fact that individual item scores can be only 0 or
1 (Engelhart, 1965; Guilford & Fruchter, 1978). The mean item-total correlation
coefficient may be estimated from the mean and standard deviation of the total
scores, both expressed as fractions of N (number of items) (Burton, 2001).
3. Discussion
In order to reach
preliminary conclusions from the results obtained, we are mainly concerned with
the classification easy/difficult and discriminability indexes of the discrete
functional-grammar items that make up the first part of the test. As largely
described in previous research (Argüelles Álvarez et al., 2011; Argüelles
Álvarez & Pablo-Lerchundi, 2012; Argüelles Álvarez, 2013), the second part
of the test, presents the stimulus material in the form of text with cloze-type
tasks and reading comprehension questions that are not discussed herein as the
decision was made from the beginning to study the results in the reading
section apart.
3.1.
Classification easy-difficult
Table
2 below, summarizes the classification easy-difficult presented in Argüelles
Álvarez (2013):
Table
2. Classification easy-difficult of the discrete items in the test
|
|
|
Correct
answers <30%
|
Correct
answers >70%
|
|
|
|
|
|
|
|
Number of items under this category
|
21
|
22
|
|
|
|
|
|
Among the grammar,
functions or notions addressed in the 22 items that were answered correctly on
the part of the test takers in the range of >70%, and therefore, classified
in Argüelles Álvarez (2013) as “easy”, many address temporal and aspectual
meanings (anaphoric time, duration or frequency). Furthermore, notions related
to time and temporality such as grammatical tense and aspect have shown to be
correctly interpreted by the selection of the
8 Irina Argüelles-Alvarez
and Margarita Martinez-Nuñez / Procedia - Social and Behavioral Sciences 173
(2015) 5 – 10
correct option among the four possible
given: [...] already*[...], [...] during*[...], [...] usually get up*[...],
[...] have ever known*[...]. Others worth mentioning are grammatical knowledge
and use of subordinating conjunctions as in “[...] unless* you press the bell”
(item 10). Finally, with regard to modal verbs, those indicating “impossibility”
are classified in this range of >70%, while “certainty” falls in the
category from 30% to 70%. 76,53% students answered correctly to item number 32
whereas only 58,91% selected the correct option in the case of item number 33.
See examples 1 and 2 below:
Example 1:
You _____ go wrong if you follow the instructions. Impossible. Options: a)
might, b) must, c) could, d) can’t*
Example
2: He _____ have taken the money.
Certain. Options: a) may, b) must*, c) could, d) can’t
Among the grammar, functions
or notions addressed in the 21 items that were classified as “difficult”
(<30%), the following can be highlighted: grammatical form and meaning of
few, a few, little, a little; adjacency pair to assess grammatical form in the
context of the adverb rather used as “more readily or willingly” or grammatical
form of the Saxon genitives.
3.2.
Discrimination Index
According to DI
formula, there are not values over 0.60 in our sample and therefore, our
classification is summarized as shown in Table 3:
Table
3. Discrimination Index (DI) classification
|
Discrimination
Index (DI)
|
Frequency
|
Average Index Value
|
Items Mean
|
Typical
Deviation
|
|
|
|
|
|
|
|
>
41% (high)
|
10
|
47.15
|
55.00%
|
0.49
|
|
|
|
|
|
|
|
30-40%
(average)
|
34
|
34.84
|
51.00%
|
0.47
|
|
|
|
|
|
|
|
<30%
(low)
|
56
|
22.76
|
58.00%
|
0.44
|
|
|
|
|
|
|
According to the
item-total correlation indexes calculated by means of SPSS, the range over 35%
has been considered as high, between 30-35%, average and under 35% the range
has been regarded as low as shows Table 4.
Table
4. Discrimination Coefficient item-total
|
|
Discrimination
|
Frequency
|
Coefficient
|
Mean
|
Typical
|
|
|
Coefficient
|
|
Mean
|
|
Deviation
|
|
|
> 35%
(high)
|
22
|
40.23
|
44.00%
|
0.46
|
|
|
|
|
|
|
|
|
|
30-35%
(average)
|
31
|
32.3
|
56.00%
|
0.46
|
|
|
|
|
|
|
|
|
|
<30% (low)
|
47
|
24.58
|
61.00%
|
0.45
|
|
|
|
|
|
|
|
From the intersection
of both classifications the items that are definitely influencing test
discrimination are shown in Table 5 below:
Table
5: Item discriminability (own classification)
|
|
|
N
(Frequency)
|
Item
number
|
|
|
|
|
|
|
G1
|
(High
discriminability)
|
16
|
10, 15, 19, 22, 26, 30, 43, 49, 52, 55, 64, 68, 76, 82,
83, 100.
|
|
|
|
|
|
|
G2
|
(Low
discriminability)
|
15
|
2,
17, 21, 23, 24, 40, 47, 59, 60, 61, 65, 69, 71, 74, 85.
|
|
|
|
|
|
|
9
|
As is the case with
item classification easy-difficult, the second part of the test
(reading-comprehension) is not discussed herein. Therefore, our analysis is
based on the discrete items from 1 to 67 with the aim to address complete
results in further investigation.
It has been largely
repeated that items that are too easy or too difficult should be removed
because they do not contribute to test discriminability (Davies et al., 1999).
From our data, item number 26 falls in the category of “high discriminability”
although regarding its difficulty, the item was answered correctly on the part
of the test takers in the range of <30% (difficult). Designed to test
grammatical form and meaning (cohesive-ellipsis), item 26 seeks the correct
function to express “in a similar manner or way” where students fail to
identify so as the correct answer when the sentence provided as input is
positive (Example 3). On the contrary, 62.40% answers are correct when the
sentence given as input is negative (Example 4):
Example 3:
My father works at home and ____ does my mother. Options: a) so*, b) neither,
c) either, d) same. Example 4: I haven’t tried speed dating and ____
have my friends. Options: a) so, b) neither*, c) either, d) same.
On the opposite side,
item number 10, already mentioned above, falls in the category of “high
discriminability” although the item was answered correctly on the part of the
test takers in the range of >70% (easy).
4. Conclusion
From our preliminary
study, it can be firstly concluded that it can be actually demonstrable that
learners progress through an order when acquiring grammatical structures. This
order could be inferred from their answers to a multiple choice test where
“implicit knowledge” (intuitive and rapidly processed) must be demonstrated.
Secondly, although
according to Alderson & Wall (1993), there is little evidence for the
claims made about the positive or negative impact of language testing, the
effect of testing on instruction has had clear negative consequences in our context.
For the last year, a negative backwash effect has been observed both within the
institution and outside it, which has moved students to attend heavily
grammar-based exam preparatory courses. This tendency must be reverted, which
necessarily implies the need to design and validate new proficiency tests.
The item discrimination
study presented herein represents a final stage in the development of a B2
proficiency test at the same time that it provides us with the necessary
information to start the process again. The departing point this time will be
adapting the items that have demonstrated to be clearly discriminating
proficiency among test takers as part of a more comprehensive and adapted to
the new context proficiency test.
References
Alderson,
J. C. & Wall, D. (1993). Does washback exist? Applied Linguistics,
14 (2), 115-29.
Argüelles Álvarez, I., Pablo-Lerchundi, I.,
Herradón Díez, R. & Baños Expósito, J.M. (2011). Large-scale Testing of
Proficiency in English: Back to Multiple Choice? Proceedings of the BAAL
Conference, University of the West of England, 13-16.
Argüelles
Álvarez, I. & Pablo-Lerchundi, I. (2012). …And back to multiple choice!
Large-scale testing of proficiency in English: an experience.
ODISEA, Revista de
Estudios Ingleses, 13, 9-18.
Argüelles Álvarez, I.
(2013). Large-scale assessment of language proficiency: Theoretical and
pedagogical reflections on the use of multiple-choice tests. In L. Cerezo &
M. Amengual (Eds.) Second Language Testing: Interfaces between Pedagogy and Assessment.
International Journal of English Studies, 13 (2), 21-38.
Bachman, L.
F. (1990). Fundamental considerations in language testing. Oxford:
Oxford University Press.
Burton, R. F. (2001). Do item-discrimination
indices really help us to improve our tests? Assessment and Evaluation in
Higher Education, 20 (3), 213-220
Davies, A., Brown, A., Elder, C., Hill, K.,
Lumley, T. & McNamara, T. (1999). Dictionary of language testing.
Cambridge: Cambridge University Press.
Doughty,
C. & Williams, J. (Eds.) (1998). Focus on form in classroom second
language acquisition. Cambridge: Cambridge University Press. Engelhart, M.
D. (1965). A comparison of several item discrimination indices. Journal of
Educational Measurement, 2(1), 69–76.
Guilford,
J. P. & Fruchter, B. (1978). Fundamental Statistics in Psychology and
Education, 6th ed. New York: McGraw-Hill Book, Co. Morales, P. (2012).
Análisis de ítems en las pruebas objetivas. Facultad de Ciencias Humanas y
Sociales. Universidad Pontificia Comillas.
http://www.upcomillas.es/personal/peter/otrosdocumentos/AnalisisItemsPruebasObjetivas.pdf
10 Irina
Argüelles-Alvarez and Margarita Martinez-Nuñez / Procedia - Social and
Behavioral Sciences 173 (2015) 5 – 10
Ortega,
L. (2011). Sequences and processes in language learning. In M. H. Long & C.
J. Doughty (Eds.) The handbook of language teaching. Oxford: Blackwell
Publishing.
SPSS
for Windows. (2012). Version 21.0.0. Chicago: SPSS Inc. (software on CD-ROM).
Available in SPSS Inc. Website: http://www.spss.com/ Wiersma, W. & Jurs,
S.G. (1990). Educational measurement and testing (2nd ed.). Boston, MA:
Allyn and Bacon.
Wood, D.A. (1960). Test
construction: Development and interpretation of achievement tests.
Columbus, OH: Charles E. Merrill Books, Inc.
Mengidentifikasi
pola belajar di tingkat menengah atas bahasa Inggris melalui pengujian skala
besar
Abstrak
Dalam makalah ini kami akan merangkum
alasan dan proses validasi dari tes pilihan ganda yang dikembangkan di
Universidad Politécnica de Madrid (UPM) untuk mengatur akses siswa untuk subjek
"Bahasa Inggris untuk Profesional dan Akademik Komunikasi" yang
tingkat kemahiran B2, sesuai dengan common Eropa Kerangka Acuan untuk Bahasa
(CEFR), didirikan sebagai tingkat minimum. Item kesulitan dan diskriminasi item
yang dipelajari dan dianalisis dari aplikasi skala besar tes untuk 924 siswa.
Tujuan dari penelitian ini adalah untuk mencapai kesimpulan awal tentang daerah
mana mungkin belajar berurutan pada bagian dari siswa dapat dipelajari.
1.
Perkenalan
Setelah
secara ekstensif mendokumentasikan proses pemikiran, tata letak, deskripsi dan
validasi tes pilihan ganda yang dikembangkan di Universidad Politécnica de
Madrid (UPM) untuk mengatur akses siswa untuk subjek "Bahasa Inggris untuk
Profesional dan Akademik Komunikasi" (Arguelles Álvarez et al ., 2011;
Arguelles Álvarez & Pablo-Lerchundi, 2012; Arguelles Álvarez, 2013), itu
mungkin waktu sekarang untuk bergerak lebih lanjut dalam analisis hasil yang
diperoleh dari aplikasi skala besar tes untuk 924 siswa di Universitas. Dalam
Arguelles Álvarez (2013), soal tes kesulitan dianalisis menerapkan teknik
kualitatif untuk mencapai kesimpulan awal tentang daerah mana mungkin belajar
berurutan pada bagian dari siswa dapat dipelajari. Ide kunci ini yang kemajuan
peserta didik melalui perintah ketika memperoleh struktur gramatikal, didukung
oleh bukti yang meyakinkan (Ortega, 2011) dan merupakan salah satu temuan utama
dari Akuisisi Bahasa Kedua (SLA) penelitian empiris.
Dalam
apa yang berikut, pertama kita akan merevisi kesimpulan awal kami mencapai di
masa lalu (Arguelles Álvarez, 2013) sehubungan dengan barang kesulitan, karena
ini akhirnya bisa dilihat sebagai bukti pola pembelajaran yang ada. Kemudian,
kami akan menyajikan analisis item lanjut dibingkai dalam teori respon butir
(IRT) (Bachman, 1990, hlm. 202-208) yang menerapkan model respon item dalam
rangka untuk membuat prediksi tentang kinerja individu pada item tertentu.
Penelitian kuantitatif lebih lanjut ini item memberi kita petunjuk tambahan
tentang indeks discriminability item dan oleh karena itu, bagaimana mereka
berhubungan satu sama lain. Pada saat yang sama, kami juga bertujuan menentukan
garis depan untuk perubahan dalam tes kemampuan aslinya. Selain studi teoritis,
kita akan mencoba untuk membuat sambungan antara hasil tes dan pola akhirnya
dalam proses belajar siswa.
2.
Hasil Uji
2.1. uji reliabilitas
Meskipun uji reliabilitas sudah dipelajari pada
tahap percontohan (Arguelles Álvarez & Pablo-Lerchundi, 2012) hasil
terakhir diperoleh pada aplikasi skala besar dari tes di universitas diringkas
dalam Tabel 1 dengan hasil: Cronbach = 0,918. Koefisien reliabilitas ini di
kisaran 0 dan 1, memperkirakan sejauh mana pengambil tes akan memperoleh hasil
yang sama dalam tes paralel sebanding (Morales, 2012). Adapun uji validitas itu
dipelajari secara ekstensif, dianalisis dan dibenarkan di Arguelles Álvarez
(2013).
2.2. Item kesulitan
Meskipun untuk pilihan ganda tes, rata-rata indeks
item yang kesulitan diatur lebih tinggi untuk mengkompensasi strategi menebak
mungkin, tes standar bertujuan pada kisaran 30% sampai 70% penyebaran
kesulitan, rata-rata keluar pada sekitar 50% (Davies et al., 1999 , pp. 95-96).
Tingkat kesulitan dari item tes, dihitung berdasarkan dari hasil tes kelompok,
akhirnya dapat membawa kita ke kesimpulan tentang tingkat kesulitan dari sifat
yang diuji dan item yang terlalu mudah (dengan indeks mendekati 100%) atau
terlalu sulit (dengan indeks mendekati 0%) biasanya tidak berkontribusi
discriminability tes ini. Item dalam tes rata 51,30% seperti yang dijelaskan
dalam Arguelles Álvarez (2013).
2.3. Item diskriminasi
Item diskriminasi adalah fitur penting untuk
dipertimbangkan dalam pengujian kriteria-referenced seperti di sini,
diskriminasi menyiratkan kapasitas tes untuk membedakan antara master dan
non-master dari sifat yang tes ini bertujuan untuk mengukur. Beberapa teknik
statistik dapat digunakan untuk menghitung diskriminasi item. Menurut Morales
(2012), rumus 1 di bawah ini, misalnya, bertujuan untuk menghitung diskriminasi
item sebagai berikut:
Dalam menghitung indeks diskriminasi (DI), tes
pertama masing-masing siswa yang mencetak dan memerintahkan. Selanjutnya, 27%
dari siswa di atas dan 27% di bagian bawah dipisahkan untuk analisis. Menurut
Wiersma & Jurs (1990, hlm. 145), "27% digunakan karena telah
menunjukkan bahwa nilai ini akan memaksimalkan perbedaan distribusi normal
sambil memberikan kasus yang cukup untuk analisis".
Oleh karena itu indeks diskriminasi adalah jumlah
siswa di master (lebih tinggi) kelompok yang menjawab item dengan benar
dikurangi jumlah siswa di non-master (rendah) kelompok yang menjawab item
dengan benar, dibagi dengan jumlah siswa dalam terbesar kelompok. Kayu (1960)
menyatakan bahwa ketika siswa lebih pada kelompok rendah dibandingkan kelompok
atas pilih jawaban yang tepat untuk item, item tersebut menunjukkan
diskriminasi negatif atau validitas negatif. Oleh karena itu, jika kita
menganggap bahwa kriteria itu sendiri memiliki validitas, item tersebut tidak
hanya berguna tetapi sebenarnya menurun validitas tes dan akibatnya, harus
dibuang.
Analisis klasik secara tradisional dihitung barang
diskriminasi dengan teknik korelasi seperti biasa "Pearson momen-produk
koefisien korelasi". Yang terakhir, mengambil keuntungan dari fakta bahwa
nilai masing-masing item dapat hanya 0 atau 1 (Engelhart, 1965; Guilford &
Fruchter, 1978). Mean koefisien korelasi item-total dapat diperkirakan dari
mean dan deviasi standar dari total nilai, baik dinyatakan sebagai fraksi N
(jumlah item) (Burton, 2001).
3.
Diskusi
Untuk
mencapai kesimpulan awal dari hasil yang diperoleh, kita terutama berkaitan
dengan klasifikasi indeks mudah / sulit dan discriminability item
fungsional-tata diskrit yang membentuk bagian pertama dari ujian. Seperti
sebagian besar dijelaskan dalam penelitian sebelumnya (Arguelles Álvarez et al,
2011;. Arguelles Álvarez & Pablo-Lerchundi, 2012; Arguelles Álvarez, 2013),
bagian kedua dari tes, menyajikan materi stimulus dalam bentuk teks dengan
cloze-jenis tugas dan pertanyaan pemahaman bacaan yang tidak dibahas di sini
sebagai keputusan itu dibuat dari awal untuk mempelajari hasil dalam bagian
bacaan terpisah. Di antara tata bahasa, fungsi atau gagasan dibahas dalam 22
item yang menjawab dengan benar pada bagian dari pengambil tes di kisaran>
70%, dan karena itu, diklasifikasikan dalam Arguelles Álvarez (2013) sebagai
"mudah", banyak alamat temporal dan arti Aspectual (waktu anaforis,
durasi atau frekuensi). Selanjutnya, gagasan terkait dengan waktu dan
temporalitas seperti tata bahasa tegang dan aspek telah terbukti benar ditafsirkan
oleh pemilihan.
4.
Kesimpulan
Dari
penelitian awal kami, dapat disimpulkan pertama bahwa hal itu dapat benar-benar
dibuktikan bahwa peserta didik maju melalui perintah ketika memperoleh struktur
tata bahasa. Pesanan ini dapat disimpulkan dari jawaban mereka untuk tes
pilihan ganda di mana "pengetahuan implisit" (intuitif dan diproses
dengan cepat) harus ditunjukkan.
Kedua,
meskipun menurut Alderson & Dinding (1993), ada sedikit bukti untuk klaim
yang dibuat tentang dampak positif atau negatif dari pengujian bahasa, efek
pengujian pada instruksi memiliki konsekuensi negatif yang jelas dalam konteks
kita. Untuk tahun lalu, efek negatif backwash telah diamati baik di dalam
lembaga dan di luar itu, yang telah pindah siswa untuk menghadiri ujian kursus
persiapan berat-tata bahasa berbasis. Kecenderungan ini harus dikembalikan,
yang tentu menyiratkan kebutuhan untuk merancang dan memvalidasi tes kemahiran
baru.
Studi
diskriminasi item yang disajikan di sini merupakan tahap akhir dalam
pengembangan tes kemahiran B2 pada saat yang sama bahwa ia menyediakan kami
dengan informasi yang diperlukan untuk memulai proses lagi. The berangkat titik
waktu ini akan mengadaptasi item yang telah menunjukkan secara jelas membedakan
kemampuan antara pengambil tes sebagai bagian dari yang lebih komprehensif dan
disesuaikan dengan tes kemahiran konteks baru.
1.
Mengapa jurnal ini menarik?
Kita dapat mengetahui
dan Mengidentifikasi pola belajar di tingkat menengah atas bahasa Inggris
melalui pengujian skala besar
2.
Mengapa penelitian dilakukan?
Untuk merangkum alasan
dan proses validasi dari tes pilihan ganda yang dikembangkan di Universidad
Politécnica de Madrid (UPM) untuk mengatur akses siswa untuk subjek
"Bahasa Inggris untuk Profesional dan Akademik Komunikasi" yang
tingkat kemahiran B2, sesuai dengan common Eropa Kerangka Acuan untuk Bahasa
(CEFR), didirikan sebagai tingkat minimum.
3.
Hasil penelitian?
Klasifikasi indeks
mudah / sulit dan discriminability item fungsional-tata diskrit yang membentuk
bagian pertama dari ujian. Seperti sebagian besar dijelaskan dalam penelitian
sebelumnya (Arguelles Álvarez et al, 2011;. Arguelles Álvarez &
Pablo-Lerchundi, 2012; Arguelles Álvarez, 2013), bagian kedua dari tes,
menyajikan materi stimulus dalam bentuk teks dengan cloze-jenis tugas dan
pertanyaan pemahaman bacaan yang tidak dibahas di sini sebagai keputusan itu
dibuat dari awal untuk mempelajari hasil dalam bagian bacaan terpisah. Di
antara tata bahasa, fungsi atau gagasan dibahas dalam 22 item yang menjawab
dengan benar pada bagian dari pengambil tes di kisaran> 70%, dan karena itu,
diklasifikasikan dalam Arguelles Álvarez (2013) sebagai "mudah",
banyak alamat temporal dan arti Aspectual (waktu anaforis, durasi atau
frekuensi). Selanjutnya, gagasan terkait dengan waktu dan temporalitas seperti
tata bahasa tegang dan aspek telah terbukti benar ditafsirkan oleh pemilihan.
4.
Guna penelitian?
Untuk mencapai
kesimpulan awal tentang daerah mana mungkin belajar berurutan pada bagian dari
siswa dapat dipelajari.
5.
Kesimpulan?
Studi diskriminasi item
yang disajikan di sini merupakan tahap akhir dalam pengembangan tes kemahiran
B2 pada saat yang sama bahwa ia menyediakan kami dengan informasi yang
diperlukan untuk memulai proses lagi. The berangkat titik waktu ini akan
mengadaptasi item yang telah menunjukkan secara jelas membedakan kemampuan
antara pengambil tes sebagai bagian dari yang lebih komprehensif dan
disesuaikan dengan tes kemahiran konteks baru.
Tidak ada komentar:
Posting Komentar