Minggu, 10 Januari 2016

JURNAL 9 LEA ARISTANTIA

Available online at www.sciencedirect.com
ScienceDirect


Procedia - Social and Behavioral Sciences 173 (2015) 5 – 10



32nd International Conference of the Spanish Association of Applied Linguistics (AESLA):

Language Industries and Social Change

Identifying learning patterns in the upper- intermediate level of English through large-scale testing

Irina Argüelles-Alvareza*, Margarita Martinez-Nuñezb

aDep. of Linguistics Applied to Science and Technology, Universidad Politécnica de Madrid, Crta. de Valencia, km 7, Madrid 28031, Spain

b Dep. of Bussiness Organization, Management and Statistics, Universidad Politécnica de Madrid, Crta. de Valencia, km 7, Madrid 28031, Spain


Abstract

In this paper we will summarize the rationale and validation process of a multiple choice test developed at the Universidad Politécnica de Madrid (UPM) to regulate the students’ access to the subject “English for Professional and Academic Communication” for which a B2 proficiency level, in accordance with the Common European Framework of Reference for Languages (CEFRL), was established as a minimum level. Item difficulty and item discrimination are studied and analyzed from the large-scale application of the test to 924 students. The aim of the study is to reach preliminary conclusions about possible areas where sequential learning on the part of students could be studied.
© 2015 The Authors. Published by Elsevier Ltd. This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).
Peer-review under responsibility of Universidad Pablo de Olavide.

Keywords: Large-scale testing; learning patterns; item response models; teaching and assessment processes



1. Introduction

After having extensively documented the rationale, layout, description and validation process of a multiple choice test developed at the Universidad Politécnica de Madrid (UPM) to regulate the students’ access to the subject “English for Professional and Academic Communication” (Argüelles Álvarez et al., 2011; Argüelles Álvarez & Pablo-Lerchundi, 2012; Argüelles Álvarez, 2013), it is probably time now to move further in the analysis of the



*       Corresponding author. Tel.: +34-91-336-5229 E-mail address: irina@etsist.upm.es









1877-0428 © 2015 The Authors. Published by Elsevier Ltd. This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).
Peer-review under responsibility of Universidad Pablo de Olavide.


doi:10.1016/j.sbspro.2015.02.022

6                    Irina Argüelles-Alvarez and Margarita Martinez-Nuñez / Procedia - Social and Behavioral Sciences 173 (2015) 5 – 10

results obtained from the large-scale application of the test to 924 students across University. In Argüelles Álvarez (2013), test item difficulty was analyzed applying qualitative techniques to reach preliminary conclusions about possible areas where sequential learning on the part of students could be studied. This key idea that learners progress through an order when acquiring grammatical structures, is supported by convincing evidence (Ortega, 2011) and represents one major finding of Second Language Acquisition (SLA) empirical research.

In what follows, we will first revise the initial conclusions we reached in the past (Argüelles Álvarez, 2013) with respect to item difficulty, as these could eventually be seen as evidence of existing learning patterns. Then, we will present further item analysis framed in item response theory (IRT) (Bachman, 1990, pp. 202-208) that apply item response models in order to make predictions about individual’s performance on specific items. This further quantitative study of items gives us additional clues about the discriminability index of items and therefore, how they relate with one another. At the same time, we also aim at determine future lines for change in the original proficiency test. Besides the theoretical study, we will try to establish a connection between test results and eventual patterns in the students’ learning process.

2. Test result

2.1. Test reliability

Although test reliability was already studied at the pilot stage (Arguelles Álvarez & Pablo-Lerchundi, 2012) recent results obtained at the large-scale application of the test across university are summarized in Table 1 with a result of: Cronbach = 0.918.

Table 1. Test reliability

Cronbach Alfa
N elements


.918
924



This reliability coefficient in the range of 0 and 1, estimates the extent to which test takers would have obtained similar results in comparable parallel tests (Morales, 2012). As for the test validity it was extensively studied, analyzed and justified in Argüelles Álvarez (2013).

2.2. Item difficulty

Although for multiple-choice tests, the average item difficulty index is set higher to compensate possible guessing strategies, standardised tests aim at a range of 30% to 70% spread of difficulty, averaging out at approximately 50% (Davies et al., 1999, pp. 95-96). The degree of difficulty of a test item, calculated on the basis of a group test performance, can eventually lead us to conclusions about the degree of difficulty of the trait under test and items that are too easy (with an index close to 100%) or too difficult (with an index close to 0%) do not usually contribute to a test’s discriminability. The items in our test averaged 51.30% as described in Argüelles Álvarez (2013).

2.3. Item discriminability

Item discrimination is a crucial feature to consider in criterion-referenced testing as here, discrimination implies the test’s capacity to distinguish between masters and non-masters on the trait that the test is aimed to measure. Several statistical techniques can be used to calculate item discrimination. According to Morales (2012), the formula 1 below, for example, aims to calculate item discrimination as follows:

DI CAUR CALR Ngs


Fig.1: Formula

Irina Argüelles-Alvarez and Margarita Martinez-Nuñez / Procedia - Social and Behavioral Sciences 173 (2015) 5 – 10
7

Where:

DI=item discrimination index;

CAUR=number of correct answers in the upper range; CALR=number of correct answers in the lower range; Ngs=group size

And state the discrimination intervals below: >0.61 Very High

0.41 to 0.60 High

0.31 to 0.40 Average < 0.30 Low

In calculating the discrimination index (DI), first each student's test are scored and ordered. Next, the 27% of the students at the top and the 27% at the bottom are separated for the analysis. According to Wiersma & Jurs (1990, pp. 145), “27% is used because it has shown that this value will maximize differences in normal distributions while providing enough cases for analysis”.

The discrimination index is therefore the number of students in the masters (higher) group who answered the item correctly minus the number of students in the non-masters (lower) group who answered the item correctly, divided by the number of students in the largest group. Wood (1960) stated that when more students in the lower group than in the upper group select the right answer to an item, the item is showing negative discrimination or negative validity. Therefore, if we assume that the criterion itself has validity, the item is not only useless but is actually decreasing the validity of the test and consequently, should be discarded.
Classical analysis has traditionally calculated item discrimination by means of correlation techniques such as the usual “Pearson product-moment correlation coefficients”. The latter, take advantage of the fact that individual item scores can be only 0 or 1 (Engelhart, 1965; Guilford & Fruchter, 1978). The mean item-total correlation coefficient may be estimated from the mean and standard deviation of the total scores, both expressed as fractions of N (number of items) (Burton, 2001).

3. Discussion

In order to reach preliminary conclusions from the results obtained, we are mainly concerned with the classification easy/difficult and discriminability indexes of the discrete functional-grammar items that make up the first part of the test. As largely described in previous research (Argüelles Álvarez et al., 2011; Argüelles Álvarez & Pablo-Lerchundi, 2012; Argüelles Álvarez, 2013), the second part of the test, presents the stimulus material in the form of text with cloze-type tasks and reading comprehension questions that are not discussed herein as the decision was made from the beginning to study the results in the reading section apart.

3.1. Classification easy-difficult

Table 2 below, summarizes the classification easy-difficult presented in Argüelles Álvarez (2013):


Table 2. Classification easy-difficult of the discrete items in the test



Correct answers <30%
Correct answers >70%





Number of items under this category
21
22





Among the grammar, functions or notions addressed in the 22 items that were answered correctly on the part of the test takers in the range of >70%, and therefore, classified in Argüelles Álvarez (2013) as “easy”, many address temporal and aspectual meanings (anaphoric time, duration or frequency). Furthermore, notions related to time and temporality such as grammatical tense and aspect have shown to be correctly interpreted by the selection of the

8                    Irina Argüelles-Alvarez and Margarita Martinez-Nuñez / Procedia - Social and Behavioral Sciences 173 (2015) 5 – 10

correct option among the four possible given: [...] already*[...], [...] during*[...], [...] usually get up*[...], [...] have ever known*[...]. Others worth mentioning are grammatical knowledge and use of subordinating conjunctions as in “[...] unless* you press the bell” (item 10). Finally, with regard to modal verbs, those indicating “impossibility” are classified in this range of >70%, while “certainty” falls in the category from 30% to 70%. 76,53% students answered correctly to item number 32 whereas only 58,91% selected the correct option in the case of item number 33. See examples 1 and 2 below:

Example 1: You _____ go wrong if you follow the instructions. Impossible. Options: a) might, b) must, c) could, d) can’t*

Example 2: He _____ have taken the money. Certain. Options: a) may, b) must*, c) could, d) can’t

Among the grammar, functions or notions addressed in the 21 items that were classified as “difficult” (<30%), the following can be highlighted: grammatical form and meaning of few, a few, little, a little; adjacency pair to assess grammatical form in the context of the adverb rather used as “more readily or willingly” or grammatical form of the Saxon genitives.

3.2. Discrimination Index

According to DI formula, there are not values over 0.60 in our sample and therefore, our classification is summarized as shown in Table 3:

Table 3. Discrimination Index (DI) classification

Discrimination Index (DI)
Frequency
Average Index Value
Items Mean
Typical Deviation





> 41% (high)
10
47.15
55.00%
0.49





30-40% (average)
34
34.84
51.00%
0.47





<30% (low)
56
22.76
58.00%
0.44






According to the item-total correlation indexes calculated by means of SPSS, the range over 35% has been considered as high, between 30-35%, average and under 35% the range has been regarded as low as shows Table 4.

Table 4. Discrimination Coefficient item-total


Discrimination
Frequency
Coefficient
Mean
Typical

Coefficient

Mean

Deviation

> 35% (high)
22
40.23
44.00%
0.46







30-35% (average)
31
32.3
56.00%
0.46







<30% (low)
47
24.58
61.00%
0.45







From the intersection of both classifications the items that are definitely influencing test discrimination are shown in Table 5 below:

Table 5: Item discriminability (own classification)



N (Frequency)
Item number




G1
(High discriminability)
16
10, 15, 19, 22, 26, 30, 43, 49, 52, 55, 64, 68, 76, 82, 83, 100.




G2
(Low discriminability)
15
2, 17, 21, 23, 24, 40, 47, 59, 60, 61, 65, 69, 71, 74, 85.





Irina Argüelles-Alvarez and Margarita Martinez-Nuñez / Procedia - Social and Behavioral Sciences 173 (2015) 5 – 10
9

As is the case with item classification easy-difficult, the second part of the test (reading-comprehension) is not discussed herein. Therefore, our analysis is based on the discrete items from 1 to 67 with the aim to address complete results in further investigation.

It has been largely repeated that items that are too easy or too difficult should be removed because they do not contribute to test discriminability (Davies et al., 1999). From our data, item number 26 falls in the category of “high discriminability” although regarding its difficulty, the item was answered correctly on the part of the test takers in the range of <30% (difficult). Designed to test grammatical form and meaning (cohesive-ellipsis), item 26 seeks the correct function to express “in a similar manner or way” where students fail to identify so as the correct answer when the sentence provided as input is positive (Example 3). On the contrary, 62.40% answers are correct when the sentence given as input is negative (Example 4):

Example 3: My father works at home and ____ does my mother. Options: a) so*, b) neither, c) either, d) same. Example 4: I haven’t tried speed dating and ____ have my friends. Options: a) so, b) neither*, c) either, d) same.

On the opposite side, item number 10, already mentioned above, falls in the category of “high discriminability” although the item was answered correctly on the part of the test takers in the range of >70% (easy).

4. Conclusion

From our preliminary study, it can be firstly concluded that it can be actually demonstrable that learners progress through an order when acquiring grammatical structures. This order could be inferred from their answers to a multiple choice test where “implicit knowledge” (intuitive and rapidly processed) must be demonstrated.

Secondly, although according to Alderson & Wall (1993), there is little evidence for the claims made about the positive or negative impact of language testing, the effect of testing on instruction has had clear negative consequences in our context. For the last year, a negative backwash effect has been observed both within the institution and outside it, which has moved students to attend heavily grammar-based exam preparatory courses. This tendency must be reverted, which necessarily implies the need to design and validate new proficiency tests.
The item discrimination study presented herein represents a final stage in the development of a B2 proficiency test at the same time that it provides us with the necessary information to start the process again. The departing point this time will be adapting the items that have demonstrated to be clearly discriminating proficiency among test takers as part of a more comprehensive and adapted to the new context proficiency test.

References

Alderson, J. C. & Wall, D. (1993). Does washback exist? Applied Linguistics, 14 (2), 115-29.

Argüelles Álvarez, I., Pablo-Lerchundi, I., Herradón Díez, R. & Baños Expósito, J.M. (2011). Large-scale Testing of Proficiency in English: Back to Multiple Choice? Proceedings of the BAAL Conference, University of the West of England, 13-16.

Argüelles Álvarez, I. & Pablo-Lerchundi, I. (2012). …And back to multiple choice! Large-scale testing of proficiency in English: an experience.

ODISEA, Revista de Estudios Ingleses, 13, 9-18.

Argüelles Álvarez, I. (2013). Large-scale assessment of language proficiency: Theoretical and pedagogical reflections on the use of multiple-choice tests. In L. Cerezo & M. Amengual (Eds.) Second Language Testing: Interfaces between Pedagogy and Assessment. International Journal of English Studies, 13 (2), 21-38.

Bachman, L. F. (1990). Fundamental considerations in language testing. Oxford: Oxford University Press.

Burton, R. F. (2001). Do item-discrimination indices really help us to improve our tests? Assessment and Evaluation in Higher Education, 20 (3), 213-220

Davies, A., Brown, A., Elder, C., Hill, K., Lumley, T. & McNamara, T. (1999). Dictionary of language testing. Cambridge: Cambridge University Press.

Doughty, C. & Williams, J. (Eds.) (1998). Focus on form in classroom second language acquisition. Cambridge: Cambridge University Press. Engelhart, M. D. (1965). A comparison of several item discrimination indices. Journal of Educational Measurement, 2(1), 69–76.

Guilford, J. P. & Fruchter, B. (1978). Fundamental Statistics in Psychology and Education, 6th ed. New York: McGraw-Hill Book, Co. Morales, P. (2012). Análisis de ítems en las pruebas objetivas. Facultad de Ciencias Humanas y Sociales. Universidad Pontificia Comillas.

http://www.upcomillas.es/personal/peter/otrosdocumentos/AnalisisItemsPruebasObjetivas.pdf

10                   Irina Argüelles-Alvarez and Margarita Martinez-Nuñez / Procedia - Social and Behavioral Sciences 173 (2015) 5 – 10

Ortega, L. (2011). Sequences and processes in language learning. In M. H. Long & C. J. Doughty (Eds.) The handbook of language teaching. Oxford: Blackwell Publishing.
SPSS for Windows. (2012). Version 21.0.0. Chicago: SPSS Inc. (software on CD-ROM). Available in SPSS Inc. Website: http://www.spss.com/ Wiersma, W. & Jurs, S.G. (1990). Educational measurement and testing (2nd ed.). Boston, MA: Allyn and Bacon.

Wood, D.A. (1960). Test construction: Development and interpretation of achievement tests. Columbus, OH: Charles E. Merrill Books, Inc.

Mengidentifikasi pola belajar di tingkat menengah atas bahasa Inggris melalui pengujian skala besar

Abstrak
Dalam makalah ini kami akan merangkum alasan dan proses validasi dari tes pilihan ganda yang dikembangkan di Universidad Politécnica de Madrid (UPM) untuk mengatur akses siswa untuk subjek "Bahasa Inggris untuk Profesional dan Akademik Komunikasi" yang tingkat kemahiran B2, sesuai dengan common Eropa Kerangka Acuan untuk Bahasa (CEFR), didirikan sebagai tingkat minimum. Item kesulitan dan diskriminasi item yang dipelajari dan dianalisis dari aplikasi skala besar tes untuk 924 siswa. Tujuan dari penelitian ini adalah untuk mencapai kesimpulan awal tentang daerah mana mungkin belajar berurutan pada bagian dari siswa dapat dipelajari.
1.      Perkenalan
Setelah secara ekstensif mendokumentasikan proses pemikiran, tata letak, deskripsi dan validasi tes pilihan ganda yang dikembangkan di Universidad Politécnica de Madrid (UPM) untuk mengatur akses siswa untuk subjek "Bahasa Inggris untuk Profesional dan Akademik Komunikasi" (Arguelles Álvarez et al ., 2011; Arguelles Álvarez & Pablo-Lerchundi, 2012; Arguelles Álvarez, 2013), itu mungkin waktu sekarang untuk bergerak lebih lanjut dalam analisis hasil yang diperoleh dari aplikasi skala besar tes untuk 924 siswa di Universitas. Dalam Arguelles Álvarez (2013), soal tes kesulitan dianalisis menerapkan teknik kualitatif untuk mencapai kesimpulan awal tentang daerah mana mungkin belajar berurutan pada bagian dari siswa dapat dipelajari. Ide kunci ini yang kemajuan peserta didik melalui perintah ketika memperoleh struktur gramatikal, didukung oleh bukti yang meyakinkan (Ortega, 2011) dan merupakan salah satu temuan utama dari Akuisisi Bahasa Kedua (SLA) penelitian empiris.
Dalam apa yang berikut, pertama kita akan merevisi kesimpulan awal kami mencapai di masa lalu (Arguelles Álvarez, 2013) sehubungan dengan barang kesulitan, karena ini akhirnya bisa dilihat sebagai bukti pola pembelajaran yang ada. Kemudian, kami akan menyajikan analisis item lanjut dibingkai dalam teori respon butir (IRT) (Bachman, 1990, hlm. 202-208) yang menerapkan model respon item dalam rangka untuk membuat prediksi tentang kinerja individu pada item tertentu. Penelitian kuantitatif lebih lanjut ini item memberi kita petunjuk tambahan tentang indeks discriminability item dan oleh karena itu, bagaimana mereka berhubungan satu sama lain. Pada saat yang sama, kami juga bertujuan menentukan garis depan untuk perubahan dalam tes kemampuan aslinya. Selain studi teoritis, kita akan mencoba untuk membuat sambungan antara hasil tes dan pola akhirnya dalam proses belajar siswa.

2.      Hasil Uji
2.1. uji reliabilitas
Meskipun uji reliabilitas sudah dipelajari pada tahap percontohan (Arguelles Álvarez & Pablo-Lerchundi, 2012) hasil terakhir diperoleh pada aplikasi skala besar dari tes di universitas diringkas dalam Tabel 1 dengan hasil: Cronbach = 0,918. Koefisien reliabilitas ini di kisaran 0 dan 1, memperkirakan sejauh mana pengambil tes akan memperoleh hasil yang sama dalam tes paralel sebanding (Morales, 2012). Adapun uji validitas itu dipelajari secara ekstensif, dianalisis dan dibenarkan di Arguelles Álvarez (2013).
2.2. Item kesulitan
Meskipun untuk pilihan ganda tes, rata-rata indeks item yang kesulitan diatur lebih tinggi untuk mengkompensasi strategi menebak mungkin, tes standar bertujuan pada kisaran 30% sampai 70% penyebaran kesulitan, rata-rata keluar pada sekitar 50% (Davies et al., 1999 , pp. 95-96). Tingkat kesulitan dari item tes, dihitung berdasarkan dari hasil tes kelompok, akhirnya dapat membawa kita ke kesimpulan tentang tingkat kesulitan dari sifat yang diuji dan item yang terlalu mudah (dengan indeks mendekati 100%) atau terlalu sulit (dengan indeks mendekati 0%) biasanya tidak berkontribusi discriminability tes ini. Item dalam tes rata 51,30% seperti yang dijelaskan dalam Arguelles Álvarez (2013).
2.3. Item diskriminasi
Item diskriminasi adalah fitur penting untuk dipertimbangkan dalam pengujian kriteria-referenced seperti di sini, diskriminasi menyiratkan kapasitas tes untuk membedakan antara master dan non-master dari sifat yang tes ini bertujuan untuk mengukur. Beberapa teknik statistik dapat digunakan untuk menghitung diskriminasi item. Menurut Morales (2012), rumus 1 di bawah ini, misalnya, bertujuan untuk menghitung diskriminasi item sebagai berikut:
Dalam menghitung indeks diskriminasi (DI), tes pertama masing-masing siswa yang mencetak dan memerintahkan. Selanjutnya, 27% dari siswa di atas dan 27% di bagian bawah dipisahkan untuk analisis. Menurut Wiersma & Jurs (1990, hlm. 145), "27% digunakan karena telah menunjukkan bahwa nilai ini akan memaksimalkan perbedaan distribusi normal sambil memberikan kasus yang cukup untuk analisis".
Oleh karena itu indeks diskriminasi adalah jumlah siswa di master (lebih tinggi) kelompok yang menjawab item dengan benar dikurangi jumlah siswa di non-master (rendah) kelompok yang menjawab item dengan benar, dibagi dengan jumlah siswa dalam terbesar kelompok. Kayu (1960) menyatakan bahwa ketika siswa lebih pada kelompok rendah dibandingkan kelompok atas pilih jawaban yang tepat untuk item, item tersebut menunjukkan diskriminasi negatif atau validitas negatif. Oleh karena itu, jika kita menganggap bahwa kriteria itu sendiri memiliki validitas, item tersebut tidak hanya berguna tetapi sebenarnya menurun validitas tes dan akibatnya, harus dibuang.
Analisis klasik secara tradisional dihitung barang diskriminasi dengan teknik korelasi seperti biasa "Pearson momen-produk koefisien korelasi". Yang terakhir, mengambil keuntungan dari fakta bahwa nilai masing-masing item dapat hanya 0 atau 1 (Engelhart, 1965; Guilford & Fruchter, 1978). Mean koefisien korelasi item-total dapat diperkirakan dari mean dan deviasi standar dari total nilai, baik dinyatakan sebagai fraksi N (jumlah item) (Burton, 2001).
3.      Diskusi
Untuk mencapai kesimpulan awal dari hasil yang diperoleh, kita terutama berkaitan dengan klasifikasi indeks mudah / sulit dan discriminability item fungsional-tata diskrit yang membentuk bagian pertama dari ujian. Seperti sebagian besar dijelaskan dalam penelitian sebelumnya (Arguelles Álvarez et al, 2011;. Arguelles Álvarez & Pablo-Lerchundi, 2012; Arguelles Álvarez, 2013), bagian kedua dari tes, menyajikan materi stimulus dalam bentuk teks dengan cloze-jenis tugas dan pertanyaan pemahaman bacaan yang tidak dibahas di sini sebagai keputusan itu dibuat dari awal untuk mempelajari hasil dalam bagian bacaan terpisah. Di antara tata bahasa, fungsi atau gagasan dibahas dalam 22 item yang menjawab dengan benar pada bagian dari pengambil tes di kisaran> 70%, dan karena itu, diklasifikasikan dalam Arguelles Álvarez (2013) sebagai "mudah", banyak alamat temporal dan arti Aspectual (waktu anaforis, durasi atau frekuensi). Selanjutnya, gagasan terkait dengan waktu dan temporalitas seperti tata bahasa tegang dan aspek telah terbukti benar ditafsirkan oleh pemilihan.
4.      Kesimpulan
Dari penelitian awal kami, dapat disimpulkan pertama bahwa hal itu dapat benar-benar dibuktikan bahwa peserta didik maju melalui perintah ketika memperoleh struktur tata bahasa. Pesanan ini dapat disimpulkan dari jawaban mereka untuk tes pilihan ganda di mana "pengetahuan implisit" (intuitif dan diproses dengan cepat) harus ditunjukkan.
Kedua, meskipun menurut Alderson & Dinding (1993), ada sedikit bukti untuk klaim yang dibuat tentang dampak positif atau negatif dari pengujian bahasa, efek pengujian pada instruksi memiliki konsekuensi negatif yang jelas dalam konteks kita. Untuk tahun lalu, efek negatif backwash telah diamati baik di dalam lembaga dan di luar itu, yang telah pindah siswa untuk menghadiri ujian kursus persiapan berat-tata bahasa berbasis. Kecenderungan ini harus dikembalikan, yang tentu menyiratkan kebutuhan untuk merancang dan memvalidasi tes kemahiran baru.
Studi diskriminasi item yang disajikan di sini merupakan tahap akhir dalam pengembangan tes kemahiran B2 pada saat yang sama bahwa ia menyediakan kami dengan informasi yang diperlukan untuk memulai proses lagi. The berangkat titik waktu ini akan mengadaptasi item yang telah menunjukkan secara jelas membedakan kemampuan antara pengambil tes sebagai bagian dari yang lebih komprehensif dan disesuaikan dengan tes kemahiran konteks baru.

1.      Mengapa jurnal ini menarik?
Kita dapat mengetahui dan Mengidentifikasi pola belajar di tingkat menengah atas bahasa Inggris melalui pengujian skala besar

2.      Mengapa penelitian dilakukan?
Untuk merangkum alasan dan proses validasi dari tes pilihan ganda yang dikembangkan di Universidad Politécnica de Madrid (UPM) untuk mengatur akses siswa untuk subjek "Bahasa Inggris untuk Profesional dan Akademik Komunikasi" yang tingkat kemahiran B2, sesuai dengan common Eropa Kerangka Acuan untuk Bahasa (CEFR), didirikan sebagai tingkat minimum.

3.      Hasil penelitian?
Klasifikasi indeks mudah / sulit dan discriminability item fungsional-tata diskrit yang membentuk bagian pertama dari ujian. Seperti sebagian besar dijelaskan dalam penelitian sebelumnya (Arguelles Álvarez et al, 2011;. Arguelles Álvarez & Pablo-Lerchundi, 2012; Arguelles Álvarez, 2013), bagian kedua dari tes, menyajikan materi stimulus dalam bentuk teks dengan cloze-jenis tugas dan pertanyaan pemahaman bacaan yang tidak dibahas di sini sebagai keputusan itu dibuat dari awal untuk mempelajari hasil dalam bagian bacaan terpisah. Di antara tata bahasa, fungsi atau gagasan dibahas dalam 22 item yang menjawab dengan benar pada bagian dari pengambil tes di kisaran> 70%, dan karena itu, diklasifikasikan dalam Arguelles Álvarez (2013) sebagai "mudah", banyak alamat temporal dan arti Aspectual (waktu anaforis, durasi atau frekuensi). Selanjutnya, gagasan terkait dengan waktu dan temporalitas seperti tata bahasa tegang dan aspek telah terbukti benar ditafsirkan oleh pemilihan.

4.      Guna penelitian?
Untuk mencapai kesimpulan awal tentang daerah mana mungkin belajar berurutan pada bagian dari siswa dapat dipelajari.

5.      Kesimpulan?
Studi diskriminasi item yang disajikan di sini merupakan tahap akhir dalam pengembangan tes kemahiran B2 pada saat yang sama bahwa ia menyediakan kami dengan informasi yang diperlukan untuk memulai proses lagi. The berangkat titik waktu ini akan mengadaptasi item yang telah menunjukkan secara jelas membedakan kemampuan antara pengambil tes sebagai bagian dari yang lebih komprehensif dan disesuaikan dengan tes kemahiran konteks baru.

Tidak ada komentar:

Posting Komentar