Artículo de Investigación

Desarrollo de instrumentos

de evaluación psicológica y

educativa desde el modelo

B.E.A.R (Berkeley Evaluation

and Assessment Research)

Development of psychological and educational

assessment instruments based on the B.E.A.R. (Berkeley

Evaluation and Assessment Research) model



Recibido: 26/08/2025 - Aprobado: 20/10/2025 - Publicado: 15/12/2025



Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa

desde el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336 - DOI:

https://doi.org/10.30554/tempuspsi.9.1.5419.2026

1 Universidad de Antioquia. Orcid: orcid.org/0000-0002-3664-7290

Correo electrónico: claudia.ovalle@udea.edu.co

• 2 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

Resumen

Se presenta el modelo BEAR (Berkeley

Evaluation and Assessment Research)

de diseño de instrumentos de medición y

sus componentes con base en la lectura

de la segunda edición del libro de Wilson

y Tan, de la Universidad de Berkley. Se

enfatiza el modelo por sus facilidades

al unir los conceptos teóricos con el

modelo psicométrico de medición, y las

posibilidades que representa para el di-

seño de instrumentos apropiados, gene-

rando inferencias correctas cuando se

trata de recolectar evidencia sobre los

rasgos psicológicos, comportamentales,

actitudinales y de habilidad. Se discuten

los pasos del proceso y se presentan

interrogantes sobre las potencialidades

del modelo fuera del supuesto de la

Unidimensionalidad.

  psicometría, modelo

BEAR, mapa de Wright, IRT, modelo de

Rasch, construcción de instrumentos,

independencia local.

Abstract

The BEAR (Berkeley Evaluation and

Assessment Research) model for the

design of measuring instruments and

their components is presented based

on the reading of the second edition

of the book by Wilson & Tan, from the

University of Berkley. The model is

emphasized for its facilities in uniting

theoretical concepts with the psycho-

metric measurement model, and the

possibilities it represents for the design

of appropriate instruments, and there-

fore correct inferences when it comes

to collecting evidence on psychological,

behavioral, attitudinal and ability traits.

The steps of the process are discussed,

and questions are presented about the

potentialities of the model outside the

assumption of One-dimensionality.

 psychometrics, BEAR mo-

del, Wright map, IRT, Rasch model,

instrument construction, local indepen-

dence.

• 3 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

Introducción

Los modelos de medición psicométricos implican el desarrollo de un proceso para

lograr producir medidas de diferentes aspectos psicológicos. Las actitudes, las ha-

bilidades, la inteligencia son sólo algunos de los rasgos que pueden ser medidos.

La elaboración real del instrumento “seguiría un orden, desde una idea inicial sobre

la propiedad que se desea medir hasta la recopilación de evidencia que demuestre

que el instrumento puede utilizarse con éxito para medir dicha propiedad” (Wilson &

Tan, 2023, p.1). Para lograr completar este proceso, Wilson y Tan (2023) proponen

que se consideren los siguientes 4 “ladrillos de construcción”: el mapa de constructo,

el plan de diseño de los ítems, el espacio de resultados y el modelo estadístico de

medición. Este proceso se usa para el desarrollo de instrumentos como escalas psi-

cológicas, pruebas de rendimiento, cuestionarios y listas de verificación conductual.

A continuación, se esboza un resumen del proceso de medición propuesto en

el libro de Wilson y Tan en su segunda edición (2023), que puede ser útil para el

desarrollo de instrumentos de medición, y que es el producto de una experiencia

de casi 20 años, ya que la primera versión se editó en 2005.

Inicialmente, Wilson y Tan (2005; 2023) definen la medición como un proceso

empírico e informacional, diseñado con un propósito, cuyo insumo es una propie-

dad empírica de un objeto y que produce información en forma de valores de esa

propiedad (Mari et al., 2023, p. 25). Es importante resaltar que la medida implica

que más allá de los observables (i.e., ítems), lo que se está evaluando es un cons-

tructo latente, sobre el cual el evaluador es responsable de encontrar evidencia por

medio de ítems bien construidos, que superen las dificultades del error aleatorio

(i.e., debido a las condiciones de aplicación) y el error sistemático (i.e., debido a

sesgos en la medición) que afectan la confiabilidad de la medida.

Según Wilson y Tan:

El enfoque adoptado aquí se basa en la idea de que existe un único

atributo subyacente que el instrumento está diseñado para medir. La

palabra instrumento se define como una técnica para relacionar algo

que observamos en el mundo real (a veces denominado ‘manifiesto’

u ‘observado’) con un atributo que estamos midiendo y que existe

únicamente como parte de una teoría (a veces denominado ‘latente’ o

‘no observado’). Esta definición es algo más amplia que el uso típico,

que se centra en la manifestación más concreta del instrumento—los

ítems o preguntas. Se ha elegido esta definición más amplia para

revelar los aspectos menos evidentes de la medición. (2023, p. 30)

• 4 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

En general, el enfoque presentado por Wilson y Tan (2023) puede conside-

rarse una manifestación del enfoque sociocognitivo de la medición humana

propuesto por Mislevy (2018), así como un ejemplo del Diseño de Evaluaciones

Fundamentado (Principled Assessment Design) planteado por diversos autores

(Ferrara et al., 2016; Nichols et al., 2016; Wilson & Tan, 2023). Wilson y Tan

(2023) aclaran que los procedimientos descritos en el modelo BEAR no son la

única forma de realizar mediciones, pues existen otros enfoques; sin embargo,

su valor práctico y su sencillez pueden asegurar mejor la evidencia recolectada

por el evaluador.

La aproximación adoptada por Wilson y Tan se conoce como “Modelo de cons-

tructo”, y es también aplicada por entidades como la US National Research Council

(NRC, 2001). La NRC emplea el modelo del triángulo de medición (Cognición, Ob-

servación e Interpretación), el cual consiste en una teoría (la concepción o teoría

sobre cómo aprenden las personas, qué saben las personas y cómo el conocimiento

y la comprensión progresan a lo largo del tiempo), una tarea o medida (qué tipos de

observaciones o tareas son más propensas a provocar demostraciones de cono-

cimientos y habilidades); y por último, los supuestos (suposiciones sobre la mejor

manera de interpretar la evidencia de las observaciones para hacer inferencias

significativas sobre lo que los evaluados saben y pueden hacer).

Esta aproximación del triángulo de evaluación es adaptado y convertido en un

sistema de medición (B.E.A.R Assessment System) (Wilson & Sloane, 2000), el cual

cuenta con software propio; sin embargo, puede usarse R para hacer las mismas

estimaciones de modelo de medición (Rasch) que este modelo emplea.

1. El Modelo B.E.A.R de construcción de instrumentos

El modelo BEAR (Berkeley Evaluation and Assessment Research) se apoya

en cuatro “bloques de construcción” para abordar elementos del Triángulo del

NRC (2001): el mapa de constructo, el diseño de ítems, el espacio de resultados

y el mapa de Wright. El mapa de constructo es el principio de Cognición (teoría)

del triángulo, el diseño de los ítems es el plan para llevar a cabo la Observación

(tarea/ medida), y el espacio de resultado y el mapa de Wright facilitan la Inter-

pretación (inferencia).

1.1. El mapa de constructo (¿Cómo se describirá el atributo?)

El mapa de constructo es, en sentido estricto, una representación espacial, ordena-

da, y de niveles progresivos que muestran las características de un constructo (i.e.,

“extraversión”, “necesidad de logro”, “razonamiento numérico”, etc.) que debe ser

• 5 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

medido. Para el desarrollo de este mapa, es necesario una definición de constructo

bien elaborada por medio del análisis de instrumentos previos y la teoría existente

sobre el constructo de interés.

El desarrollo del mapa de constructo según Wilson y Tan, conlleva los siguientes

pasos:

Primero, suponemos que el constructo que deseamos medir

tiene una forma particularmente simple: se extiende de un extremo

al otro del constructo —por ejemplo, de alto a bajo, de pequeño a

grande, de positivo a negativo o de fuerte a débil—. La segunda

suposición es que existen puntos cualitativos consecutivos y

distinguibles entre esos extremos. Con frecuencia, el constructo

se conceptualiza como la descripción de puntos sucesivos en un

proceso de cambio, y el mapa de constructo puede considerarse

análogo a una ‘hoja de ruta’ cualitativa de ese cambio a lo largo del

constructo. En reconocimiento de esta analogía, estas ubicaciones

cualitativamente diferentes a lo largo del constructo se denominarán

‘puntos de referencia’ (waypoints) —y serán muy importantes y

útiles para la interpretación—. Cada punto de referencia tiene

una descripción cualitativa por sí mismo, pero, además, adquiere

significado en referencia a los puntos anteriores y los que están por

encima de él. Tercero, asumimos que los respondientes pueden (en

teoría) ubicarse en cualquier punto intermedio entre esos ‘puntos de

referencia’; es decir, que el constructo subyacente es denso en un

sentido conceptual. (2023, p.9)

Ejemplos comunes de lo que representan los waypoints (o puntos de referencia)

son la escala de notas escolares (de la A+ a la F, en el sistema americano), y la

taxonomía de Bloom, que es una jerarquía de objetivos cognitivos (Bloom, et al.,

1956) y afectivos (Krathwohl et al., 1964): por ejemplo, las categorías ordenadas de

la taxonomía incluyen de manera ascendente en complejidad cognitiva: recordar,

comprender, aplicar, analizar, evaluar y crear.

Aunque un constructo latente no cuente con una medida desarrollada, cuenta

con locaciones particulares (los puntos de referencia) que deben ser derivados

del contenido o de la teoría del constructo; es decir, el mapa de constructo es una

primera aproximación a la consolidación de una escala de medición. El mapa de

constructo consiste en una lista ordenada de puntos de referencia que los evalua-

dos pueden alcanzar mientras progresan en una serie de conocimientos, actitudes

o comportamientos (Wilson & Tan, 2023).

• 6 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

Considérese el siguiente ejemplo de un mapa de constructo: la distribución de

mediciones repetidas de un atributo de un objeto podría concebirse como la com-

binación de una cantidad fija del atributo de un respondiente (que podría conside-

rarse la “cantidad verdadera”), y uno o más componentes de error aleatorio en el

proceso de medición. Por ejemplo, si se pide a equipos de estudiantes que midan

la “envergadura” de su profesor (es decir, la anchura de su alcance cuando extiende

ambos brazos), las fuentes de aleatoriedad podrían ser las siguientes:

• Las “brechas” que se producen cuando los estudiantes desplazan sus reglas por

la espalda del profesor.

• Los “solapes” que ocurren cuando el extremo de una medición se solapa con el

punto de partida de la siguiente.

• La “flacidez” que se produce cuando el profesor se cansa y sus brazos extendi-

dos se hunden.

Los estudiantes pueden ser evaluados en una escala de “capacidad para medir

la envergadura de los brazos”, en la cual progresarían desde un nivel bajo del

constructo (el punto de referencia 1: descartar la posibilidad del error), a niveles

intermedios (puntos de referencia 2 y 3: establecer una o más fuentes de error)

y a niveles superiores (punto de referencia 4: no sólo consideran estos efectos

aleatorios o de error, sino que también los modelan mediante una representación

virtual en computadora).

1.2. El diseño de los ítems

Los formatos más comunes para el diseño de ítems son el de opción múlti- ple,

utilizado en pruebas de rendimiento, y el formato tipo Likert de encuestas y escalas

de actitud (por ejemplo, con respuestas que van desde “totalmente de acuerdo”

hasta “totalmente en desacuerdo”). Ambos son ejemplos del tipo de ítem de “res-

puesta seleccionada”, en el que al respondiente se le ofrece únicamente un rango

limitado de posibles respuestas, y se ve obligado a elegir entre ellas. Existen mu-

chas variantes de este formato, que van desde pregun- tas en cuestionarios hasta

la observación de indicadores de conductas (e.g. las clasificaciones de productos

por parte de consumidores). Otros tipos de ítems permiten que el respondiente

puede generar una “respuesta construida” como un ensayo, una entrevista, una

presentación, o una evidencia (por ejemplo, un clavado competitivo, un recital de

piano o un experimento científico). Gene- ralmente, estas respuestas se evaluarán

mediante una guía de puntuación o rúbrica que funciona de forma similar a como

lo hace un mapa de constructo; es decir, a los puntos de referencia del mapa de

• 7 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

constructo se le asigna una puntuación (que podrá considerarse como “pública”) y

que da cuenta del nivel del constructo que el evaluado tiene.

1.3. El espacio de resultados

El evaluador necesita construir una estructura para vincular los ítems con el cons-

tructo. El problema consiste en que a veces las inferencias son erradas, pues la

relación entre ítems y constructo se puede interpretar mal, por ejemplo, haciendo

afirmaciones de causalidad erróneas (i.e., afirmar que los ítems causan el constructo

o viceversa, pero sin evidencia) o inferencias que no se ajustan (i.e., la variable no

observable no se puede inferir en realidad a partir de los ítems diseñados).

El primer paso en el proceso de inferencia, por tanto, debe ser establecer qué

aspectos de la respuesta se emplearán como base para la inferencia y cómo esos

aspectos serán categorizados y puntuados; es decir, se debe establecer uno de los

siguientes Espacios de Resultados (Outcome Space):

(a) La categorización de las respuestas de las preguntas en ‘verdadero’ y ‘falso’ en

una prueba (con la puntuación posterior asignada, por ejemplo, como ‘1’ y ‘0’).

(b) El registro de respuestas de tipo Likert (de ‘totalmente de acuerdo’ a ‘totalmente

en desacuerdo’) en una encuesta de actitudes, y su puntuación posterior según

la valencia de los ítems en relación con el constructo subyacente.

Otros Espacios de Resultados menos comunes serían:

puesta abierta y la posterior categorización de las respuestas.

(d) La traducción de un desempeño en categorías ordenadas mediante una guía

de puntuación (i.e., ‘rúbrica’).

Cualquier conjunto de categorías descritas cualitativamente para registrar y/o

evaluar cómo han respondido los participantes a los ítems se denomina el es-

pacio de resultados. Las puntuaciones resultantes de este espacio desempeñan

un papel fundamental en el enfoque de mapeo de constructos. Ellas encarnan la

“dirección” del mapa de constructo (por ejemplo, las puntuaciones positivas se

mueven ‘hacia arriba’ en el mapa de constructo), e indican un nivel mayor del

constructo medido.

Una característica fundamental es que el espacio de resultados debe consistir

únicamente en un número finito de categorías. Por ejemplo, el espacio de resul-

tados del PF-10 (Prueba de funcionamiento general del adulto mayor) consta de

• 8 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

sólo tres categorías: “Sí, limitado mucho”, “Sí, limitado un poco”, y “No, no limitado

en absoluto”, ya que su intención es valorar el nivel de disfunción percibida por el

adulto mayor en las actividades cotidianas como vestirse, alimentarse, etc. (White

et al., 2011).

El orden de las categorías de respuesta debe estar respaldado tanto por la teoría

que sustenta el constructo como por evidencia empírica. La teoría que fundamenta

el espacio de resultados debe ser coherente con la teoría del propio constructo. La

evidencia empírica puede utilizarse para apoyar el ordenamiento del espacio de

resultados. En los ítems de opción múltiple, el procedimiento estándar es asignar

una puntuación de 1 a la opción correcta (distractor correcto) y 0 a las incorrec-

tas. Así, cuando el distractor correcto representa efectivamente un ejemplo de un

“waypoint” (punto de referencia) particular (y los distractores incorrectos están todos

asociados a waypoints situados por debajo de este), entonces la puntuación 1 y

0 tiene sentido. Por supuesto, el desarrollador del instrumento debe asegurarse

de que no exista ambigüedad en la asignación de los distractores a los waypoints.

Las preguntas con formato de respuesta tipo Likert en encuestas y cuestionarios

suelen puntuarse según el número de categorías de respuesta disponibles—si hay

cuatro categorías como “Totalmente de acuerdo”, “De acuerdo”, “En desacuerdo” y

“Totalmente en desacuerdo”, entonces suelen puntuarse como 0, 1, 2 y 3, respec-

tivamente (o, a veces, como 1, 2, 3 y 4). Cuando un conjunto de respuestas tipo

Likert se usa con un mapa de constructo de actitudes o comportamientos, pueden

surgir dificultades para interpretar cómo se asignan “De acuerdo” y “En desacuerdo”

a los waypoints. En los conjuntos de opciones con una valencia negativa respecto

del constructo, la puntuación generalmente se invierte, asignándose 3, 2, 1 y 0,

respectivamente (lo que se conoce como “reverse scoring”).

En el caso de ítems de respuesta abierta, las categorías de resultado deben

ordenarse en categorías ordinales cualitativamente distintas. Al igual que con los

ítems tipo Likert, tiene sentido considerar cada uno de estos niveles ordinales como

puntuados usando enteros sucesivos, por ejemplo:

• Crítica completa o comparación de dos argumentos = 3 puntos

• Una justificación completa o un contraargumento = 2

• Una afirmación o evidencia = 1

• Sin evidencia = 0

• Sin oportunidad de responder = sin dato.

• 9 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

1.4. El mapa de Wright

El espacio de resultados produce un conjunto de datos compuesto por los códigos

o puntuaciones de cada persona en la muestra. El segundo paso en la inferencia

consiste en relacionar estas puntuaciones con el constructo. Esto se hace median-

te el cuarto bloque de construcción, denominado el mapa de Wright. El mapa de

Wright pone en una misma escala las características de los individuos (el constructo

latente) y las características de los ítems (en particular, su dificultad), gracias a las

propiedades del modelo psicométrico de Rasch. Este modelo estadístico se utiliza

para transformar los códigos basados en los ítems de acuerdo con los “waypoints”

(puntuados con enteros 0, 1, 2, etc.) y estimar así la ubicación de los respondientes

en una métrica que permite comparar los resultados entre diferentes respondientes.

Más exactamente, el mapa de Wright se apoya en una característica central

del modelo Rasch: las estimaciones de ubicación de los respondientes a lo largo

del constructo que subyace al mapa de constructo se pueden emparejar con las

ubicaciones estimadas de las categorías de respuesta de los ítems (establecidas

a partir de su dificultad). Esto permite relacionar las hipótesis acerca de los ítems

que han sido diseñados para vincularse con puntos de referencia específicos del

mapa de constructo mediante las categorías de respuesta determinadas. En pala-

bras de Wilson:

Esta característica (tener la misma escala para los ítems y para el

constructo) del modelo de Rasch es fundamental tanto para la teoría

como para la práctica de la medición en un contexto determinado: (a)

desde el punto de vista teórico, proporciona una forma de examinar

empíricamente la estructura inherente al mapa de constructo, y añade

este análisis como un elemento poderoso en el estudio de la validez

del uso de un instrumento; y(b) desde el punto de vista práctico,

permite a quienes realizan la medición ‘ir más allá de los números’

al informar los resultados de la medición a profesionales y usuarios,

y los capacita para utilizar el mapa de constructo como un recurso

interpretativo clave. (Wilson & Tan, 2023, p. 45)

En el modelo de Rasch, la probabilidad de la respuesta al ítem i, se modela como

una función de la ubicación del respondiente (su habilidad ó θ \theta) y de la ubi-

cación del ítem (su dificultad ó δi/delta), donde ambas ubicaciones se conciben a

lo largo de una escala común. Las puntuaciones de los ítems obtenidas a partir de

una muestra de respondientes se utilizan para estimar los parámetros de los res-

pondientes (i.e., habilidad) y de los ítems (i.e., dificultad) en una escala mediante un

modelo estadístico, y luego, la correspondencia entre las ubicaciones de los ítems

• 10 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

en esa escala y los waypoints del mapa de constructo se utiliza para establecer

referencias (por ejemplo, puntuaciones) para la escala (Mari et al., 2023).

La lógica del modelo de Rasch es que el respondiente posee una cierta “cantidad”

del constructo, indicada por θ\theta, y que un ítem también posee una cierta “can-

tidad” del mismo constructo, indicada por δi\delta. Sin embargo, estas cantidades

interactúan en direcciones opuestas—por eso lo que realmente importa es la dife-

rencia entre el respondiente y el ítem: θ−δi \ theta - delta. La cantidad θ\ theta del

respondiente debe compararse con la cantidad δi\delta del ítem para determinar la

probabilidad de una respuesta ‘1’ o respuesta correcta (en lugar de una respuesta ‘0’):

(a) Cuando las cantidades θ\theta y δi\delta son iguales (es decir,

están en el mismo punto del mapa de Wright), las respuestas ‘0’ y

‘1’ tienen la misma probabilidad—por lo tanto, la probabilidad de una

respuesta ‘1’ es 0,50. Por ejemplo, el respondiente tiene la misma

probabilidad de estar de acuerdo o en desacuerdo con el ítem en

una pregunta de actitud; o, en una pregunta de logro, tiene igual

probabilidad de responder correcta o incorrectamente.

(b) Cuando el respondiente posee más del constructo que el ítem

(es decir, θ>δi ó theta > delta), la probabilidad de una respuesta ‘1’

es mayor a 0,50. En este caso, es más probable que el respondiente

esté de acuerdo (en una pregunta de actitud) o que responda

correctamente (en una pregunta de logro).

(es decir, θ<δi ó theta< delta), la probabilidad de una respuesta ‘1’

es menor a 0,50. Aquí, el respondiente tiene más probabilidad de

estar en desacuerdo (en una pregunta de actitud) o de responder

incorrectamente (en una pregunta de logro).

En el contexto de pruebas de logro, diríamos que la ‘habilidad’ del respondiente es:

(a) igual a,

(b) mayor que, o

En el contexto de medición de actitudes, diríamos que:

(a) el respondiente y la afirmación son igualmente positivos,

(b) el respondiente es más positivo que el ítem, y

• 11 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

Figura 1. Mapa de Wright

 El mapa relaciona los ítems (y su dificultad) y a los individuos (y su habilidad). Los ítems aparecen graficados como puntos

a la derecha (de acuerdo con su nivel de dificultad) y las habilidades de los individuos se representan a la izquierda como una

distribución de frecuencia del rasgo ɵ (habilidad). El mapa de Wright permite establecer categorías de sofisticación conceptual

dependiendo de la dificultad y la habilidad de los individuos: a mayor dificultad y habilidad, mayor sofisticación conceptual.

La figura 1 presenta un ejemplo de mapa de Wright. Para ítems dicótomos, un

modelo de Rasch (modelo logístico 1PL) permite identificar la relación entre la capa-

cidad (latente) del individuo y la dificultad de los ítems. Por tanto, la probabilidad de

que un individuo responda a un ítem de forma correcta se modela como función de

la diferencia entre la capacidad del individuo y a la vez de la dificultad del ítem. Este

modelo permite la comparación visual entre ítems, y el análisis de su relación con

la capacidad de los respondientes por medio del mapa de Wright. En dicho mapa

se representa gráficamente la habilidad del individuo en la izquierda (histograma

de la distribución de frecuencias de habilidad) y la dificultad del ítem a la derecha

(medida con el modelo de Rasch) (Wilson, 2005; Irribarra, 2021). Por inspección

visual del mapa, se puede concluir cuáles ítems deberían integrar la prueba ya

que se facilita determinar la relación entre un ítem y la capacidad del individuo en

términos de una misma escala, permitiendo también la construcción de categorías

de desempeño (Hontagas, et al., 1998).

• 12 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

La formulación del modelo de Rasch difiere de la de la teoría clásica de los tests

en varios aspectos fundamentales. En primer lugar, el modelo de Rasch se expresa

tanto a nivel de ítem como de instrumento, y no sólo a nivel de instrumento como en el

caso de la teoría clásica de los tests; es decir, en la Teoría Clásica de los Test (CTT),

la puntuación total en el instrumento X se expresaba en términos de T(puntuación)

y E (error). Por el contrario, en el modelo de Rasch, es la respuesta del ítem para

el ítem i, Xi (pronunciado «X-sub-i») la que se modelará centrándose en el ítem.

En segundo lugar, el modelo de Rasch tiene tanto un parámetro de persona, que

está a nivel de instrumento, como parámetros de ítem, que están a nivel de ítem;

por tanto, puede considerarse un modelo multinivel. En tercer lugar, el modelo de

Rasch centra la atención en modelar la probabilidad de las respuestas observadas

en lugar de modelar la suma de las respuestas, como es el caso del CTT.

2. Vinculando el mapa de constructo y el mapa de Wright:

¿cómo ayuda el mapa de Wright a dar significado a la escala?

El mapa de Wright aporta significado a la escala al representar gráficamente, en

una misma métrica, tanto las ubicaciones de los respondientes como las ubicacio-

nes de los ítems en relación con el constructo que se desea medir. Este vínculo

con el mapa de constructo es crucial porque permite interpretar los resultados de

la medición más allá de simples puntuaciones numéricas. Wilson (2023) presenta

el ejemplo de Galileo, quien desarrolló termoscopios que permitían la transducción

del calor de los objetos a diversos dispositivos similares a los termómetros actuales,

pero de una manera idiosincrática que no permitía una comparación general entre

diferentes termoscopios. El dilema de cómo vincular las indicaciones de estos dife-

rentes dispositivos tomó muchos años (incluido el desarrollo de diversas técnicas de

estandarización). Sin embargo, el desarrollo crucial fue la fijación de las diferentes

indicaciones a puntos críticos generalmente disponibles (públicos) e interpretables,

específicamente los puntos de congelación y ebullición del agua.

El evaluador desea tener una base referenciada por criterios para establecer tales

valores de referencia públicos (como los puntos de ebullición del agua u otro criterio

de referencia). Sin embargo, existen muchas formas en que la correspondencia

entre los waypoints’ y las estimaciones de sus parámetros correspondientes puede

fallar. A veces, las estimaciones no se agrupan de la manera en que el mapa de

constructo lo predeciría; otras veces, se agrupan, pero no en el orden previsto. Por

este motivo, se requiere hacer nuevas recolecciones de datos, que permitan con

nuevas muestras establecer las correspondencias más afinadas entre el mapa de

constructo y el mapa de Wright. El enfoque general adoptado es utilizar el mapa de

Wright como un vínculo conceptual entre la intención teórica del mapa de constructo

• 13 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

y la evidencia empírica de las estimaciones de los ítems y los respondientes. Este

debe ser constantemente revisado y mejorado desde la teoría y desde la evidencia

empírica (varias aplicaciones de los ítems a diferentes submuestras).

3. Más de dos categorías de puntuación: datos

politómicos. ¿Cómo extendemos el modelo

estadístico de Rasch a más de dos categorías?

Para extender el modelo estadístico de Rasch a más de dos categorías, se utiliza

el modelo Rasch de respuesta múltiple o modelo politómico. En lugar de tener sólo

dos posibles respuestas (por ejemplo, correcto o incorrecto), este modelo permite

que las respuestas se clasifiquen en varias categorías ordenadas. Esto es útil en

situaciones donde los ítems tienen respuestas graduales o escaladas, como en

escalas de actitud o en preguntas de logro con más de dos niveles de dificultad.

El modelo politómico de Rasch se basa en la misma idea fundamental del mo-

delo de Rasch para dos categorías, pero con un ajuste para manejar múltiples

categorías de respuesta. Este modelo utiliza umbrales o puntos de corte entre las

categorías para estimar las probabilidades de que un respondiente se ubique en

una categoría específica. Los parámetros δik (delta_ik) se conocen como “pará-

metros de paso”— que describen la probabilidad de dar el paso de una categoría

de puntuación a la siguiente, por ejemplo, de la puntuación k− 1, a la puntuación

k (Masters, 1982; Wright & Masters, 1982). Al considerar las probabilidades para

cada una de las categorías de respuesta, las curvas de probabilidad resultantes

se pueden denominar funciones de respuesta de categoría (CRF), el equivalente

de las curvas de información por ítem del modelo de Rasch, pero ahora aplicado

por categoría.

La información presentada en el mapa de Wright ofrece una visión del éxito en

el desarrollo de la medición, ya que permite observar rápidamente cuán bien se

ajusta la distribución de los ítems a la distribución de los participantes. En el caso

politómico esto es relevante por dos razones: (a) la proximidad de los participantes

a los umbrales entre categorías de respuesta influye en los errores estándar (por

ejemplo, “falsos positivos”) y (b) las limitaciones en el rango de los umbrales pueden

indicar limitaciones en la definición del constructo (y, por tanto, errores en el mapa

de constructo) implícito en el conjunto de ítems.

Otro error típico con los ítems politómicos es que pueden presentarse efectos de

“piso y techo” en cualquiera de los lados (es decir, del lado de los ítems o del lado

de los participantes) del mapa de Wright. Por ejemplo, los participantes pueden

• 14 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

ubicarse muy por encima de los umbrales más altos de los ítems, o muy por deba-

jo de los umbrales más bajos. Esto puede llevar al desarrollador de la medición a

cuestionar si ha creado una gama suficientemente amplia de ítems (o incluso de

puntos de referencia en el mapa del constructo) para representar adecuadamente

todo el rango del constructo. Alternativamente, el rango de los participantes puede

ser bastante estrecho en comparación con el rango de los umbrales de los ítems,

lo cual podría llevar a los desarrolladores de la medición a preguntarse si realmente

se necesita una gama tan amplia de umbrales y si deberían concentrar los ítems

en aquellos que se ajusten mejor al rango de los participantes.

Este tipo de consideraciones debe ser evaluado cuidadosamente en cada nuevo

contexto. Puede suceder, por ejemplo, que la muestra actual esté artificialmente

limitada, y que el uso futuro del instrumento incluya efectivamente participantes en

los extremos del rango, los cuales no pueden ser medidos por los efectos de techo

y piso.

4. El problema de la unidimensionalidad

Aunque Wilson (2023) no comenta sobre la dimensionalidad, es necesario dejar

planteado el tema para los profesionales que planean desarrollar o adaptar un

instrumento. “La unidimensionalidad se define como la existencia de un solo ras-

go latente subyacente a los datos” (Hattie, 1985, p. 139). La unidimensionalidad

implica que un conjunto de respuestas a un set de ítems es unidimensional si, y

sólo si, la matriz de respuestas a los ítems es localmente independiente después

de eliminar un único factor latente común. Sin embargo, lograr esto no es tan

sencillo en la realidad, y aún así, se insiste en formar a los nuevos psicómetras

como si siempre se cumpliera la unidimensionalidad, “McDonald caracteriza la

visión predominante sobre la posibilidad de que los datos se ajusten estrictamente

a un modelo unidimensional: ‘tal caso no ocurrirá en la aplicación de la teoría’”

(1981, p. 102).

Ante este hecho, los investigadores han dedicado mucho esfuerzo a: a) estudiar

el grado en que las estimaciones de parámetros de la TRI (Teoría respuesta al ítem)

son robustas (es decir, aproximadamente correctas) frente a distintos niveles de

violación de la Unidimensionalidad, y b) desarrollar criterios estadísticos para juzgar

si los datos se aproximan razonablemente al Modelo A de la figura 2 (por ejemplo,

un rasgo general “fuerte” o unidimensional). Los modelos que pueden relacionar los

ítems y la variable latente pueden ser variados y esto implicaría diferencias en las

relaciones de causalidad y en la posibilidad de tener ítems en realidad ortogonales

y que no comparten varianza con diferentes variables latentes.

• 15 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

Figura 2. Modelos que relacionan ítems y factores.

 Tomado de: Reise & Revicki (2015).

En la figura 2 se muestran modelos alternativos que pueden resultar de tener un

constructo latente y varias estructuras factoriales. Por ejemplo, el modelo A sería

el unidimensional con una sola variable latente, y este es el modelo en el que se

aplica análisis de TRI. El modelo B implica que los rasgos o variables latentes

están correlacionados y no son independientes, de modo que no es posible hacer

rotaciones ortogonales, sino que los ítems pueden caracterizar más de un factor.

El modelo C implica que una variable latente es causa de variables de segundo

orden (factores) los cuales a su vez son independientes y están configurados por

distintos grupos de ítems que no están relacionados entre sí. El último modelo (D)

tiene tanto la causalidad del rasgo latente como de los factores de segundo nivel. Si

la multidimensionalidad se debe a múltiples dimensiones latentes moderadamente

correlacionadas, o si existe un factor general fuerte, los modelos de TRI, según

algunos autores son relativamente robustos y se pueden usar sin distinción de que

haya Unidimensionalidad o multidimensionalidad; sin embargo, en la literatura se

recomienda hacer análisis de bondad de ajuste comparando modelos, y también

se sugiere hacer un análisis factorial para establecer las variables subyacentes

(unidimensionalidad vs. multidimensionalidad) (Reise & Revicki, 2015).

• 16 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

Conclusiones

El desarrollo de mediciones de rasgos psicológicos es un proceso que requiere

múltiples pasos, claridad en los conceptos y ajuste a un modelo de medición sin

abusar de los supuestos que se requiere cumplir. Los estudiantes de psicometría

requieren identificar que el modelo unidimensional no es el más común, de modo

que tendrán que recurrir a modelos de medición alternativos, que permitan esta-

blecer las características que subyacen a los constructos involucrados.

El proceso de creación de instrumentos requiere el uso de procedimientos como

el planteado por Wilson (2023), quien por más de 20 años ha perfeccionado y ense-

ñado su modelo BEAR. Los cuatro ladrillos de construcción del modelo son claves

para el desarrollo de instrumentos con validez interna y que sean confiables; sin

embargo, queda la inquietud sobre la restricción al modelo unidimensional y sobre

las dificultades que se hallan cuando el evaluador es quien de manera autónoma

determina los puntos de referencia de su constructo. No obstante, es una buena

aproximación para avanzar en el desarrollo de la teoría y de las formas de medición

de los constructos psicológicos.

Referencias

Bloom, B. S., Engelhart, M. D., Furst, E. J., Hill, W. H. & Krathwohl, D. R. (1956). Taxonomy of Educational

Objectives: The Classification of Educational Goals (Vol. Handbook I: Cognitive domain). Davidson.

Ferrara, S., Lai, E., Reilly, A. & Nichols, P. D. (2016). Principled approaches to assessment design, devel-

opment, and implementation. In A. A. Rupp & J. P. Leighton (Eds.), The Handbook of Cognition and

Assessment: Frameworks, Methodologies, and Applications, pp. 41–74. Wiley-Blackwell.

https://doi.org/10.1002/9781118956588.ch3

Hattie, J. (1985). Methodology review: Assessing unidimensionality of tests and items. Applied Psychologi-

cal Measurement, 9(2), 139–164. https://doi.org/10.1177/014662168500900204

Hontagas, P., Ponsoda, V., Olea, J. &Revuelta, J. (1998). Representación de funciones características de

ítems dicotómicos y politómicos. Psicothema, 10(2), 475-479.

https://www.redalyc.org/pdf/727/72710219.pdf

Irribarra, D. (2021). A Pragmatic Perspective of Measurement. Springer.

https://link.springer.com/book/10.1007/978-3-030-74025-2

Krathwohl, D. R., Bloom, B. S. & Masia, B. B. (1964). Taxonomy of Educational Objectives: The Clas-

sification of Educational Goals, Handbook II: Affective Domain. David Mckay Company Incorporated.

Masters, G. N. (1982) A Rasch model for partial credit scoring. Psychometrika 47(2), 149-174.

https://doi.org/10.1007/BF02296272

McDonald, R. P. (1981). The dimensionality of tests and items. British Journal of Mathematical and Statisti-

cal Psychology, 34(1), 100–117.

https://doi.org/10.1111/j.2044-8317.1981.tb00621.x

Mari, L., Wilson, M. & Maul, A. (2023). Measurement Across the Sciences: Developing a Shared Concept

System for Measurement (second edition). Springer.

Mislevy, R. (2018). Sociocultural Foundations of Educational Measurement. Routledge

• 17 •

DOI: https://doi.org/10.30554/tempuspsi.9.1.5419.2026

Ovalle, C (2025). Desarrollo de Instrumentos de Evaluación Psicológica y Educativa desde

el modelo B.E.A.R (Berkeley Evaluation and Assessment Research).

Tempus Psicológico, 9(1) - ISSN: 2619-6336

National Research Council (NRC). (2001). Knowing what students know: The science and design of edu-

cational assessment (Committee on the foundations of assessment). In J. Pellegrino, N. Chudowsky &

R. Glaser (Eds.), Division on Behavioral and Social Sciences and Education. National Academy Press.

Nicholls, P. D, Ferrara, S., Lai, E. & Reilly, A (2016) Principled Approaches to Assessment Design, Devel-

opment, and Implementation. In Leighton, J & Rupp, A (Eds) The Wiley Handbook of Cognition and

Assessment: Frameworks, Methodologies, and Applications. Wiley Handbooks in Education.

https://doi.org/10.1002/9781118956588.ch3

Reise, S. & Revicki, A. (2015). Handbook of IRT Modeling: Applications to typical performance assess-

ment. Routledge.

White, D. K., Wilson, J. C. & Keysor, J. J. (2011). Measures of adult general functional status: SF-36

Physical Functioning Subscale (PF-10), Health Assessment Questionnaire (HAQ), Modified Health As-

sessment Questionnaire (MHAQ), Katz Index of Independence in Activities of Daily Living, Functional

Independence Measure (FIM), and Osteoarthritis-Function-Computer Adaptive Test (OA-Function-CAT).

Arthritis Care & Research, 63(11), S297-S307.

https://doi.org/10.1002/acr.20638

Wilson, M. (2005). Constructing Measures: An Item Response Modeling Approach. Routledge, Taylor &

Francis Group.

Wilson, M. & Sloane, K. (2000). From principles to practice: An embedded assessment system. Applied

Measurement in Education, 13(2), 181–208.

https://doi.org/10.1207/S15324818AME1302_4

Wilson, M. & Tan, S. (2023). Test development: Principled assessment design. In D. Mc Caffrey & A. Rupp

(Eds.), International Encyclopedia of Education (fourth edition, Volume 10: Quantitative Research/

Educational Measurement, pp. 146–162). Oxford: Elsevier Ltd.

Wright, B. D. & Masters, G. N. (1982). Rating Scale Analysis. Psychology, 7(2).

https://www.scirp.org/reference/ReferencesPapers?ReferenceID=1779536