Frente a la base de datos

 

Frente a la base de datos
Un decálogo para el investigador

 

Una base de datos no es sólo un tanque donde almacenar información. Una verdadera base de datos permite también acceder a esta información con total libertad e inmediatez; permite extraer subconjuntos en función de los intereses del usuario; permite vertebrar, desarrollar, explicitar la información bruta que proporcionan las fuentes.

Al crear una base de datos, el lado propiamente informático del asunto, el que tanto suele preocupar al usuario, no es sino una pequeña parte de la historia. De hecho depende de un amplio conjunto, que consiste, en lo fundamental, en una reflexión sobre la información disponible, sobre el uso que de la base el investigador se propone hacer, y sobre el destino final de los datos almacenados. Cuestiones todas que poco tienen que ver con la informática y mucho con la metodología histórica. La elección de un paquete informático concreto y la definición de la estructura de la base sólo tienen sentido después de contestar estas preguntas.

Decidimos escribir el presente decálogo, con sus diez mandamientos, al salir de un encuentro en el que, los trabajos presentados, algunos de ellos obra de notables contribuidores al adelantamiento de la "historia numérica", ponían todos de relieve cuán difícil les resultaba a sus autores semejante puesta en perspectiva1.

 

Tabla:

I. Tu herramienta conocerás

II. Tu proyecto planearás y a su clase asignarás

III. Tus datos analizarás, atomizarás y en tablas ordenarás

IV. Tus herramientas por fin escogerás

V. Pruebas y ensayos practicarás

VI. Almacenamiento y cálculo separarás

VII. Datos e interpretación distinguirás con cuidado

VIII. En cada campo una sola información almacenarás

IX. La integridad de los datos a todo precio preservarás

X. Tiempo sin contar a la base dedicarás

 

I. Tu herramienta conocerás

Si planeas construir una base de datos con medios informáticos, empieza conociendo tu máquina. Asimila los conceptos de campo, de tabla, de archivo, de lazo, de exportación, de búsqueda, de ordenamiento, y algunos más. Sería de desear que dominaras la programación, pero no se te puede pedir lo imposible, y haremos sin ello. Se te pedirá, sin embargo, una clara conciencia de las capacidades y de los límites de las principales tecnologías disponibles: saber, por ejemplo, que formular una pregunta en SQL no está al alcance del principiante, lo que vuelve las bases de datos basadas en este lenguaje prácticamente inmanejables por el investigador corriente; saber que las distintas aplicaciones disponibles para el manejo de los datos tienen cada una su punto fuerte, pero funcionan mal si se usan de otra forma: Excel es una fantástica hoja de cálculo, pero una pésima base de datos, lo mismo que un Ferrari puede ser muy buen deportivo, pero pésimo coche para ir de compras al supermercado. Tendrás una idea de las grandes familias de paquetes informáticos, sabrás la diferencia entre un procesador de texto, una hoja de cálculo y una base de datos. Sabrás, desde luego, pasar datos de la una a la otra, en formato tabulado o en csv (no lo digo en broma, este punto es fundamental)2.

Semejantes conocimientos, por básicos que sean, harán fructífero tu diálogo con los técnicos, con quienes necesariamente tendrás que hacer; te ayudarán a asimilar las informaciones que te pasarán , a adquirir autonomía, a delinear tu mismo el plan de maniobra que pondrás en obra para el manejo de tus datos. Semejantes conocimientos adquirirás en unos días en un curso especializado, o bien se te los habrán transmitido en la universidad. No te vendrán, en ningún caso, del manejo de los botones de tu i-phone. Olvídate de lo que cuentan de los "digital-natives" que se supone tienen un conocimiento nato del ordenador. Es un cuento chino, como si el haber nacido en el mundo del automóvil te capacitaba sin más para correr en Monza! No prosigue sin saber todo ello. Sino, en el mejor de los casos gastarás mucho tiempo en vano, por un resultado que no pasaría de regular.

 

II. Tu proyecto planearás y a su clase asignarás

Una base de datos no es un fin en sí mismo, sino una herramienta para llegar a una meta situada más allá. Cosa más desagradable no hay para quién dedicó horas y horas a poner a punto una base que el oír la pregunta: "¿Y ahora, que se hace con ello?" Así. Al autor de estas lineas lo sufrió y conoce a otros compañeros a quienes se les pasó igual. Amigo lector, aclararás ante todo tus objetivos y el uso que piensas hacer del instrumento que vas a crear.

De tal finalidad se derivarán las características de la base. Se pueden distinguir de hecho cuatro clases principales de bases de datos.

  • Bases de datos brutos. Reproducen un documento tal como viene, lo digitalizan y proporcionan una imagen digitalizada del mismo, acompañada de los elementos descriptivos exteriores que permiten localizar el documento entre todos los demás. En su caso, dan también un breve resumen del contenido. Movilizar este contenido para el fin que le parece, es tarea que se deja al usuario. Semejantes bases editan habitualmente series que vienen constituidas de antes, independientemente de la base. Reproducen la organización de la serie. Ejemplos típicos serían los fondos de los archivos estatales españoles o las colecciones de la BNF en París, sobre las que se crearon Gallica (BNF) y PARES (Archivos españoles).
  • Las bases de publicación. Almacenan datos elaborados, pero en lo esencial fijos. Siempre se trata de corpus artificiales, delimitados por un autor para un fin concreto. Pueden ser datos brutos o semi-brutos que sirvieron para una investigación y se reciclan publicándose. Pueden ser colecciones documentales constituidas alrededor de un tema, a semejanza de un libro (más bien un libro de arte por las facilidades que proporciona lo numérico en el manejo de la imagen), colecciones que proporcionan al "lector" un itinerario de lectura en forma de relato (Virtual Shanghai de Christian Henriot y Gérald Folio). La numerización les da una flexibilidad sorprendente. El usuario puede cambiar el orden de presentación, agrupar la documentación por temas, seguir caminos definidos por relaciones de semejanza matemáticamente calculadas entre los objetos, ordenar los datos como se le antoja, usar el material, en fin, como el soporte de su propia creatividad, con una capacidad de sugerir muy por encima de la publicación en papel, en la que el recorrido propuesto por el autor se impone como el único posible. La base, sin embargo, casi siempre está cerrada y no está planeada para recibir cantidades masivas de datos nuevos, y menos aún de datos de tipo nuevo; ni para comprobarlos, disgregarlos en sus elementos constitutivos, marcarlos como pertenecientes a tal o cual clase en función de las necesidades propias del lector, fuera de los caminos marcados por el autor. Un buen ejemplo sería la base sobre la trata atlántica de esclavos, Slavevoyages (http://slavevoyages.org/).
  • Las bases para el almacenamiento de información de uso único3. Son lo equivalente de los "dossiers" preparatorios que todo investigador constituía cada vez que llevaba a cabo una encuesta nueva en los tiempos del papel y de la pluma. Juntan notas de archivo, reproducciones gráficas, copias de documentos originales, cuadros estadísticos más o menos elaborados, resultados de análisis llevados a cabo con varios instrumentos matemáticos… Cada elemento va marcado como que pertenece a tal o cual conjunto, a elección del usuario. El fantástico potencial clasificatorio de la máquina permite consultarlos de forma casi instantánea. Tales bases no se idearon para analizar de forma sistemática datos complejos; más bien para llevar rápidamente a la vista del investigador los resultados de semejantes análisis. Bases de uso único, porque tanto su contenido como su organización son altamente personales. Son instrumentos de trabajo sumamente útiles. Existen en el mercado varias herramientas de este tipo, de pago o en freeware (Mydata Keeper, Treepad Lite, etc.). Evaluarlas en función de los requisitos de la investigación histórica, seleccionar las mejores y sugerir mejoras sería hacer un gran servicio a la comunidad, porque son instrumentos en todo caso necesarios.
  • Las bases de datos acumulativas para la investigación. Son bases de datos que se planearon de entrada para almacenar datos brutos para fines de investigación nueva. Pueden ser de uso genérico, o limitado a un tipo especial de documentos. En todo caso, atomizan la información, es decir que la reducen a sus elementos de granularidad más fina, sin tener a la vista ninguna aplicación concreta, sino que basan esta división en las estructura interna de la información que manejan. De tal forma que los materiales así elaborados pueden usarse en cualquier contexto y para cualquier fin que sea, porque el usuario siempre los podrá ordenar de nuevo de la forma que le convenga para el fin que quiera. Lo mismo que podrá seleccionar entre ellos los conjuntos que necesita en función de cualquier criterio, con el nivel de detalle más fino que se pueda alcanzar. Son, por su misma naturaleza bases de uso colectivo. Cada elemento atomizado va relacionado por un lazo explícito a todos los elementos con los cuales lo relaciona la documentación. Cada elemento va identificado por un identificador único. La base es incremental en el sentido que siempre es posible insertar de forma indefinida datos extra, de un tipo ya existente o de tipo nuevo, sin cambiar su estructura y sin perder nada de los datos nuevos – este último punto es fundamental para la investigación. Descansan esta bases sobre un análisis detallado de la naturaleza de la información que ponen en obra. Dividen sus elementos en átomos de información con una granularidad mucho más fina que la de los límites físicos o conceptuales que separan los documentos unos de otros. De esta forma, llevan la división de los datos más allá de hasta donde van las bases documentales, que respetan el documento como unidad básica. Usando como principio estructurante la estructura interna de los elementos que almacenan, poseen un grado de generalidad que les permite procesar los contenidos más diversos. La contraparte de esta flexibilidad reside en el hecho de que son objetos complejos, que sólo especialistas pueden manejar. Tal como ya lo dijimos, permiten crear en su seno con total fluidez, cualquier subconjunto sacado del universo que abarcan. Sus datos, desde luego, se pueden exportar a cualquier otro paquete informático para sus análisis o para enriquecer cualquier otra base de datos. Fichoz pertenece a esta clase4.

Es imprescindible, lector amado, que sepas de antemano que tipo de base de datos quieres elaborar. Para ello, consultarás; y consultarás preferentemente a un historiador que ya ha realizado una base del tipo que te interesa, una base que notoriamente funciona con la que produjo resultados comprobables5. Un historiador. Todavía no un técnico. No te interesa aquí la técnica, sino una visión de conjunto del proceso, aprovechamiento terminal de los datos incluido.

 

III. Tus datos analizarás, atomizarás y en tablas ordenarás

Toda base de datos, sea cual sea el dispositivo técnico en que se fundamenta, descansa sobre el reparto de su materia en bloques manejables, que se parecen a otros tantos contenedores. Son bloques idénticos, en los cuales se almacena una información ella sí variable. Vienen equipados con etiquetas que indican su contenido y permiten al usuario seleccionar los que necesita en un momento dado; y con asas que permiten agarrarlos, manejarlos, atarlos los unos con los otros en cadenas de tamaño indefinido.

Construir una base de datos implica ante todo, perdona o lector, mi insistencia, un análisis de los datos que tiene que almacenar a la luz de los objetivos que se persiguen. El problema de la implementación en herramientas digitales concretas no tiene ni que plantearse antes de efectuar este análisis y tiene que determinarse a la luz de sus conclusiones. Nunca, por otra parte, tienen consideraciones técnicas que llevar a renunciar a exigencias científicas. Como más retrasarán su cumplimiento o impondrán vías concretas para su realización.

La primera pregunta que tienes que hacerte es la de la naturaleza y del tamaño de los contenedores. ¿Cual es el átomo mínimo de información que necesitas? Tomemos como ejemplo un proyecto sobre las películas occidentales proyectadas en China en los años 1920-19306. Al oír la investigadora que lo lleva a cabo, aparece rápidamente que este átomo pertinente no es la película, como lo cree ella. Se pregunta, en efecto, en que condiciones y cuantas veces ha sido dada cada película en cada cuidad. El átomo en que tiene que basar su trabajo, obviamente, es la sesión. Sesión que tiene ella que describir con varios descriptores que serán otras tantas etiquetas con que manejar esta información: dispositivos acústicos, localización de la sala, número y categoría de los espectadores, fecha, hora, tarifas, etc. El conjunto de los contenedores (cada uno contendrá una sesión) se almacenará en un espacio común que llamaremos "Sesiones".

Dos de los descriptores que describen la sesión, sin embargo, la sala y la película, tienen a su vez que describirse de forma detallada para aprovecharse de verdad en la investigación en curso. La descripción de cada sala se almacenará en un contenedor provisto de etiquetas tales localización, capacidad, propietario, regente, etc. Todos los contenedores de salas se almacenarán en un espacio distinto del que mencionamos arriba, que llamaremos "Salas". De la misma forma, cada película se almacenará en un contenedor específico, con etiquetas tales su duración, sus características técnicas, su genérico, etc.

Dijimos "película". Nos equivocamos. La película no es el nivel de atomización adecuado. Los especialistas saben que una misma película genera muchas versiones, con títulos distintos, con montajes distintos, en idiomas distintos, y que lo que ve el espectador no es la película en sí misma, sino una versión específica de la misma. Ya que el propósito de la investigación consiste en evaluar el impacto sobre el espectador, será la versión, el único elemento con el que éste interactúa, que servirá de base de atomización para describir lo que se proyecta en cada sesión. Crearemos pues tantos contenedores como versiones. Les pondremos etiquetas tales el título, la duración, un resumen de las diferencias que les aleja del original, el idioma, etc. Almacenaremos estos contenedores en un espacio específico que nombraremos "Versiones".

Todas la versiones de una misma película, sin embargo, se remontan a un mismo arquetipo, que tal vez no tenga existencia material alguna, pero que sí tiene una existencia conceptual fuerte, la película original. Crearemos una serie de contenedores para almacenar tales arquetipos, que equiparemos con las etiquetas pertinentes, tales el nombre de las personas que figuran en el reparto, el director, el productor, y otros elementos que todas las versiones tienen en común. Estos contenedores guardaremos en un espacio específico que llamaremos "Películas".

Aquí pararemos, ya que cubrimos las necesidades de la investigación proyectada (Esquema I). Podríamos pensar en un espacio nuevo en el que almacenaríamos detalles biográficos sobre cada una de las personas que contribuyeron algo a la obra, y así seguidamente ad infinitum. Lo dejamos, porque a nuestro juicio tales elementos nuevos no tendrían gran relevancia para nuestro estudio. Es el buen criterio del investigador, orientado por consideraciones de relevancia, quien determina los límites del universo de datos que contendrá la base. En todo caso, la forma en que estructuramos los datos nos permitiría, de ser necesario, añadir más niveles de análisis sin tener que modificar el núcleo existente.

Esquema I.

 

Cada contenedor tiene que llevar asas con que agarrarlo, manejarlo y atarlo con otros. El asa, del punto de vista informático, toma la forma de un identificador único, en el caso presente un conjunto de ocho dígitos arbitrarios, cuya única función consiste en identificar el contenedor. El reproducir en alguna parte del contenedor B el identificador del contenedor A crea un lazo entre los dos. Se pueden definir de esta forma en la base, cadenas de contenedores que, combinando elementos de la más diversa índole, expresan fenómenos complejos con tantos matices como se quiera (Esquema II).

Esquema II.

 

 

Semejante análisis de tu propósito, amable lector, y de la materia en que lo vas a fundamentar, es imprescindible. Te pido perdón por esta nueva reiteración: tantos proyectos vi fracasar por haberse saltado este etapa, que prefiero pecar de pesado que de negligente. La correcta elección del modulo de atomización es especialmente decisiva, porque una vez decidida, resulta difícil dar marcha atrás.

Este análisis, insisto, tiene que ser previo a la elección del paquete informático a partir del cual desarrollarás tu base. Buscarás a quien te aconseje. Preferentemente un investigador con experiencia de las bases de datos. Un técnico a lo mejor no capte la amplitud y las implicaciones de una demanda que expresarás con voz necesariamente balbuceante. La autora del ejemplo en que nos basamos lo experimentó en su carne: ella pidió, por ignorancia de la forma en que trabajan las máquinas, que la película fuera el átomo sobre que se edificara la base. Oyendo como exponía su proyecto, no cabía duda de que fuera ello una equivocación. Mejor dicho, no le hubiese cabido duda a un investigador acostumbrado a descifrar este tipo de discurso. El técnico no detectó el fallo, no por desconocimiento de su oficio, sino por desconocimiento de la materia investigada. Del olmo no se pueden esperar peras.

 

IV. Tus herramientas por fin escogerás

Doblado este cabo peligroso, estarás en condiciones de elegir la herramienta que mejor se adapta a tu proyecto. Allí si tendrás que consultar a un ingeniero. O a varios, ya que la oferta es hoy en día muy diversa y que nadie lo puede saber todo.

El entramado de contenedores que describimos en el mandamiento tercero se puede, en efecto, trasladar a la máquina de varias formas. A título personal prefiero, con diferencia, las que se limitan a transcribir en en lenguaje informático, tal cual, el esquema lógico que elaboramos en la fase de análisi (Esquema II): registros (contenedores), campos (etiquetas) y tablas (espacios específicos), lo que simplifica el manejo de la base y la hace más robusta.

Tendrás que decidir si agregas tu datos a una base ya en existencia – las hay, hechas para el trabajo colectivo, sobre todo de la clase cuarta del Mandamiento II -, si trabajas con una copia vacía de una base existente, o si creas un sistema totalmente nuevo. Decidido esto, escogerás un paquete informático.

En todo ello, no perderás nunca de vista que el instrumento que planeas:

  • Debe imperativamente cumplir con todos los requisitos de la clase de base de datos que te propones.
  • Debe tener la mejor ergonomía posible, porque formar y manejar una base de datos requiere muy numerosas operaciones que hay que hacer a mano, y que ganar un tiempo aún mínimo en cada una significa mucho al final; que además la base es parte de una cadena informativa de la que el eslabón final siempre es tu ojo; de tal forma que la capacidad del sistema que eliges en proporcionar pantallas de calidad, que se puedan modificar de forma sencilla y flexible para adaptarlas a su contenido, tiene que ser un criterio fundamental en tu elección. No por gusto a la espectacularidad gráfica, sino porque significa una diferencia enorme en la eficacia de tu trabajo7.
  • Debe tener la flexibilidad suficiente como para permitir modificaciones en el diseño de la base en el curso del trabajo, y sobre todo como para no obligarte a tomar sobre la marcha decisiones precipitadas y irreversibles en la descripción de tu materia.

Darás mucha importancia a la perennidad del sistema. Cuando creas una base de datos, trabajas a largo plazo. El paquete informático que sustenta tu base tiene que ser lo bastante difundido como para garantizar su propia continuidad, por el coste que supondría su desaparición para la economía global; y la continuidad de una comunidad de usuarios para ponerlo en obra. Nada de aplicaciones ad hoc, escritas para tu uso personal: usa productos del comercio, o freeware muy difundidos. Cuidarás de que tus datos se puedan exportar con facilidad, sin mutilaciones, a formatos estandardizados para el intercambio de datos; y de que el entramado de tu base sea fácil de entender por parte de un técnico8. El aprendizaje exigido por el primer mandamiento te será muy útil para todo ello.

Cuidarás mucho del coste. Aparte de las limitaciones obvias que consideraciones económicas imponen a tu libertad creativa, tienen mucha incidencia en la perennidad de tu base. Huye de los portales de alojamiento web de pago, que te exigirán una renta mensual que a lo mejor no puedes sostener a largo plazo. Recuerda que no hay nada gratis, sino lo que haces tu mismo; que los técnicos de la Universidad casi siempre cuestan más a la colectividad que el comprar en el mercado el servicio que proporcionan, cuando existe, y que introducen un factor de inestabilidad fuerte en tu trabajo: trasladados y jubilados no se sustituyen con la misma facilidad en el sector público que en la empresa privada9.

 

V. Pruebas y ensayos practicarás

Hecho todo eso, no iniciarás sin más precauciones grandes proyectos de investigación. Creada ya tu base conforme al proceso arriba descrito, manejarás con ella una cantidad limitada de datos. Una base de datos es un objeto de ingeniería único. No hay caso de objeto de ingeniería que no necesite un período de puesta a punto, lo que implica a veces una revisión desgarradora de sus presupuestos fundamentales. Recuerda los Comet de De Haviland. Fueron los primeros aviones comerciales con motores de reacción, el orgullo de la industria británica. Resultaban propensos a explosiones catastróficas en vuelo. La culpa la tenían los ribetes de sus ventanillas, y para más señas, ventanillas cuadradas, cuyas esquinas formaban otras tantos punto flojos en la estructura del aparato. Corregido el defecto, los Comet vivieron una larga carrera, con fama de robustez. Toma las precauciones necesarias para que tu base no se haga pedazos al llegar a su altitud de vuelo, y más si has fundamentado sobre ella un proyecto de investigación con amplia financiación que te dio algo de fama y levantó celos. Antes de lanzarla a vuelos de crucero, comprueba que todo funciona, procesando muestras de la documentación más compleja que puedas (quien puede lo más…) y llevando a cabo tu prueba con una duración suficiente como para llegar a hacer de tu trabajo una rutina, ya que algunos defectos se revelan únicamente en un manejo rutinario del aparato. Cuando tengas la certeza que todo está en orden, arranca en serio.

No disimularé, o lector, que al tener que opinar en los comités de evaluación, rechazo sistemáticamente todo proyecto que anuncia la creación de una base de datos y que no ha hecho pruebas previas con la misma. Fruto de mi experiencia. Pruebas que tiene que financiar el equipo al que pertenece el investigador. Para ello está.

Estos cinco primeros mandamientos valen para todas las bases de datos. Los mandamientos siguientes valen más específicamente para las bases de datos acumulativas para la investigación. Usaremos en lo que a ellas de refiere el vocabulario que ya dijimos que nos parece más adecuado: registros, campos y tablas.

 

VI. Almacenamiento y cálculo separarás

El contenido de toda base de datos tiene por finalidad la de alimentar "río abajo" instrumentos de proceso y análisis. No caerás en la tentación de usar para ello los instrumentos de proceso de datos y de análisis estadístico que te proporciona el paquete que te sirvió para formar la base, que todos los proporcionan. Cuando de investigación se trata, la extensión y naturaleza de las operaciones que llevas a cabo con tus datos no se pueden prever. Los instrumentos incluidos en los paquetes para bases de datos son habitualmente buenos, a veces excelentes, pero siempre van insertos en una arquitectura que no se ha pensado, ni tenía porque pensarse, para maximizar sus potencialidades ni para darles toda la flexibilidad posible.

La base de datos tiene pues que servir para almacenar datos, lo que es el uso para que ha sido pensada, no para procesarlos. Almacenamiento organizado de tal forma que siempre sea posible responder a cualquier demanda, constituyendo, con precisión y rapidez, cualquier subconjunto de datos. Tales subconjuntos, exportados en formato tabulado o en cualquier otro formato estandardizado de intercambio de datos, se pasarán a paquetes independientes, que los procesarán en función de las necesidades del usuario. De forma que éste preservará su libertad, sin sufrir las limitaciones técnicas impuestas por un instrumento para quien tales cálculos son una tarea subordinada. Preservar la libertad del usuario es, además, una condición necesaria para un uso colaborativo de los datos, ya que las necesidades de un investigador raras veces coinciden con las necesidades de otro. Está claro que estos paquetes de análisis, el investigador tendrá que saber manejarlos él mismo. Este punto es absolutamente fundamental, teniendo en cuenta el carácter poco estandardizado de sus datos y de su demanda. Él solo entiende de verdad lo que quiere, y él solo se puede dejar llevar por los primeros resultados hacia otras preguntas en las que no había pensado al principio.

 

VII. Datos e interpretación distinguirás con cuidado

Dejando de lado las bases de datos brutos, que amoldan los átomos de información que manejan sobre los bloques informativos definidos por la fuente que reproducen, toda base de datos transforma los datos originales. Dividir el flujo de información en registros (atomización), seleccionar dentro de este mismo flujo los marcadores que proporcionarán las etiquetas que van a describir el registro (campos), equivale a romper de forma irreversible la unidad del objeto documentado en la fuente. En una palabra como en mil, insertar un objeto en una base de datos equivale a romperlo para construirlo de nuevo, de forma distinta, juntando los trozos. Pero la base de datos, por su propia naturaleza, se sustituye al objeto en la mirada del investigador. Este ya no tiene acceso al objeto, sino al objeto interpretado por la base. Si la atomización ha sido errónea, o la reconstrucción mal hecha, el objeto se pierde. Peor. Siempre parece presente, pero ya no es el mismo, y nada permite detectar el cambio. El problema no es propio de la era informática. Nuestros antecesores lo tenían ya cuando extractaban datos a pluma y papel. Hay casos famosos10.

Consecuentemente:

  • La deconstrucción y transformación del objeto original se tienen que hacer dentro de los límites y conforme a los criterios que impone la hermenéutica de la disciplina interesada.
  • Toda transformación hecha necesaria por el proceso de investigación que se situaría fuera de estos límites, se prohíbe en el momento en que se cargan los datos a la base. En aquel momento el investigador no tiene todavía una visión global de su materia. Además, su mente se encuentra dividida entre varias tareas. De ser necesaria, esta transformación tiene que ser objeto de procesos especiales, después de cargados los datos a la base.
  • El cargar los datos, ya que implica romper y reconstruir el objeto, tiene que reservarse para operadores que tienen un conocimiento suficiente de la hermenéutica de la disciplina. Lo que hace imposible el uso de contratados sin formación previa11.

O sea una entrada de un libro de la Cámara de Castilla, el organismo que, entre otras funciones, tenía la de nombrar a los magistrados en la España del Antiguo Régimen:

 

25 de enero de 1674, Juan de la Mesa alcalde de la cuadra de Sevilla.

 

Teniendo en cuenta el contexto, queda claro que se trata de un nombramiento. Semejante linea formaría pues en una base de datos un átomo de información, o sea un registro informático.

El sentido puede no ser tan obvio:

 

25 de enero de 1674, Juan de la Mesa alcalde de la cuadra de Sevilla.
28 de enero de 1674, Pablo de Alzaola alcalde del crimen de Sevilla.
15 de marzo de 1674, José Fuentes oidor de Sevilla.
28 de mayo de 1674, Jerónimo Bastos alcalde mayor segundo de Sevilla

 

Todo experto sabe que alcalde de la cuadra y alcalde del crimen designan una misma realidad: un juez criminal de la Audiencia de Sevilla; que un oidor es un juez civil del mismo tribunal; que un alcalde mayor, a diferencia de los otros dos, no pertenece a la Audiencia, sino al equipo del corregidor. Conocimiento necesario para interpretar correctamente los datos. Toda conclusión basada en las formas verbales daría resultados absurdos. ¿No sería por lo tanto legítimo formular de otra forma estas entradas en la base, para salvar tales ambigüedades? En el momento de cargar los datos, desde luego no. Cualquier error no se podría recuperar12. Hay que poner, en primera intención, los datos como vienen; y prever otro campo en el que se transformarán, pero conservando siempre el dato original para fines de control. Los cálculos se harán, obviamente, en el campo agregado, el único que proporcione un contenido efectivamente estructurado.

Lo mismo vale por los individuos, corporaciones, lugares y cualquier otro actor mencionado en la documentación. Se apuntarán como aparecen, y cuanto más tanto que tal formulación es en sí una información histórica. Se les agregará un identificador único, que les definirá como una misma persona o varias personas, según convenga. El identificador también servirá para colgar datos acerca de los lazos que unen el actor con otros. Los identificadores, sin embargo, aparecerán en campos distintos del que almacena el nombre, de suerte que una atribución errónea se pueda corregir sin cambiar nada en el resto del registro.

 

VIII. En cada campo una sola información almacenarás

Las etiquetas (campos) que describen cada contenedor (registro) permiten encontrarlo entre todos, al hacer visible para el usuario uno de los caracteres que lo definen. Idealmente, cada etiqueta tiene que contener un solo valor. De ser inexcusable poner dos, deben describir un mismo carácter, por ejemplo: color, amarillo y verde; nunca: verde y vertical.

De forma todavía más absoluta, un registro almacena un solo elemento de información. La entrada del registro de la Cámara de Castilla:

15 de marzo de 1674, José Fuentes oidor de Sevilla y juez protector de Cofradía de la Macarena

debe generar dos registros:

15 de marzo de 1674, José Fuentes oidor de Sevilla
15 de mazo de 1674, José Fuentes, juez protector de la Cofradía de la Macarena

 

Es una regla absoluta. Si la estructura de la base no permite la unicidad informativa, es la estructura que tiene que cambiarse, no la regla. Esta regla llamamos principio de unicidad.

 

IX. La integridad de los datos a todo precio preservarás

Si, para cumplir con el mandamiento de unicidad, tienes que elegir entre dos informaciones, poniendo la una y dejando fuera la otra, para, modifica el entramado de tu base, y arreglátelas para poner las dos respetando el principio de unicidad. Esta regla de integridad es absoluta. No conoce excepciones. La base no tiene en ningún caso que obligar a mutilar los datos. Eres un investigador. No un literato o un administrativo, para quienes cortar es virtud. El poder aprehender a un mismo actor bajo varios ángulos es un elemento fundamental de tu análisis. Por ejemplo:

 

José Huidobro es regidor de su pueblo y labrador: dos etiquetas.

 

Consecuentemente, la base de datos tiene que proporcionar tantos emplazamientos vacíos para etiquetas como necesario sea para almacenar todas las características que describen al individuo a lo largo de su vida. En el caso de José Huidobro, podríamos imaginar dos campos, que llamaríamos "Posición social" y "Función política". Imaginemos ahora la información siguiente:

 

José Huidobro, regidor, labrador y tejidor, procurador de menores

 

Necesitaríamos aquí dos campos para la función política y dos más para la posición social. Un tanto complejo. Es habitual encontrar intitulados mucho más largos. La lista de los títulos del duque de Alba a fines del siglo XVIII, por ejemplo, comprende más de cincuenta entradas. Multiplicar los campos es pues obviamente imposible. Se tienen que multiplicar los registros, poniendo en cada un carácter sólo, y unirlos por medio del identificador que describe el actor. Como un rosario. No es este el lugar adecuado para exponer con detalle las estrategias posibles. Una sola cosa recordaremos: cualquier base de datos que obliga a dejar de lado parte de la información sufre un vicio dirimente.

 

X. Tiempo sin contar a la base dedicarás

Armar una base de datos es un proceso largo que los interesados siempre infravaloran. La puesta a punto del entramado puede necesitar un tiempo importante y una energía mental desproporcionada a poco que uno encuentre problemas imprevistos, que a veces obligan a retomar desde los fundamentos un trabajo que se creía casi terminado. Introducir datos es un proceso repetitivo y sumamente aburrido. Cargados los datos, quedan por corregir: un solo error, en algunas configuraciones, basta para distorsionar los resultados de forma notable. Un buen sistema de base de datos permite crear un índice del contenido de cada campo, y ordenar los datos de distintas formas, lo que acelera las comprobaciones. Estas no dejan por ello de ser aburridas. Los datos brutos ya corregidos, quedan por indexar, lo que permitirá ponerlos en obra, y por equipar con identificadores, lo que no es sencillo ni rápido. Terminado todo ello, la fase de explotación, ella sí, te dará una sensación de rapidez.

En fin de cuentas, la duración total de la operación habrá sido mucho menor de si lo hubieras hecho todo a mano. Pero el uso de ordenadores se fundamenta en la repetición, y la avalancha de tareas repetitivas que te caerá encima será por ti una desilusión, que tal vez llevará tu proyecto al fracaso. Puede ser que, fascinado por la velocidad de la fase de explotación de los datos, olvides el enorme trabajo preparatorio que la condiciona río arriba. Cuando elabores tu proyecto, no seas ambicioso en exceso. Piensas hacer dos? Cuenta que harás, y anuncia, uno. De tal forma que no tendrás sino sorpresas buenas, y contigo tus evaluadores.

 

———-

 

Inscribe por fin en tu corazón este mandamiento nuevo, que resume en sí toda la Ley y los Profetas:

Solo importa la eficacia

No faltarán quienes te vayan vendiendo una supuesta ortodoxia informática, o al revés quienes te vayan poniendo por las nubes la elegancia de un método nuevo… que algún genio tiene planeado desarrollar en un futuro próximo. Olvídalos. Sus argumentos no deben alejarte de la única verdad que valga: tienes que tener acceso, con la menor rugosidad posible, al conjunto de tus datos, de todos tus datos, y a los lazos que los unen; y, si estás en una web buena, o trabajas con tu máquina propia, de forma casi instantánea. Tienes que tener la posibilidad de moverte con agilidad en el conjunto de tus datos. Cualquier solución, por brillante que sea, que no respondería a estos criterios, descártala. El precio que pagarías en tiempo innecesariamente gastado y, lo que es peor, en distorsiones introducidas en tus resultados, es prohibitivo. Por fin, entre los instrumentos que corresponden a tales exigencias, elige el más eficaz. Todo lo demás es pura literatura.

 

 

Jean Pierre Dedieu
CNRS (DR émérite) / Framespa Toulouse / ENSL-IAO

 

 

 

Notas

 

1 Jornadas organizadas en la Universidad de Aix-en-Provence por Christian Henriot los 15 y 16 de Septiembre de 2016.

2Si, en lo que antecede, encontraste palabras que no te resultan familiares, para, aprende, y luego, sólo luego, vuelve a seguir con tu proyecto.

3Un buen ejemplo fue presentado por Cecile Armand en las Jornadas de Aix, citadas en la nota 1.

4Sobre Fichoz y los principios subyacentes, véase: Designing databases for historical research
With special reference t
o Fichoz, in the present blog.

5Rehuirás de falsos profetas, que lo numérico los atrae como el miel las moscas. Por sus frutos los conocerás: mucha cáscara y pocas nueces; bellas palabras, pocas bases hechas; mucho libro sobre lo numérico, pocos trabajos usando lo numérico.

6Caso expuesto en las Jornadas de Aix anteriormente citadas por Anne Kerlan.

7La falta de flexibilidad de las presentaciones gráficas es una de las razones fundamentales que, a mi juicio, hacen inmanejable Excel como base de datos; lo mismo que Access y la inmensa mayoría de las bases de tipo SQL.

8Otro punto que explica la preferencia que exprese arriba por los sistemas en los que el entramado informático refleja directamente la ordenación lógica de los datos.

9Muchas universidades alemanas se enfrentan con el problema de la supervivencia de grandes bases de datos científicas que iniciaron en los años 70 con la ayuda de jóvenes ingenieros , quienes hoy en día (2016) se van jubilando uno tras otro. Dejando tras sí bases que nadie ya sabe manejar.

10Tal un ilustre historiador alemán del siglo XIX, quien, por tener una exagerada confianza en el trabajo de sus estudiantes, a quienes encargaba sus bases de datos, confundió las elucubraciones de una novela histórica con las conclusiones de un investigador profesional. Y arrinconó durante un siglo los estudios sobre brujería en un callejón sin salida (Cohn (Norman), Europe's inner demons. An inquiry inspired in the great witch hunt, 1975).

11Este punto lo desconocen, por desgracia, casi todos los que deciden. Me consta que un proyecto milinario, que había "externalizado" el cargar informaciones extractadas de una documentación medieval compleja, estás buscando voluntarios para corregir el trabajo [mal] hecho. Resultado previsible desde el principio.

12Estando pasando a base de datos un listado de agentes de la Monarquía española del siglo XVIII, encontré un número sorprendente de "ministros". Era el resultado de una corrección poco afortunada hecha en los datos por uno de los operadores. Lo que hoy en día es un ministro se denominaba entonces "Secretario de Estado…", expresión resumida por el lenguaje corriente en "Secretario", seguido por el nombre de la modalidad, saltándose "de Estado". Los escribanos que despachaban el papeleo en las oficinas de los consejos también se titulaban "secretarios", y la jerga administrativa de la época sólo agregaba la modalidad, saltándose las palabras "del Consejo", que hubiesen levantado toda duda. Nuestro buen colega los había puesto a todos como "Ministro", introduciendo, aparte de una confusión que nos costó corregir, un anacronismo.

Ce contenu a été publié dans Non classé. Vous pouvez le mettre en favoris avec ce permalien.