ArchiveLM convierte colecciones de prensa histórica digitalizada en texto buscable, citable y analizable — con OCR verificado contra la imagen original (sin texto inventado) y búsqueda semántica multilingüe.
Probá una muestra gratis (50 páginas)Una colección puede estar perfectamente escaneada y seguir siendo, en la práctica, inutilizable: una carpeta con miles de imágenes no se puede consultar por tema. Y hay un modo de falla silencioso en el OCR con IA: en páginas densas o deterioradas, muchos modelos generan texto verosímil que no está en la página. Para una investigación, eso es veneno — alguien cita un pasaje que nunca existió.
Verificación auto-correctiva (patente en trámite): cada extracción se compara con la imagen original y se reparan los huecos con un segundo modelo. Sin texto inventado, sin citas falsas.
Búsqueda semántica multilingüe: una consulta en español (o inglés) recupera los pasajes relevantes aunque la fuente esté en otro idioma.
Research Lab: mapa de entidades, líneas de tiempo y resúmenes para rastrear actores, instituciones y cambios a lo largo del tiempo.
Chat con citas: preguntás en lenguaje natural y obtenés respuestas ancladas a la página de origen.
Costo entre 75 % y 85 % por debajo de los proveedores tradicionales de digitalización; prueba gratuita de 50 páginas con resultados en 48 horas.
Convertir una hemeroteca digitalizada en un corpus consultable por tema, no solo por palabra exacta.
Rastrear la aparición de un actor o un debate político a lo largo de décadas de prensa.
Encontrar pasajes en español dentro de un registro mayormente en inglés (o al revés).
Procesar material propio (periódicos provinciales, documentación oficial) para una investigación o tesis.
Una hemeroteca permite buscar palabras exactas en el OCR existente. ArchiveLM añade búsqueda semántica (encontrás por significado, no solo por coincidencia literal), búsqueda multilingüe (una consulta en inglés recupera fuentes en español, y viceversa) y respuestas con cita a la página exacta — sobre OCR verificado contra la imagen original.
Ese es justamente el problema que resolvemos. En páginas densas o dañadas, muchos modelos generan texto verosímil que no está en la página, lo que produce citas falsas. La verificación auto-correctiva (patente en trámite) compara cada extracción con la imagen de origen y repara los huecos, de modo que lo que queda indexado es verificablemente lo que dice la página.
Sí. La plataforma fue validada sobre un archivo de prensa en español del siglo XIX (más de 85.000 páginas) y está pensada para broadsheets densos, tipografías de época y material multilingüe.
Sí. Podés subir tus fuentes (periódicos, registros oficiales, libros) desde el panel o importarlas por URL desde repositorios como archive.org. Exportás los resultados en texto, JSON, CSV y ALTO/XML.
Probamos la calidad sobre tu propio material: una muestra gratuita de 50 páginas, con resultados en 48 horas, antes de hablar de costos.
ArchiveLM está en beta privada. Revisamos cada solicitud y respondemos en 1–3 días hábiles.
Solicitar acceso a la betaEnglish version: Spanish-language archives