sì il problema dell'integrità dei dati va affrontato, anche e soprattutto in base a come lavora l'applicazione. Questa in pratica indicizza il contenuto di un sito e si crea dei database su file che usa quando un utente fa una ricerca, quindi non si può ottimizzare più di tanto (credo). Probabilmente funziona ottimamente... finché non hai un paio di tera di pagine html da indicizzare.
So che a noi ci perseguita da quando eravamo su un tradizionale cluster fisico....