GRAINERY

Aplikace Granery umožňuje pracovat s technickými a administrativními metadaty z webových archivů. Staví na metadatové specifikaci Grainery 0.35 pro webové archivy vychádzející z širších specifikací IIPC. Na tomto základě přispívá k precizaci monitoringu úložišťě webarchivu, jeho správě, bitové a logické ochraně a grafickému přiblížení jeho obsahu pomocí statistik pro správce a kurátory, ale také pro nejširší veřejnost.

Více: https://github.com/WebarchivCZ/grainery/wiki/Popis-aplikace

Krátce o aplikaci

Skladba

Aplikace se skládá ze dvou hlavních částí: python extraktor metadat Extarc a prezentační vrstva (Grainery frontend). Komunikují společně přes NoSQL bázi (MongoDB) přes formát JSON, která je definován technickou metadatovou specifikací Grainery.

Začíname

Podrobněji:

https://github.com/WebarchivCZ/grainery/wiki/Instalace

Prerekvizity

Git
Python 3.5 a 3.7
Pip3 instalátor dependencies
Mongo DB - např. přes docker
Pro Extarc: shell console, Gzip (>=1.6), funkční připojení na storage

Instalace

#Naklonuj repo

git clone https://github.com/WebarchivCZ/grainery.git

#Nainstaluj dependencies pre Extarc a Web Applikáciu
cd grainery
pip3 install -r requirements.txt

Rozběhnutí Extarcu

Pouštěj lokálne, nad úložištěm jen vnitru zabezpečený, anebo izolovaný sítě

Extarc potřebuje i když je záťěž poňatá minimalisticky, serverový systém s dostupným a rychlým úložištěm, příjemným pásmovým rozsahem a priměřenou pamětí, ideálne 8-16 GB RAM a osmijádrovým procesorem . Pro domáci testovaní, alebo ako dlouhodobá servica na pozadí může běžet i na daleko nižších konfiguracích, eg. 2 GB RAM.

#copy extarc to top directory of your archive
cp ./extarc /archive/mightyTopFolder  
cd /archive/mightyTopFolder
python3 Extarc.py > ExtarcYYYYMMDD-folder.log

# opakuj nad top adresármi obsahujúcimi warc, cdx, crawl logy, linuxfixity
# spojení disparátnich úložišť je otázkou revize
# ideálně pouštět ako proces na pozadí

Rozběhnutí Grainery frontendu

Grainery frontend je postavený na frameworku Flask a je testovaný na Pythonu 3.7.0 V MongoDB potřebuje databázi grainery a v ní tři kolekce: harvest, container, cdx Dalším krokem je vytvoření indexu pro full textové vyhledávání v kolekci harvest. Vytvoření indexu v Mongo shellu

use grainery

db.harvest.createIndex( { "harvest.harvestName": "text", "harvest.description": "text", "paths.harvestID": "text" } )

Připojení aplikace k MongoDB se nastavuje v config souboru frontend/config/config.py (při první instalaci přepište config_default.py na config.py)

Přesunout config_default.py do config.py a nastavit v něm připojení k mongoDB

Grainery má defaultně nastavenou produkční konfiguraci, v případě potřeby je to možné změnit v souboru app.py, kde se přepíše řádek Configuration = cfg.ProductionConfig na Configuration = cfg.DevelopmentConfig

Verzovaní

Grainery 0.3

Webová aplikace: 0.3
Extarc: 0.3
Metadatová specifikace: 0.35

Vývoj

Zdenko Vozár - back-end app, extraction and specification
Jaroslav Kvasnica - front-end app, representation, theoretical base

Více

Více najdete v dokumentaci: https://github.com/WebarchivCZ/grainery/wiki

Realizováno v rámci institucionálního výzkumu Národní knihovny České republiky financovaného Ministerstvem kultury ČR v rámci Dlouhodobého koncepčního rozvoje výzkumné organizace.

Name		Name	Last commit message	Last commit date
Latest commit History 134 Commits
extarc		extarc
frontend		frontend
json		json
scripts		scripts
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

GRAINERY

Krátce o aplikaci

Skladba

Začíname

Prerekvizity

Instalace

Rozběhnutí Extarcu

Rozběhnutí Grainery frontendu

Verzovaní

Vývoj

Více

About

Releases

Packages

Contributors 4

Languages

License

WebarchivCZ/grainery

Folders and files

Latest commit

History

Repository files navigation

GRAINERY

Krátce o aplikaci

Skladba

Začíname

Prerekvizity

Instalace

Rozběhnutí Extarcu

Rozběhnutí Grainery frontendu

Verzovaní

Vývoj

Více

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 4

Languages

Packages