« zpět na výpis měsíce |

[Talk-cz] RUIAN a inkrementální aktualizace

Vlákno 10.8. - 16.8.2014, počet zpráv: 4


10.8.2014 08:56:00 (#1)
gravatar

"Petr Morávek [Xificurk]"

<petr at pada.cz>
139
Ahoj, mám nemilou zprávu pro vás, co pracujete s RUIAN (přes ruian2pgsql) a provádíte inkrementální aktualizace - "nefunguje" to. Petr Vejsada tu už na jaře psal, že má podezření, že nový import úplného dumpu RUIAN dává jiný výsledek než postupně aktualizovaná databáze přes změnové soubory. A já to bohužel teď musím potvrdit. A je to trochu komplikovanější. První problém byl v ruian2pgsql [1]. Původní algoritmus počítal s tím, že pokud dojde k nějaké změně objektu, tak se vždy zvýší "id transakce", což bohužel není pravda. Tento problém byl nedávno opraven... pokud používáte ruian2pgsql a importujete změnové soubory, tak silně doporučuju update na poslední dev verzi. Jenže i tak byly indikace, že není vše úplně v pořádku - a opravdu není. Mám tu dvě databáze: 1) Vznikla importem posledního úplného dump z konce července, konkrétně soubory 20140731_OB_*_UKSH.xml.gz a 20140731_ST_UKSH.xml.gz. 2) Vznikla importem úplného dumpu z konce června a pak importem všech změnových souborů z července, tj. soubory 20140630_OB_*_UKSH.xml.gz a 20140630_ST_UKSH.xml.gz a pak 26 souborů 201407*_ST_ZKSH.xml.gz. A když porovnám výsledek obou cest, tak se dá najít opravdu velké množství rozdílů. Konkrétně jsem se díval na stavební objekty. Některé SO jsou jen v (1), některé jen v (2), jiné jsou sice v obou databázích, ale jedna verze má neúplné údaje. Problematické SO jsem vystopoval do zdrojových dat a chyba je už tam. * SO 78153263 je v červencovém dumpu (20140731_OB_554791_UKSH.xml.gz), ale není v dumpu z června ani žádném změnovém souboru. * SO 78258294 je v červencovém dumpu (20140731_OB_576000_UKSH.xml.gz) - tam má IdTransakce=648617 a IsknBudovaId=15680609010. V červnovém dumpu není, ale je v jednom jediném změnovém souboru (20140728_ST_ZKSH.xml.gz), ale tam nemá nastaveno IsknBudovaId a IdTransakce=648063. ... Na ostatní tabulky jsem nekoukal, ale je dost možné, že trpí podobným problémem. -- Informaci píšu primárně sem do talk-cz, protože to tu sledují jak konzumenti dat, tak i zástupci ČÚZK. Chtěl bych poprosit pana Součka, jestli by mě (nás) nasměroval, kam/jak/jestli tento problém reportovat, případně jaké další detaily by bylo vhodné dodat. -- Zdraví, Petr Morávek aka Xificurk [1] https://github.com/fordfrog/ruian2pgsql/issues/24

10.8.2014 09:49:18 (#2)
gravatar

Petr Vejsada

<osm at propsychology.cz>
516
Ahoj, Dne Ne 10. srpna 2014 20:56:00, Petr Morávek [Xificurk] napsal(a): zobrazit citaci
> Ahoj, > > mám nemilou zprávu pro vás, co pracujete s RUIAN (přes ruian2pgsql) a > provádíte inkrementální aktualizace - "nefunguje" to.
jestli chápu vše správně, tak nelze říci "nefunguje TO", pokud TO jsou inkrementální aktualizace. Obdobně by se za TO dalo dosadit, že nefunguje nahrání celku ;-). Mám schema, vzniklé z dat ke dni 30.4. plus aktualizace. Od začátku těch aktualizací tam mám ten patch, co ignoruje čísla transakcí, tedy *ignoruje*, není tam >=, jak je asi v poslední -dev, viz debata na Githubu. To jen pro pořádek. Ač není pravděpodobné, že by se čísla transakcí někdy dekrementovala, vyloučit to asi nemůžeme! zobrazit citaci
> * SO 78153263 je v červencovém dumpu (20140731_OB_554791_UKSH.xml.gz), > ale není v dumpu z června ani žádném změnovém souboru.
select deleted,id_trans_ruian,definicni_bod is not NULL as definicni_bod,hranice is not NULL as hranice,plati_od,item_timestamp from ruian.rn_stavebni_objekt where kod=78153263; deleted | id_trans_ruian | definicni_bod | hranice | plati_od | item_timestamp ---------+----------------+---------------+---------+------------+---------------------------- f | 627026 | t | f | 20.06.2014 | 22.06.2014 11:38:58.947812 je tedy ve změnovém souboru z průběhu června. Nahráno 22.6., takže asi soubor z 21.6., ale nevím jistě. Nenahrávám každý den, jen skoro každý den. V dumpu z června by ovšem být měl. zobrazit citaci
> > * SO 78258294 je v červencovém dumpu (20140731_OB_576000_UKSH.xml.gz) - > tam má IdTransakce=648617 a IsknBudovaId=15680609010. V červnovém dumpu > není, ale je v jednom jediném změnovém souboru > (20140728_ST_ZKSH.xml.gz), ale tam nemá nastaveno IsknBudovaId a > IdTransakce=648063.
Toto souhlasí, přesně toto mám v DB včetně absence budova_id Z toho nám vyplývá, že chyby jsou v obojím - jak v dumpech, tak ve změnových souborech :( zobrazit citaci
> Na ostatní tabulky jsem nekoukal, ale je dost možné, že trpí podobným > problémem.
Vzpomínám si, že jsme si srovnávali count(*),count(definicni_bod) a kde je relevantní, tak i count(hranice). U tabulky adres jsme se, kupodivu, shodli :-). Ostatní si nepamatuji. -- Petr

11.8.2014 10:14:52 (#3)
gravatar

"Petr Morávek [Xificurk]"

<petr at pada.cz>
139
Dne 10.8.2014 21:49, Petr Vejsada napsal(a): zobrazit citaci
> Mám schema, vzniklé z dat ke dni 30.4. plus aktualizace. Od začátku těch > aktualizací tam mám ten patch, co ignoruje čísla transakcí, tedy *ignoruje*, > není tam >=, jak je asi v poslední -dev, viz debata na Githubu. To jen pro > pořádek. Ač není pravděpodobné, že by se čísla transakcí někdy dekrementovala, > vyloučit to asi nemůžeme! > >> * SO 78153263 je v červencovém dumpu (20140731_OB_554791_UKSH.xml.gz), >> ale není v dumpu z června ani žádném změnovém souboru. > > select deleted,id_trans_ruian,definicni_bod is not NULL as definicni_bod,hranice > is not NULL as hranice,plati_od,item_timestamp from ruian.rn_stavebni_objekt > where kod=78153263; > > deleted | id_trans_ruian | definicni_bod | hranice | plati_od | > item_timestamp > ---------+----------------+---------------+---------+------------+---------------------------- > f | 627026 | t | f | 20.06.2014 | 22.06.2014 > 11:38:58.947812 > > je tedy ve změnovém souboru z průběhu června. Nahráno 22.6., takže asi soubor > z 21.6., ale nevím jistě. Nenahrávám každý den, jen skoro každý den. > > V dumpu z června by ovšem být měl.
Tak tohle mě vážně nenapadlo... dohledal jsem to ve změnovém souboru z 20.6. a obsah do puntíku sedí s tím, co je v červencovém dumpu. Ale v červnu fakt nebyl. Takže chyby jsou vážně v obojím, což opravdu není dobré :/ Petr

16.8.2014 10:42:50 (#4)
gravatar

Petr Souček

<soucekp at atlas.cz>
69
Dobrý den, včera jsem o tom diskutoval s kolegou. A dnes jsem si tento konkrétní případ analyzoval a situace je následující. 1) 20.6.2014 došlo k zápisu SO 78153263 do ISÚI. Jedná se o SO bez čísla (typ 3) a byl zapsán na parcelu (ID 41994826010) z potvrzeného GP (tj. tzv. G parcela), která není v RÚIAN 2) 21.6.2014 se tento SO standardně dostal do změnového VFR, neboť ten se generuje za stát a dostanou se do něj všechny SO 3) 1.7.2014 se tento SO do stavového VFR nedostal, neboť SO se rozdělují do VFR po obcích (pro číslované dle části obce, pro nečíslované dle parcely a příslušnosti do k.ú. => obce). V tomto případě se do obce nezařadí, neboť by se měl rozdělit dle parcely, ale zatím v RÚIAN neexistuje (zatím je pouze v budoucnosti, ve vrstvě potvrzených GP v ISKN). 4) 28.7.2014 došlo k zápisu stavby v KN a tím pádem se parcela (ID 41994826010) dostala do přítomnosti ISKN a také do RÚIAN. 5) 1.8.2014 došlo standardně k vygenerování stavového VFR, kde už se SO zařadil dle parcely do příslušné obce Z toho mi vyplývá, že takových případů je relativně hodně. Jsou to všechny nově zapisované SO bez čísla, která jsou zapsána na parcelu z potvrzeného GP (a když o tom přemýšlím, tak to samé platí i pro parcelu, která je již pouze v minulosti - např. pokud dojde k přečíslování parcel v důsledku obnovy operátu a tím pádem "k ustřelení" identifikační parcely v ISÚI). Jestli dobře koukám, tak se jedná o cca 28,5 tisíc SO. Na základě výše uvedeného si myslím, že bychom se tím měli zabývat a zapsat požadavek na úpravu generování VFR. A to tak, aby se tyto SO dostali do VFR. Tohle bohužel musíme řešit s naším dodavatelem, takže to nebude obratem. Rozhodně díky za report tohoto problému, o jeho řešení Vás budeme informovat. Petr Souček
-----Original Message----- From: Veselý, Jiří Sent: Monday, August 11, 2014 10:31 AM To: Souček, Petr; Formánek, Jiří Subject: FW: [Talk-cz] RUIAN a inkrementální aktualizace Ahoj, víme o tom? J. -----Original Message----- From: "Petr Morávek [Xificurk]" [mailto:petr na pada.cz] Sent: Monday, August 11, 2014 10:15 AM To: talk-cz na openstreetmap.org Subject: Re: [Talk-cz] RUIAN a inkrementální aktualizace Dne 10.8.2014 21:49, Petr Vejsada napsal(a): zobrazit citaci
> Mám schema, vzniklé z dat ke dni 30.4. plus aktualizace. Od začátku > těch aktualizací tam mám ten patch, co ignoruje čísla transakcí, tedy > *ignoruje*, není tam >=, jak je asi v poslední -dev, viz debata na > Githubu. To jen pro pořádek. Ač není pravděpodobné, že by se čísla > transakcí někdy dekrementovala, vyloučit to asi nemůžeme! > >> * SO 78153263 je v červencovém dumpu >> (20140731_OB_554791_UKSH.xml.gz), ale není v dumpu z června ani žádném
změnovém souboru. zobrazit citaci
> > select deleted,id_trans_ruian,definicni_bod is not NULL as > definicni_bod,hranice is not NULL as hranice,plati_od,item_timestamp > from ruian.rn_stavebni_objekt where kod=78153263; > > deleted | id_trans_ruian | definicni_bod | hranice | plati_od | > item_timestamp > ---------+----------------+---------------+---------+------------+---- > ---------+----------------+---------------+---------+------------+---- > ---------+----------------+---------------+---------+------------+---- > ---------+----------------+---------------+---------+------------+---- > ---------+----------------+---------------+---------+------------+---- > ---------+----------------+---------------+---------+------------+---- > ---------+----------------+---------------+---------+------------+---- > f | 627026 | t | f | 20.06.2014 |
22.06.2014 zobrazit citaci
> 11:38:58.947812 > > je tedy ve změnovém souboru z průběhu června. Nahráno 22.6., takže asi > soubor z 21.6., ale nevím jistě. Nenahrávám každý den, jen skoro každý
den. zobrazit citaci
> > V dumpu z června by ovšem být měl.
Tak tohle mě vážně nenapadlo... dohledal jsem to ve změnovém souboru z 20.6. a obsah do puntíku sedí s tím, co je v červencovém dumpu. Ale v červnu fakt nebyl. Takže chyby jsou vážně v obojím, což opravdu není dobré :/ Petr _______________________________________________ Talk-cz mailing list Talk-cz na openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-cz

« zpět na výpis měsíce