[Talk-cz] Import adres z katastralni mapy

Zdravim, kdysi v lete jsem tady psal [1], jak zkousim importovat adresy a obrysy budov z katastralni mapy CUZK. Protoze jsem nemel prilis casu, tak jsem program pro import nedotahnul do konce. Ted jsem se k tomu vratil a do celkem pouzitelne podoby odelal aspon import adresnich bodu. Rozpoznavani obrysu budov se mi nepodarilo udelat natolik spolehlive, aby slo nejak rozumne pouzivat, takze to prozatim odkladam. Import jsem vyzkousel na uzemi ORP Broumov [2], jedna se asi o cca 40 obci / mestskych casti na 31 katastralnich uzemich - cca 270km2. Vysledky jsou nasledujici: Broumovsko - 3500 adresnich bodu (nalezena jednoznacna shoda mezi KM a databazi MVCR) - 170 bodu z KM, ke kterym se nepodarilo nalezt zaznam v databazi adres - 300 adres, ke kterym se nepodarilo najit bod v KM Broumov - 800 - 24 - 200 Mesto Broumov uvadim zvlast, protoze na jednom katastralnim uzemi jsou 4 mestske casti takze je potreba najit hranice mestkych casti rucne (napr. podle ulic). Navic se mi zda, ze je "neco shnileho" v databazi adres pro Broumov. Nevim, kde by mohlo byt 200 budov pro tech 200 adresnich bodu bez polohy. To se pri rucni kontrole snad prehlednout neda. Castou chybou je, ze v KM je uvedeno cislo evidencni a databazi adres cislo popisne. Na Broumovsku je to cca 50 pripadu. Pokud se podari zjistt, jaky zdroj je pravdivy, tak neni problem tyto chyby napravit. Ja jsem uploudoval pouze ty adresni body, pro ktere byla nalezena jendoznacna shoda. Jestli uplodovat i ty body, ke ktery se nepodarilo najit adresu v databazi MVCR (treba s tagem FIXME) zalezi na dohode. Jaky je na to vas nazor? Stalo by za to uchovavat nekde i seznam adres, ke kterym se nepodarilo najit bod v KM? Pokud chcete import vyzkouset sami, tak ctete dal. Pro provedeni importu je potreba 1) balicek programu ode me - lkabrt.aspone.cz/osm/cuzk.zip (potreba je .NET framework 3.5) pokud si nekdo chce prohlednou zdrojove kody lkabrt.aspone.cz/osm/cuzk-source.zip 2) databaze adresnich bodu [3] 3) zakreslene katastralni uzemi v OSM souboru (pouzil jsem vyrez z vektorizovne mapy od hanoje [4], kam jsem rucne doplnil relace a nazvy katastralnich uzemi) 4) trochu casu - jak vaseho, tak vaseho pocitace :-) Postup 1) stazeni katastralni mapy (staci definicni body budov) - program tile-downloader.exe parametry programu: -north, -south, -east, -west - definuje oblast ke stazeni -addressPoints - stahne definicni body budov -map - stahne katastralni mapu -output - adresar pro ulozeni stazenych souboru priklad: tile-downloader.exe -north 50.6647 -west 16.0285 -south 50.4902 -east 16.4517 - addressPoints -output data/broumovsko 2) nalezeni a rozpoznani adresnich bodu - program tile-processor.exe parametry programu: -tiles - adresar se stazenymi soubory -output - soubor pro ulozeni vysledku priklad: tile-processor.exe -tiles data/broumovsko -output data/broumovsko.csv Vystupem programu je CSV soubor se souradnicemi adresnich bodu a jejich popisem, tak jak ho rozpoznalo OCR 3) vytvoreni XML souboru, ktery definuje prirazeni mezi katastralnim uzemim a obci / casti obce z databaze adresnich bodu Prirazeni muze byt (podle toho, co jsem odpozoroval) 1:N nebo N:1 tzn. jedno katastralni uzemi muze tvorit vice casti obce nebo jedna obec / cast obce muze byt tvorena vice katastralnimi uzemimi format souboru je nasledujici: <project> <territory name="Meziměstí"> <district country-region="Královéhradecký kraj" region="Broumov" town="Meziměstí" townDistrict="Meziměstí" /> </territory> <territory name="Starostín"> <district country-region="Královéhradecký kraj" region="Broumov" town="Meziměstí" townDistrict="Meziměstí" /> </territory> <territory name="Trutnov"> <district country-region="Královéhradecký kraj" region="Trutnov" town="Trutnov" townDistrict="Dolní předměstí" /> <district country-region="Královéhradecký kraj" region="Trutnov" town="Trutnov" townDistrict="Dolní Staré město" /> </territory> <territory name="Jívka"> <district country-region="Královéhradecký kraj" region="Trutnov" town="Jívka" /> </territory> </project> atribut name u elementu territory odpovida nazvu katastralniho uzemi z OSM atributy elementu district definuji oblast / cast obce z databaze [2] country-region -kraj region -oblast town -obec townDistrict -cast 4)Prirazeni adres z databaze bodum z mapy - program merge-cuzk-db.exe parametry: -addressesDB - XML soubor s databazi adres [2] -territories - OSM soubor s definovanymi katasrtalnimi uzemimi -addressPoints - CSV soubor z bodu 2) -mappings - XML soubor z bodu 3) -output - definuje umisteni a jmeno souboru ([path]/[output- filename-prefix]) priklad: merge-cuzk-db.exe -mappings ms.map -territories borders.osm -addressPoints ms.csv - addressesDB adresy.xml -output output/ms vystupem progamu jsou 3 soubory: [output-filename-prefix]-matched.osm - obsahuje body, kterym se podarilo jednoznacne priradit adresu [output-filename-prefix]-unmatched.osm - obsahuje body, kterym se nepodarilo jednoznacne priradit adresu [output-filename-prefix]-unmatched-ap.txt - obsahuje seznam adres, kterym se nepodarilo priradit zadny bod 5)Docisteni dat Data v souboru ...-matched.osm by mela byt v poradku, soubor obsahuje pouze adresni body, kterym se podarilo jednoznacne priradit adresu. Soubor ...-unmatched.osm je treba rucne zkontrolovat, obsahuje body, ke kterym se nepodarilo najit v databazi adresu. Vetsina z techto bodu jsou budovy bez c.p./c.e. (napr. garaze, ktere jsou na mape blizko, popisky se prekryvaji a ocr si s tim nedokaze poradit). Jak se vyporadat s nekonzistenci dat v KM a databazi adres je, jak uz jsem psal, otazkou diskuze. Soubor ...-unmatches-ap.txt - seznam adres z databaze MVCR, ke kterym se nepodarilo najit zadny bod na mape. 6) Docisteno, zkontrolovano - hura uplodovat na server :-) Lukas [1] http://lists.openstreetmap.org/pipermail/talk-cz/2009-June/003318.html [2] http://www.openstreetmap.org/?lat=50.5956&lon=16.2606&zoom=12&layers=B000FTF [3] http://aplikace.mvcr.cz/adresa/adresy.zip [4] http://osm.templ.net/kucr.osm.bz2

Ahoj, jenom strucne: 1) vyborne!!! zobrazit citaci

> [output-filename-prefix]-unmatched.osm - obsahuje body, kterym se nepodarilo > jednoznacne priradit adresu

2) ano, uploadovat s nejakym tagem o nesparovani. Databaze MVCR neni vubec autoritativni a uz vubec ne bez chyb. Nenalezenych 5% si myslim odhadem odpovida me zkusenosti... zobrazit citaci

> zakreslene katastralni uzemi v OSM souboru (pouzil jsem vyrez z > vektorizovne mapy od hanoje [4], kam jsem rucne doplnil relace a nazvy katastralnich uzemi)

3) Martin Kupec ted pracuje na dalsi fazi digitalizace, ktera je temer hotova. Nasledovat bude faze, ktera je zatim jen v me abstraktni myslence jak z: * bodu - nesouci atributovou informaci o katastralnim uzemi (k.u.) a lezici uvnitr k.u., priblizne uprostred * a linii - nesouci prostorovou informaci o rozhrani k.u. *nadelat relace*. (nemaly problemem je, ze linie nejsou vzdy spojite a obcas jsou prerusene coz vzniklo umistenim loga CUZK, pripadne nenavaznosti mezi jednotlivymi dlazdicemi) 4) dal bys obsah toto webu na wiki stranku + odkaz na wikistranku "Czech Republic/freemap" diky a zdravi hanoj

On Sat, Jan 16, 2010 at 07:31:40PM +0100, hanoj wrote: zobrazit citaci

> 3) Martin Kupec ted pracuje na dalsi fazi digitalizace, ktera je temer > hotova. Nasledovat bude faze, ktera je zatim jen v me abstraktni > myslence jak z: > * bodu - nesouci atributovou informaci o katastralnim uzemi (k.u.) a > lezici uvnitr k.u., priblizne uprostred > * a linii - nesouci prostorovou informaci o rozhrani k.u. > > *nadelat relace*. (nemaly problemem je, ze linie nejsou vzdy spojite a > obcas jsou prerusene coz vzniklo umistenim loga CUZK, pripadne > nenavaznosti mezi jednotlivymi dlazdicemi)

Asi by stalo za to udelat presnejsi update stavu k.u. Katastralnich uzemi CR je 13027 a ja mam tabulku 12171 paru pozice <-> jmeno/cislo. Tohle je vysledek scriptu a jeste jej hodlam vylepsi, popripade dodelat zbylych cca 850 bodu rucne. Dalsi faze bude sehnat si od hanoje vektorizovane obrysy katastralnich uzemi(nejak bojuju s GRASSem, takze si to nejak nejsem schopen udelat sam) a pospojovat je na polygony a pridat jim podle polohy nazvy. Ta posledni faze jeste nezacala, ale blizka se na lepsi casy. Martin Kupec

zobrazit citaci

> Dalsi faze bude sehnat si od hanoje vektorizovane obrysy > katastralnich uzemi(nejak bojuju s GRASSem, takze si to nejak > nejsem schopen udelat sam) a pospojovat je na polygony a pridat > jim podle polohy nazvy.

*** aby nedoslo k mylce, konkretne na toto GRASS uz nepotrebujes. Muzes pracovat treba v pythonu s SHP formatem nebo s OSM. A zrejme nepujde o polygony ale o way v relaci... [1] http://osm.templ.net/kucr.png [2] http://osm.templ.net/kucr.osm.bz2 [3] http://osm.templ.net/kucr.shp_jtsk.tar.bz2 [4] http://osm.templ.net/kucr.shp_wgs84.tar.bz2 zdravi te hanoj

Dobrý den, 2010/1/16 Lukas Kabrt <lukas na kabrt.cz>: zobrazit citaci

> Zdravim, > > kdysi v lete jsem tady psal [1], jak zkousim importovat adresy a obrysy budov z > katastralni mapy CUZK. Protoze jsem nemel prilis casu, tak jsem > program pro import > nedotahnul do konce. Ted jsem se k tomu vratil a do celkem pouzitelne > podoby odelal aspon > import adresnich bodu. > > Rozpoznavani obrysu budov se mi nepodarilo udelat natolik spolehlive, > aby slo nejak > rozumne pouzivat, takze to prozatim odkladam. > > Import jsem vyzkousel na uzemi ORP Broumov [2], jedna se asi o cca 40 > obci / mestskych > casti na 31 katastralnich uzemich - cca 270km2. > > Vysledky jsou nasledujici: > Broumovsko - 3500 adresnich bodu (nalezena jednoznacna shoda mezi KM > a databazi MVCR) > - 170 bodu z KM, ke kterym se nepodarilo nalezt zaznam v databazi adres > - 300 adres, ke kterym se nepodarilo najit bod v KM > > Broumov - 800 > - 24 > - 200 > > Mesto Broumov uvadim zvlast, protoze na jednom katastralnim uzemi jsou > 4 mestske casti > takze je potreba najit hranice mestkych casti rucne (napr. podle > ulic). Navic se mi zda, > ze je "neco shnileho" v databazi adres pro Broumov. Nevim, kde by > mohlo byt 200 budov pro > tech 200 adresnich bodu bez polohy. To se pri rucni kontrole snad > prehlednout neda. > > Castou chybou je, ze v KM je uvedeno cislo evidencni a databazi adres > cislo popisne. Na > Broumovsku je to cca 50 pripadu. Pokud se podari zjistt, jaky zdroj je > pravdivy, tak neni > problem tyto chyby napravit. > > Ja jsem uploudoval pouze ty adresni body, pro ktere byla nalezena > jendoznacna shoda. > Jestli uplodovat i ty body, ke ktery se nepodarilo najit adresu v > databazi MVCR (treba s > tagem FIXME) zalezi na dohode. Jaky je na to vas nazor? Stalo by za to > uchovavat nekde i > seznam adres, ke kterym se nepodarilo najit bod v KM?

Existuje možnost použít databázi České pošty namísto databáze MVČR. Dle jejich vyjádření je totiž možné používat data z adresy 'psc.cpost.cz' neomezeně bez jakýchkoli licenčních podmínek (na rozdíl od placené databáze, kterou je zato možné používat off-line). Kvalitu databáze České pošty nedokáži zcela posoudit. Jen vím, že v některých místech je přesnější než MVČR. Se strojovým dotazováním na web České pošty jsem dříve experimentoval s dobrými výsledky. Pokud bude zájem, pošlu skripty (je to hrozný bastl BASH+XSTL+RUBY+JAVA, ale funguje). S pozdravem, Radomír Černoch

Tak jsem na wiki [1] vytvoril stranku s informacemi o importu. Zaroven jsem jsem updatoval program [2], tak aby generoval tagy FIXME pro ty adresni body, kde prirazeni mezi databazi a mapou neni jednoznacne. zobrazit citaci

>Martin Kupec >Dalsi faze bude sehnat si od hanoje vektorizovane obrysy >katastralnich uzemi(nejak bojuju s GRASSem, takze si to nejak >nejsem schopen udelat sam) a pospojovat je na polygony a pridat >jim podle polohy nazvy.

S mapou od hanoje jsem si dneska hral a vysledek vypada celkem nadejne, takze mapu s polygony snad budu schopny dodat. Chci to jen jeste trochu doladit ... [1] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR [2] http://lkabrt.aspone.cz/osm/cuzk.zip

On Mon, Jan 18, 2010 at 01:13:35AM +0100, Lukas Kabrt wrote: zobrazit citaci

> S mapou od hanoje jsem si dneska hral a vysledek vypada celkem > nadejne, takze mapu s polygony snad budu schopny dodat. Chci to jen > jeste trochu doladit ...

Takze ti staci dodat ty bodiky? Ja se na ty mapy jeste nestihl podivat bohuzel. Martin Kupec

Ahoj, zkoušel jsem tvůj skript, a narazil jsem na problém s tile-downloaderem. Pouštím program na Linuxu pod Monem (2.4.2.3), a místo stáhnutých obrázků je v těch souborech následující text(def_body i kn, zkoušel jsem i příklad z tvého návodu): <?xml version='1.0' encoding="ISO-8859-1" standalone="no" ?> <!DOCTYPE ServiceExceptionReport SYSTEM "http://schemas.opengeospatial.net/wms/1.1.1/exception_1_1_1.dtd"> <ServiceExceptionReport version="1.1.1"> <ServiceException> msWMSLoadGetMapParams(): WMS server error. Wrong number of arguments for BBOX. </ServiceException> </ServiceExceptionReport> Chci se tedy zeptat, jestli nevíš zdali je problém způsobený Monem, jestli je to nějaký momentální problém těch serverů, nebo čím to tedy je. On Mon, 18 Jan 2010 01:13:35 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> Tak jsem na wiki [1] vytvoril stranku s informacemi o importu. Zaroven > jsem jsem updatoval program [2], tak aby generoval tagy FIXME pro ty > adresni body, kde prirazeni mezi databazi a mapou neni jednoznacne. > >> Martin Kupec >> Dalsi faze bude sehnat si od hanoje vektorizovane obrysy >> katastralnich uzemi(nejak bojuju s GRASSem, takze si to nejak >> nejsem schopen udelat sam) a pospojovat je na polygony a pridat >> jim podle polohy nazvy. > > S mapou od hanoje jsem si dneska hral a vysledek vypada celkem > nadejne, takze mapu s polygony snad budu schopny dodat. Chci to jen > jeste trochu doladit ... > > [1] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR > [2] http://lkabrt.aspone.cz/osm/cuzk.zip > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

Totéž u mě pod windows, chtěl jsem to zítra zkoumat, ale vidím že to nebude jen můj problém. 2010/1/19 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Ahoj, > > zkoušel jsem tvůj skript, a narazil jsem na problém s tile-downloaderem. > Pouštím program na Linuxu pod Monem (2.4.2.3), a místo stáhnutých obrázků > je v těch souborech následující text(def_body i kn, zkoušel jsem i příklad > z tvého návodu): > > <?xml version='1.0' encoding="ISO-8859-1" standalone="no" ?> > <!DOCTYPE ServiceExceptionReport SYSTEM > "http://schemas.opengeospatial.net/wms/1.1.1/exception_1_1_1.dtd"> > <ServiceExceptionReport version="1.1.1"> > <ServiceException> > msWMSLoadGetMapParams(): WMS server error. Wrong number of arguments for > BBOX. > </ServiceException> > </ServiceExceptionReport> > > Chci se tedy zeptat, jestli nevíš zdali je problém způsobený Monem, jestli > je to nějaký momentální problém těch serverů, nebo čím to tedy je. > > > On Mon, 18 Jan 2010 01:13:35 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: > >> Tak jsem na wiki [1] vytvoril stranku s informacemi o importu. Zaroven >> jsem jsem updatoval program [2], tak aby generoval tagy FIXME pro ty >> adresni body, kde prirazeni mezi databazi a mapou neni jednoznacne. >> >>> Martin Kupec >>> Dalsi faze bude sehnat si od hanoje vektorizovane obrysy >>> katastralnich uzemi(nejak bojuju s GRASSem, takze si to nejak >>> nejsem schopen udelat sam) a pospojovat je na polygony a pridat >>> jim podle polohy nazvy. >> >> S mapou od hanoje jsem si dneska hral a vysledek vypada celkem >> nadejne, takze mapu s polygony snad budu schopny dodat. Chci to jen >> jeste trochu doladit ... >> >> [1] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR >> [2] http://lkabrt.aspone.cz/osm/cuzk.zip >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Omlouvam se za problem. Nejak jsem si neuvedomil, ze mam na pocitaci anglice prostredi a tudiz desetinny oddelovac ".". Program jsem upravil a ted by mel fungovat spravne, stahovat muzete opet na [1] [1] http://lkabrt.aspone.cz/osm/cuzk.zip Lukas 2010/1/19 Jiri Parkan <jparkan na gmail.com>: zobrazit citaci

> Totéž u mě pod windows, chtěl jsem to zítra zkoumat, ale vidím že to > nebude jen můj problém. > > 2010/1/19 Petr Dlouhý <petr.dlouhy na email.cz>: >> Ahoj, >> >> zkoušel jsem tvůj skript, a narazil jsem na problém s tile-downloaderem. >> Pouštím program na Linuxu pod Monem (2.4.2.3), a místo stáhnutých obrázků >> je v těch souborech následující text(def_body i kn, zkoušel jsem i příklad >> z tvého návodu): >> >> <?xml version='1.0' encoding="ISO-8859-1" standalone="no" ?> >> <!DOCTYPE ServiceExceptionReport SYSTEM >> "http://schemas.opengeospatial.net/wms/1.1.1/exception_1_1_1.dtd"> >> <ServiceExceptionReport version="1.1.1"> >> <ServiceException> >> msWMSLoadGetMapParams(): WMS server error. Wrong number of arguments for >> BBOX. >> </ServiceException> >> </ServiceExceptionReport> >> >> Chci se tedy zeptat, jestli nevíš zdali je problém způsobený Monem, jestli >> je to nějaký momentální problém těch serverů, nebo čím to tedy je. >> >> >> On Mon, 18 Jan 2010 01:13:35 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: >> >>> Tak jsem na wiki [1] vytvoril stranku s informacemi o importu. Zaroven >>> jsem jsem updatoval program [2], tak aby generoval tagy FIXME pro ty >>> adresni body, kde prirazeni mezi databazi a mapou neni jednoznacne. >>> >>>> Martin Kupec >>>> Dalsi faze bude sehnat si od hanoje vektorizovane obrysy >>>> katastralnich uzemi(nejak bojuju s GRASSem, takze si to nejak >>>> nejsem schopen udelat sam) a pospojovat je na polygony a pridat >>>> jim podle polohy nazvy. >>> >>> S mapou od hanoje jsem si dneska hral a vysledek vypada celkem >>> nadejne, takze mapu s polygony snad budu schopny dodat. Chci to jen >>> jeste trochu doladit ... >>> >>> [1] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR >>> [2] http://lkabrt.aspone.cz/osm/cuzk.zip >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >> >> >> -- >> Petr Dlouhý >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Ahoj, tak stahování už funguje. Teď je zase problém s tile-processorem. Program vypíše, že mu chybí ntdll.dll (celý výpis v debug módu je v příloze) a skončí. Víc informací o chybějících knihovnách je na [1], ale nevím, kde bych vzal ntdll.dll, resp. kdybych vzal tu windowsovou, tak by velmi pravděpodobně nefungovala - jediná možnost, kterou vidím je to zkusit spustit celé pod Wine. Má někdo nějaké nápady, jak by se to dalo obejít? [1] http://www.mono-project.com/DllNotFoundException On Tue, 19 Jan 2010 21:51:46 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> Omlouvam se za problem. Nejak jsem si neuvedomil, ze mam na pocitaci > anglice prostredi a tudiz desetinny oddelovac ".". Program jsem > upravil a ted by mel fungovat spravne, stahovat muzete opet na [1] > [1] http://lkabrt.aspone.cz/osm/cuzk.zip

-- Petr Dlouhý ------------- další část --------------- An embedded and charset-unspecified text was scrubbed... Name: debug.txt URL: <https://lists.openstreetmap.org/pipermail/talk-cz/attachments/20100120/3c7a4d83/attachment.txt>

Dneska jsem to zkoušel pod wine. Bohužel nevyřešil, píše to $ wine tile-processor.exe -tiles data/oblast/ -output data/oblast.csv File '/home/ales/.local/share/applications/wine-extension-skp.desktop' contains invalid MIME type 'SKP' that is missing a slash Processing tile: 16,1050_50,4842_16,1100_50,4892-budovy err:ole:CoInitializeEx Attempt to change threading model of this apartment from multi-threaded to apartment threaded err:ole:marshal_object couldn't get IPSFactory buffer for interface {9edde9e7-8dee-47ea-99df-e6faf2ed44bf} err:ole:StdMarshalImpl_MarshalInterface Failed to create ifstub, hres=0x80040155 err:ole:CoMarshalInterface Failed to marshal the interface {9edde9e7-8dee-47ea-99df-e6faf2ed44bf}, 80040155 fixme:ole:CoCreateInstance no instance created for interface {9edde9e7-8dee-47ea-99df-e6faf2ed44bf} of class {389ea17b-5078-4cde-b6ef-25c15175c751}, hres is 0x80040155 Unhandled Exception: System.Exception: Generic Error [GDI+ status: GenericError] at System.Drawing.GDIPlus.CheckStatus (Status status) [0x00000] at System.Drawing.Image.FromFile (System.String filename, Boolean useEmbeddedColorManagement) [0x00000] at System.Drawing.Image.FromFile (System.String filename) [0x00000] at CUZK.ExtractAddresses.TileAnalyzer.Analyze (System.String filename) [0x00000] at CUZK.ExtractAddresses.Program.Main (System.String[] args) [0x00000] Asi to chce ten .NET Framework 3.5, ale ten je ve Wine označen jako garbage, tak jsem to zatím dál nezkoušel… Aleš Janda On 20.1.2010 13:12, Petr Dlouhý napsal/a: zobrazit citaci

> Ahoj, > > tak stahování už funguje. Teď je zase problém s tile-processorem. > Program vypíše, že mu chybí ntdll.dll (celý výpis v debug módu je v > příloze) a skončí. Víc informací o chybějících knihovnách je na [1], ale > nevím, kde bych vzal ntdll.dll, resp. kdybych vzal tu windowsovou, tak > by velmi pravděpodobně nefungovala - jediná možnost, kterou vidím je to > zkusit spustit celé pod Wine. > Má někdo nějaké nápady, jak by se to dalo obejít? > > [1] http://www.mono-project.com/DllNotFoundException >

zobrazit citaci

> tak stahování už funguje. Teď je zase problém s tile-processorem. Program > vypíše, že mu chybí ntdll.dll (celý výpis v debug módu je v příloze) a > skončí. Víc informací o chybějících knihovnách je na [1], ale nevím, kde > bych vzal ntdll.dll, resp. kdybych vzal tu windowsovou, tak by velmi > pravděpodobně nefungovala - jediná možnost, kterou vidím je to zkusit > spustit celé pod Wine. > Má někdo nějaké nápady, jak by se to dalo obejít?

s Linuxem nemam moc zkusenosti a ani s MONO jsem prilis nepracoval, ale budu se snazit pomoct. Pokud jsem ten error spravne rozklicoval, tak se mu nelibi poziti knihovny AForge. Program jsem upravil tak, aby tuhle knihovnu nepouzival. Upravena verze je ke stazeni na [1]. zobrazit citaci

> Dneska jsem to zkoušel pod wine. Bohužel nevyřešil, píše to > $ wine tile-processor.exe -tiles data/oblast/ -output data/oblast.csv

... zobrazit citaci

> Asi to chce ten .NET Framework 3.5, ale ten je ve Wine označen jako garbage, tak > jsem to zatím dál nezkoušel...

tile-processorby kdyztak slo upravit tak aby behal na .NET Framework 3.0, mozna i 2.0. Pro beh merge-cuzk-db.exe ale je .NET Framework 3.5 urcite potreba. Pro zpracovani XML souboru tam pozivam Xml.Linq a ten je az od .NET Framework 3.5. Zbezne jsem koukal na MONO a Xml.Linq tam je, takze pod MONO by to snad behat mohlo. [1] http://lkabrt.aspone.cz/osm/tile-processor.zip -- Lukas

Ahoj, díky za opravu, nyní to vypadá, že se dostal o kousek dál. Program vypíše následující hlášení: mono tile-processor.exe -tiles output -output output.csv Processing tile: 14,6603_49,8538_14,6653_49,8588-budovy .. Performing OCR: 1/119xdg-open: unexpected argument '/home/petr/soubory/nezarazeno/rsdosm/adresy/tmp.bmp' Try 'xdg-open --help' for more information. Unhandled Exception: System.IO.FileNotFoundException: Could not find file "/home/petr/soubory/nezarazeno/rsdosm/adresy/label.txt". File name: '/home/petr/soubory/nezarazeno/rsdosm/adresy/label.txt' at System.IO.FileStream..ctor (System.String path, FileMode mode, FileAccess access, FileShare share, Int32 bufferSize, Boolean anonymous, FileOptions options) [0x00000] at System.IO.FileStream..ctor (System.String path, FileMode mode, FileAccess access, FileShare share) [0x00000] at (wrapper remoting-invoke-with-check) System.IO.FileStream:.ctor (string,System.IO.FileMode,System.IO.FileAccess,System.IO.FileShare) at System.IO.File.OpenRead (System.String path) [0x00000] at System.IO.StreamReader..ctor (System.String path, System.Text.Encoding encoding, Boolean detectEncodingFromByteOrderMarks, Int32 bufferSize) [0x00000] at System.IO.StreamReader..ctor (System.String path) [0x00000] at (wrapper remoting-invoke-with-check) System.IO.StreamReader:.ctor (string) at CUZK.ExtractAddresses.TileAnalyzer.ExtractLabel (Point pt, System.Drawing.Bitmap map) [0x00000] at CUZK.ExtractAddresses.TileAnalyzer.Analyze (System.String filename) [0x00000] at CUZK.ExtractAddresses.Program.Main (System.String[] args) [0x00000] Což ani nevypadá, že by byl problém s Monem. Co má být v souboru label.txt? Když ten soubor vytvořím a vložím tam nějaké znaky, tak to začne vypisovat: mono tile-processor.exe -tiles output -output output.csv Processing tile: 14,6603_49,8538_14,6653_49,8588-budovy .. Performing OCR: 1/119xdg-open: unexpected argument '/home/petr/soubory/nezarazeno/rsdosm/adresy/tmp.bmp' Try 'xdg-open --help' for more information. 2/119xdg-open: unexpected argument '/home/petr/soubory/nezarazeno/rsdosm/adresy/tmp.bmp' Try 'xdg-open --help' for more information. 3/119xdg-open: unexpected argument '/home/petr/soubory/nezarazeno/rsdosm/adresy/tmp.bmp' Try 'xdg-open --help' for more information. 4/119xdg-open: unexpected argument '/home/petr/soubory/nezarazeno/rsdosm/adresy/tmp.bmp' Try 'xdg-open --help' for more information. 5/119xdg-open: unexpected argument '/home/petr/soubory/nezarazeno/rsdosm/adresy/tmp.bmp' Try 'xdg-open --help' for more information. 6/119xdg-open: unexpected argument '/home/petr/soubory/nezarazeno/rsdosm/adresy/tmp.bmp' Try 'xdg-open --help' for more information. 7/119xdg-open: unexpected argument '/home/petr/soubory/nezarazeno/rsdosm/adresy/tmp.bmp' Try 'xdg-open --help' for more information. 8/119xdg-open: unexpected argument '/home/petr/soubory/nezarazeno/rsdosm/adresy/tmp.bmp' Try 'xdg-open --help' for more information. 9/119xdg-open: unexpected argument '/home/petr/soubory/nezarazeno/rsdosm/adresy/tmp.bmp' Try 'xdg-open --help' for more information. 10/119xdg-open: unexpected argument '/home/petr/soubory/nezarazeno/rsdosm/adresy/tmp.bmp' Try 'xdg-open --help' for more information. 11/119xdg-open: unexpected argument '/home/petr/soubory/nezarazeno/rsdosm/adresy/tmp.bmp' Try 'xdg-open --help' for more information. ...a tak pořád dál. On Wed, 20 Jan 2010 14:18:10 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> s Linuxem nemam moc zkusenosti a ani s MONO jsem prilis nepracoval, > ale budu se snazit pomoct. > Pokud jsem ten error spravne rozklicoval, tak se mu nelibi poziti > knihovny AForge. Program jsem upravil tak, aby tuhle knihovnu > nepouzival. Upravena verze je ke stazeni na [1].

-- Petr Dlouhý

Ahoj, zjistil jsem, že problém je způsoben knihovnou gdiplus. Když to pustíš s nativním (windowsovým gdiplus), tak to vypisuje spousty errorů, ale zdá se, že to funguje. Postup je tedy nakopírovat do složky k tile-processoru knihovnu gdiplus.dll a spustit: WINEDLLOVERRIDES="gdiplus=n" wine tile-processor.exe -tiles output -output output.csv On Wed, 20 Jan 2010 13:26:03 +0100, Aleš Janda <openstreetmap na kyblsoft.cz> wrote: zobrazit citaci

> Dneska jsem to zkoušel pod wine. Bohužel nevyřešil, píše to > > $ wine tile-processor.exe -tiles data/oblast/ -output data/oblast.csv > File '/home/ales/.local/share/applications/wine-extension-skp.desktop' > contains > invalid MIME type 'SKP' that is missing a slash > Processing tile: > 16,1050_50,4842_16,1100_50,4892-budovy err:ole:CoInitializeEx > Attempt to change threading model of this apartment from multi-threaded > to > apartment threaded > err:ole:marshal_object couldn't get IPSFactory buffer for interface > {9edde9e7-8dee-47ea-99df-e6faf2ed44bf} > err:ole:StdMarshalImpl_MarshalInterface Failed to create ifstub, > hres=0x80040155 > err:ole:CoMarshalInterface Failed to marshal the interface > {9edde9e7-8dee-47ea-99df-e6faf2ed44bf}, 80040155 > fixme:ole:CoCreateInstance no instance created for interface > {9edde9e7-8dee-47ea-99df-e6faf2ed44bf} of class > {389ea17b-5078-4cde-b6ef-25c15175c751}, hres is 0x80040155 > > Unhandled Exception: System.Exception: Generic Error [GDI+ status: > GenericError] > at System.Drawing.GDIPlus.CheckStatus (Status status) [0x00000] > at System.Drawing.Image.FromFile (System.String filename, Boolean > useEmbeddedColorManagement) [0x00000] > at System.Drawing.Image.FromFile (System.String filename) [0x00000] > at CUZK.ExtractAddresses.TileAnalyzer.Analyze (System.String > filename) [0x00000] > at CUZK.ExtractAddresses.Program.Main (System.String[] args) [0x00000] > > > Asi to chce ten .NET Framework 3.5, ale ten je ve Wine označen jako > garbage, tak > jsem to zatím dál nezkoušel… > > Aleš Janda > > > On 20.1.2010 13:12, Petr Dlouhý napsal/a: >> Ahoj, >> >> tak stahování už funguje. Teď je zase problém s tile-processorem. >> Program vypíše, že mu chybí ntdll.dll (celý výpis v debug módu je v >> příloze) a skončí. Víc informací o chybějících knihovnách je na [1], ale >> nevím, kde bych vzal ntdll.dll, resp. kdybych vzal tu windowsovou, tak >> by velmi pravděpodobně nefungovala - jediná možnost, kterou vidím je to >> zkusit spustit celé pod Wine. >> Má někdo nějaké nápady, jak by se to dalo obejít? >> >> [1] http://www.mono-project.com/DllNotFoundException >> > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

Ahoj, chtěl bych se zeptat, jak tvůj program řeší ořez čísel na okrajích stažených dlaždic. Ptám se pro jistotu, aby nevznikly zbytečné chyby. On Mon, 18 Jan 2010 01:13:35 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> Tak jsem na wiki [1] vytvoril stranku s informacemi o importu. Zaroven > jsem jsem updatoval program [2], tak aby generoval tagy FIXME pro ty > adresni body, kde prirazeni mezi databazi a mapou neni jednoznacne. > >> Martin Kupec >> Dalsi faze bude sehnat si od hanoje vektorizovane obrysy >> katastralnich uzemi(nejak bojuju s GRASSem, takze si to nejak >> nejsem schopen udelat sam) a pospojovat je na polygony a pridat >> jim podle polohy nazvy. > > S mapou od hanoje jsem si dneska hral a vysledek vypada celkem > nadejne, takze mapu s polygony snad budu schopny dodat. Chci to jen > jeste trochu doladit ... > > [1] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR > [2] http://lkabrt.aspone.cz/osm/cuzk.zip > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

Ahoj, přes Wine to funguje, ale výsledek není ještě pořád ideální. Spočítaná poloha jednotlivých bodů totiž nedává úplně smysl - občas je tam NaN, občas čísla, mimo rozmezí daného BBOX, občas čísla větší než 100000. Nemůže být zase problém s desetinou tečkou/čárkou? V příloze posílám výstup z programu, a zkrácený výpis programu. Wine rád vypisuje velké množství chyb, takže některých údajů ve výpisu si není třeba všímat. On Wed, 20 Jan 2010 15:06:44 +0100, Petr Dlouhý <petr.dlouhy na email.cz> wrote: zobrazit citaci

> Ahoj, > zjistil jsem, že problém je způsoben knihovnou gdiplus. Když to pustíš s > nativním (windowsovým gdiplus), tak to vypisuje spousty errorů, ale zdá > se, že to funguje. > Postup je tedy nakopírovat do složky k tile-processoru knihovnu > gdiplus.dll a spustit: > WINEDLLOVERRIDES="gdiplus=n" wine tile-processor.exe -tiles output > -output > output.csv

-- Petr Dlouhý ------------- další část --------------- A non-text attachment was scrubbed... Name: output.csv Type: text/comma-separated-values Size: 8487 bytes Desc: [žádný popis není k dispozici] URL: <https://lists.openstreetmap.org/pipermail/talk-cz/attachments/20100120/62a6a212/attachment.bin> ------------- další část --------------- An embedded and charset-unspecified text was scrubbed... Name: debug.txt URL: <https://lists.openstreetmap.org/pipermail/talk-cz/attachments/20100120/62a6a212/attachment.txt>

zobrazit citaci

>Což ani nevypadá, že by byl problém s Monem. Co má být v souboru >label.txt? Když ten soubor vytvořím a vložím tam nějaké znaky, tak to >začne vypisovat:

Program pracuje tak, ze vezme dlaždici, najde na ní definicni body budov (cervene tecky) a k nim prislusejici text. Text ulozi do obrazku "tmp.bmp" a potom ho rozpozna exetnim OCR programem (tesseract.exe). Ten ulozi rozpoznany text prave do souboru label.txt Proc program nefunguje, kdyz soubor label.txt pred spustenim neexistuje je mi zahadou. Podle vystupu "output.csv" co jsi posilal, tak rozpoznavani evidentne funguje ... zobrazit citaci

>chtěl bych se zeptat, jak tvůj program řeší ořez čísel na okrajích >stažených dlaždic. Ptám se pro jistotu, aby nevznikly zbytečné chyby.

dlazdice se prekryvaji o 5% na kazde strane, takze temer jiste, ze alespon na jedne dlazdici je text cely. Tile-processor vysledky nijak nezpracovava, pouze ulozi polohu bodu a jemu prislusejici text. V dalsim kroku, pri prirazovani adres jednotlivym bodum se nesmyslene rozpoznany text vyfiltruje. zobrazit citaci

>přes Wine to funguje, ale výsledek není ještě pořád ideální. Spočítaná >poloha jednotlivých bodů totiž nedává úplně smysl - občas je tam NaN, >občas čísla, mimo rozmezí daného BBOX, občas čísla větší než 100000. >Nemůže být zase problém s desetinou tečkou/čárkou?

Moje chyba. Tile-downloader ukladal dlazdice se spatny jmenem (opet carka / tecka). Oprava opet na [1]. Pokud mas nejake dlazdice stazene, tak staci carky v nazvech souboru nahradit za tecky. zobrazit citaci

>V příloze posílám výstup z programu, a zkrácený výpis programu. Wine rád vypisuje >velké množství chyb, takže některých údajů ve výpisu si není třeba všímat.

Ty errory to vypisuje i na WIN, jedna se o nejaky problem v tesseract.exe, na strankach maji k tomu vytvoreny ticket, s tim ze program ale funguje spravne. [1] http://lkabrt.aspone.cz/osm/cuzk.zip -- Lukas

On Wed, Jan 20, 2010 at 09:37:07PM +0100, Lukas Kabrt wrote: zobrazit citaci

> Program pracuje tak, ze vezme dlaždici, najde na ní definicni body > budov (cervene tecky) a k nim prislusejici text. Text ulozi do obrazku > "tmp.bmp" a potom ho rozpozna exetnim OCR programem (tesseract.exe). > Ten ulozi rozpoznany text prave do souboru label.txt

Muzu se zeptat, zda pouzivate nejak upraveny/nauceny tesseract na ceske znaky, nebo to cestinu uspesne neumi? Kdyz jsem se snazil vytvorit seznam bodu kat. uz. tak jsem si s tim hral a jmena jsem vzdal a vytahl je z databaze podle cisel. Martin Kupec

zobrazit citaci

> Muzu se zeptat, zda pouzivate nejak upraveny/nauceny tesseract > na ceske znaky, nebo to cestinu uspesne neumi?

Pro verzi 3.0 uz existuje i cestina. Verze 3.0 je v stadiu prerelease, nejsou pro ni binarky a tak je potreba si stahnou zdrojove kody [1] a zkompilovat. Soubor pro cestinu je v adresari tessdata tamtez (ces.traineddata). Nebude ale zpetne kompatibilni s tesseract 2.04. Puvodne jsem pozival verzi 2.04 ale tam jsem narazil na nejake problemy na starsich pocitacich s WinXP. Pro verzi 2.04 jsem mel vytvoreny vlastni jazyk, kde byly definovany pouze znaky ktere se vyskytuji na katastralni mape - bezčpe. 0123456789. Uspesnost rozpoznavani byla o neco lepsi nez ted s celou abecedou, ale to se da celkem dobre vykonpenzovat postprocesingem - stejne zamenuje porad stejne znaky jako o/0, ./_ apod. Chtel jsem si vytvorit vlastni jazyk i pro verzi 3.0 ale nenasel jsem k tomu zadny nastroj. [1] http://tesseract-ocr.googlecode.com/svn/trunk/ -- Lukas

Tak se to chovalo pod čistým Monem, kde to nefunguje, a to ani s přítomným label.txt. Vypadá to, že má problém spustit externí aplikaci - mono používá xdg-open, což je nějaký program na spouštění souborů v uživatelem preferovaném prohlížeči/editoru (místo toho, aby externí program prostě spustil). Ten program se mi podařilo rozjet pod programem Wine na kterém je nainstalované Mono, a to jsem ještě musel použít knihovnu gdiplus.dll z Windows (v tomto případě už nepřítomnost label.txt nehraje roli). Wine je implementace windowsových knihoven pod Linuxem. Není to ideální řešení (lepší by bylo aby to fungovalo pod Monem přímo, už jenom kvůli tomu, že pod Wine je to o něco složitější rozjet), ale pokud by problém zmíněný v předchozím odstavci nešel jednoduše vyřešit, tak se tím nezabývej, protože jde pouze o jednoúčelovou utilitu a svůj účel splní i takto. On Wed, 20 Jan 2010 21:37:07 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> Program pracuje tak, ze vezme dlaždici, najde na ní definicni body > budov (cervene tecky) a k nim prislusejici text. Text ulozi do obrazku > "tmp.bmp" a potom ho rozpozna exetnim OCR programem (tesseract.exe). > Ten ulozi rozpoznany text prave do souboru label.txt > Proc program nefunguje, kdyz soubor label.txt pred spustenim > neexistuje je mi zahadou. Podle vystupu "output.csv" co jsi posilal, > tak rozpoznavani evidentne funguje ...

-- Petr Dlouhý

Tak jsem ještě trochu hledal, a snad jsem nalezl řešení. Vypadá to, že problém je způsoben bugem [1], a workaround je uvedený v ukázkovém programů z přílohy toho bugu. [1] https://bugzilla.novell.com/show_bug.cgi?id=385497 zobrazit citaci

> ------------ Původní zpráva ------------ > Od: Petr Dlouhý <petr.dlouhy na email.cz> > Předmět: Re: [Talk-cz] Import adres z katastralni mapy > Datum: 20.1.2010 23:32:05 > ---------------------------------------- > Tak se to chovalo pod čistým Monem, kde to nefunguje, a to ani s přítomným > label.txt. Vypadá to, že má problém spustit externí aplikaci - mono > používá xdg-open, což je nějaký program na spouštění souborů v uživatelem > preferovaném prohlížeči/editoru (místo toho, aby externí program prostě > spustil). > > Ten program se mi podařilo rozjet pod programem Wine na kterém je > nainstalované Mono, a to jsem ještě musel použít knihovnu gdiplus.dll z > Windows (v tomto případě už nepřítomnost label.txt nehraje roli). Wine je > implementace windowsových knihoven pod Linuxem. Není to ideální řešení > (lepší by bylo aby to fungovalo pod Monem přímo, už jenom kvůli tomu, že > pod Wine je to o něco složitější rozjet), ale pokud by problém zmíněný v > předchozím odstavci nešel jednoduše vyřešit, tak se tím nezabývej, protože > jde pouze o jednoúčelovou utilitu a svůj účel splní i takto. > > > On Wed, 20 Jan 2010 21:37:07 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: > > > Program pracuje tak, ze vezme dlaždici, najde na ní definicni body > > budov (cervene tecky) a k nim prislusejici text. Text ulozi do obrazku > > "tmp.bmp" a potom ho rozpozna exetnim OCR programem (tesseract.exe). > > Ten ulozi rozpoznany text prave do souboru label.txt > > Proc program nefunguje, kdyz soubor label.txt pred spustenim > > neexistuje je mi zahadou. Podle vystupu "output.csv" co jsi posilal, > > tak rozpoznavani evidentne funguje ... > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz > > >

Petr Dlouhý petr.dlouhy na email.cz

Tak jsem trochu zapracoval na mape katastralnich uzemi, aby se k.u. nemuseli kreslit rucne. Vektorizovanou mapu k.u. od hanoje [1] jsem zacistil (slouceni duplicitnich bodu, odtraneni fragmentu po vektorizaci, pospojovani prerusenych linii) a vytvoril na ni relace pro jednotliva k.u. Mapu jsem dal dohromady s daty co mi poslal Martin Kupec (nazvy katastralnich uzemi a jejich poloha). Vysledek je ke stazeni tady [2]. Trocha statistiky: CR ma 13027 k.u. Martin mi poslal data pro 12171 k.u. Mapa ma definovano 13028 relaci Mapa je jenom prozatmni, pri prirazeni se vyskytly nejake chyby (vic nazvu pro jedno k.u., jedna se ale o jednotky, max. desitky pripadu) To bych resil az budou hotova data pro vsechy k.u. Stejne tak je v mape 1 relace navic - pravdepodobne nekde zustal nejaky fragment, ten se taky objevi, az se priradi vsechny nazvy. Pokud se nekdo pousti do importu adres, tak mu tohle snad usetri trochu casu. [1] http://osm.templ.net/kucr.osm.bz2 [2] http://lkabrt.aspone.cz/osm/kucr.zip

Díky, teď to už (přes Wine) funguje. Na datech z Broumovska jsem vyzkoušel, že funguje i merge-cuzk-db. Poprosil bych tedy akorát, jestli bys nemohl aplikovat workaround, který jsem posílal - aby ostatní nemuseli složitě rozjíždět Mono pod Wine. On Wed, 20 Jan 2010 21:37:07 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> Moje chyba. Tile-downloader ukladal dlazdice se spatny jmenem (opet > carka / tecka). Oprava opet na [1]. Pokud mas nejake dlazdice stazene, > tak staci carky v nazvech souboru nahradit za tecky.

-- Petr Dlouhý

On Thu, Jan 21, 2010 at 04:50:15PM +0100, Lukas Kabrt wrote: zobrazit citaci

> Tak jsem trochu zapracoval na mape katastralnich uzemi, aby se k.u. > nemuseli kreslit rucne. > > Vektorizovanou mapu k.u. od hanoje [1] jsem zacistil (slouceni > duplicitnich bodu, odtraneni fragmentu po vektorizaci, pospojovani > prerusenych linii) a vytvoril na ni relace pro jednotliva k.u. > > Mapu jsem dal dohromady s daty co mi poslal Martin Kupec (nazvy > katastralnich uzemi a jejich poloha). Vysledek je ke stazeni tady [2]. > > Trocha statistiky: > CR ma 13027 k.u. > Martin mi poslal data pro 12171 k.u. > Mapa ma definovano 13028 relaci > > Mapa je jenom prozatmni, pri prirazeni se vyskytly nejake chyby (vic > nazvu pro jedno k.u., jedna se ale o jednotky, max. desitky pripadu) > To bych resil az budou hotova data pro vsechy k.u. Stejne tak je v > mape 1 relace navic - pravdepodobne nekde zustal nejaky fragment, ten > se taky objevi, az se priradi vsechny nazvy.

Super. Ja zkusim stahnout tesseract 3.0. s cestinou a dodelat ty zbyvajici k.u. Myslim ze do konce vikendu bych to mohl zvladnout. Martin Kupec

Ahoj, povedlo se mi zprovoznit kompilaci pod Monodevelop, takže si už můžu program upravit sám (chtěl bych tam přidat podporu pro nativní Linuxový Tesseract, což bude ten hlavní problém proč to nechodí jinak, než pod Wine). Pošli mi prosím tedy aspoň zdrojáky, ve kterých nepoužíváš knihovnu AForge. On Wed, 20 Jan 2010 14:18:10 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> Pokud jsem ten error spravne rozklicoval, tak se mu nelibi poziti > knihovny AForge. Program jsem upravil tak, aby tuhle knihovnu > nepouzival. Upravena verze je ke stazeni na [1].

-- Petr Dlouhý

zobrazit citaci

> Ahoj, > > povedlo se mi zprovoznit kompilaci pod Monodevelop, takže si už můžu > program upravit sám (chtěl bych tam přidat podporu pro nativní Linuxový > Tesseract, což bude ten hlavní problém proč to nechodí jinak, než pod > Wine). > > Pošli mi prosím tedy aspoň zdrojáky, ve kterých nepoužíváš knihovnu AForge.

Ahoj, updatoval jsem zdrojaky [1] i zkompilovane soubory [2] u me na strankach, tak muzes stahovat. [1] http://lkabrt.aspone.cz/osm/cuzk-source.zip [2] http://lkabrt.aspone.cz/osm/cuzk.zip -- Lukas

2010/1/21 Lukas Kabrt <lukas na kabrt.cz>: zobrazit citaci

> Tak jsem trochu zapracoval na mape katastralnich uzemi, aby se k.u. > nemuseli kreslit rucne. > > Vektorizovanou mapu k.u. od hanoje [1] jsem zacistil (slouceni > duplicitnich bodu, odtraneni fragmentu po vektorizaci, pospojovani > prerusenych linii) a vytvoril na ni relace pro jednotliva k.u. > > Mapu jsem dal dohromady s daty co mi poslal Martin Kupec (nazvy > katastralnich uzemi a jejich poloha). Vysledek je ke stazeni tady [2]. > > Trocha statistiky: > CR ma 13027 k.u. > Martin mi poslal data pro 12171 k.u. > Mapa ma definovano 13028 relaci > > Mapa je jenom prozatmni, pri prirazeni se vyskytly nejake chyby (vic > nazvu pro jedno k.u., jedna se ale o jednotky, max. desitky pripadu) > To bych resil az budou hotova data pro vsechy k.u. Stejne tak je v > mape 1 relace navic - pravdepodobne nekde zustal nejaky fragment, ten > se taky objevi, az se priradi vsechny nazvy. > > Pokud se nekdo pousti do importu adres, tak mu tohle snad usetri trochu casu. > > [1] http://osm.templ.net/kucr.osm.bz2 > [2] http://lkabrt.aspone.cz/osm/kucr.zip

Ahoj, měl bych k tomu ryze praktický dotaz. Jakým způsobem z téhle mapy nejsnáze vyříznout oblast která mě zajímá? Při načtení do JOSM se s takhle velou mapou nedá rozumně pracovat, každou akci provází minimálně několikaminutové čekání. Parkis zobrazit citaci

> > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

zobrazit citaci

> měl bych k tomu ryze praktický dotaz. Jakým způsobem z téhle mapy > nejsnáze vyříznout oblast která mě zajímá? Při načtení do JOSM se s > takhle velou mapou nedá rozumně pracovat, každou akci provází > minimálně několikaminutové čekání.

Jedna moznost je v JOSM si cast zkopirovat do nove vrstvy a pak pracovat s ni. Chvili to trva, ale jednou se to da prezit. Dalsi moznost je pouzit osmosis [1]. Prikaz pro orez bude neco jako osmosis --read-xml file=test.osm --sort-0.6 --bounding-box top=50.69 left=15.76 bottom=50.27 right=16.5 clipIncompleteEntities=true --write-xml file=result.osm Nekdo me treba doplni s dalsimi moznostmi. [1] http://wiki.openstreetmap.org/wiki/Osmosis -- Lukas

Ahoj, měl bych ještě jednu otázku: Zkoumal si nějak maximální rozlišení CUZK a optimalizoval naj ně tvůj program? Jde o to, že čím větší rozlišení zvolíš, tím jsou čísla menší a tím je také menší riziko překryvu (který způsobuje nejvíc špatně rozpoznaných čísel). On Wed, 20 Jan 2010 21:37:07 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> dlazdice se prekryvaji o 5% na kazde strane, takze temer jiste, ze > alespon na jedne dlazdici je text cely. Tile-processor vysledky nijak > nezpracovava, pouze ulozi polohu bodu a jemu prislusejici text. V > dalsim kroku, pri prirazovani adres jednotlivym bodum se nesmyslene > rozpoznany text vyfiltruje.

-- Petr Dlouhý

Já ještě doplní, že je nutné ještě nechat najít "selected | parent selected", aby se vybrali i relace. On Fri, 22 Jan 2010 15:42:58 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> Jedna moznost je v JOSM si cast zkopirovat do nove vrstvy a pak > pracovat s ni. Chvili to trva, ale jednou se to da prezit.

-- Petr Dlouhý

zobrazit citaci

> Zkoumal si nějak maximální rozlišení CUZK a optimalizoval naj ně tvůj > program? Jde o to, že čím větší rozlišení zvolíš, tím jsou čísla menší a > tím je také menší riziko překryvu (který způsobuje nejvíc špatně > rozpoznaných čísel).

Ano vim o tom, ze cim vetsi rozliseni, tim mensi cisla a tim padem i mensi riziko prekryvu. Nijak exaktne jsem to nemeril, ale pro to meritko, ktere jsem zvolil se mi zda uspesnot dostatecna i pro mesta, kde jsou budovy "nalepeny" na sebe. Nejvetsi procento chyb pripada na budovy bez cp/ce - bloky garazi apod. Slo mi o to najit rozumny kompromis mezi prekryvem napisu a mnozstvi dlazdic, ktere je potreba zpracovat. Moznosti by bylo nejdrive stahnout mapu v nizsim rozliseni, najit definicni body budov a pak pro kazdou budovu stahnout detail. Tohle reseni se mi ale moc nelibi, protoze by bylo nutne stahovat velke mnozstvi detailu a hodne by to zpomalilo zpracovani. (Vcera jsem zkousel rozpoznavani na plose cca 20 x 25 km a bylo tam okolo 90000 budov) -- Lukas

On Sat, Jan 23, 2010 at 11:07:26AM +0100, Lukas Kabrt wrote: zobrazit citaci

> Moznosti by bylo nejdrive stahnout mapu v nizsim rozliseni, najit > definicni body budov a pak pro kazdou budovu stahnout detail. Tohle > reseni se mi ale moc nelibi, protoze by bylo nutne stahovat velke > mnozstvi detailu a hodne by to zpomalilo zpracovani. (Vcera jsem > zkousel rozpoznavani na plose cca 20 x 25 km a bylo tam okolo 90000 > budov)

Presne tohle reseni delam u katastralnich uzemi. Ale tech je pouze cca 13k v republice, takze tam to funguje pekne. Martin

Zdravím, mám problém s použitím poloautomatického importovače z katastrální mapy. Zkoušel jsem to na ukázkovém území. Výstup z kroku 2 se zdá být v pohodě (nějaké drobné chyby v rozpoznávání, ale to se dalo čekat): 50.4860413,16.1035088,č.p.256 50.4861788,16.1038375,č.p.251 50.4863550,16.1043138,č.p.250 50.4862125,16.1050900,bez č.p./č.e. ... Zde je mi zcela jasný princip ... stáhnou se příslušné dlaždice v PNG, najdou se tam tečky, vyseknou popisky do malých bitmap, nechají rozpoznat pomocí OCR a popisky spolu se souřadnicemi tečky se zapíší do souboru. Dále už se trochu ztrácím. V kroku 3 (vytvoreni XML souboru, ktery definuje prirazeni mezi katastralnim uzemim a obci / casti obce z databaze adresnich bodu) jsem převzal XML z dokumentace. A k tomu se váže první dotaz. Kde berete tyto informace? A k čemu je to dobré? Upozorňuji, že nejsem zaměměřič, ale programátor, takže o struktuře území toho moc nevím, i když jsem k této oblasti trochu přičichnul. Moje představa je, že čísla domů jsou jedinečná v části obce (proto např. v nahlížení do KN říkám obec, část obce, číslo budovy). Proto je třeba nějak určit část obce, do které dané území patří. Jinak číselníky částí obcí a jejich vztahy k obcím, okresům, krajům apod. jsou na Českém Statistikém Úřadě. Ale nevím, zda je lze z licenčních důvodů použít (ví to někdo?). Ruční vytváření XML pro každé katastrální území, kterých jsou tisíce(?) je poněkud nepraktické a hlavně hrozí chyby. Pro pokus jsem vzal XML soubor z dokumentace cuzk-postup.txt. A pak je třeba udělat merge. Odkud pochází databáze adres? To je UIR-ADR? Z jakého původního zdroje pocházejí hranice katastrálních území? A co vlastně merge dělá? Moje představa je, že pro každý adresní bod z toho CSV souboru vygenerovaném v jednom z předchozích kroků najde katastrální území, jehož hranice je v souboru daném parametrem territories. Pak -addressesDB - XML soubor s databazi adres [2] -territories - OSM soubor s definovanymi katasrtalnimi uzemimi -addressPoints - CSV soubor z bodu 2) -mappings - XML soubor z bodu 3) Takže jako první parametr jsem dal soubor address.xml. U druhého parametru nevím. Zkoušel jsem http://osm.templ.net/kucr.osm.bz2 a http://lkabrt.aspone.cz/osm/kucr.zip. Třetí parametr je asi jasný - ten CVS vygenerovaný z jednom z předchozím kroku. Čtvrtý parametr - to je to XML převzaté pro pokus z dokumentace. A po spuštění merge to dělá toto: 1) V případě použití http://osm.templ.net/kucr.osm.bz2 program skončí výjimkou při Matching building definition points with addresses DB ...: Neošetřená výjimka: System.InvalidOperationException: Posloupnost neobsahuje žádné prvky. v System.Linq.Enumerable.Single[TSource](IEnumerable`1 source) v CUZK.MergeDBWithPoints.AddressesFinder.Initialize(Dictionary`2 unassignedBuildngDefinitionPoints, Dictionary`2 unassignedAddressPoints) v CUZK.MergeDBWithPoints.AddressesFinder.FindAddressesAssignment() v CUZK.MergeDBWithPoints.Program.Main(String[] args) 2) V případě použití http://lkabrt.aspone.cz/osm/kucr.zip program vytíží jedno jádro procesoru a nic ... tedy nechal jsem to pár desítek minut (nebo mám čekat déle?). Poslední hláška je, že Loading territories borders... Další věc je, že ten XML soubor z kroku 2 definuje vztahy pomocí názvů. Ale ty myslím nejsou jednoznačné. Přitom číselníky katastru i Stat. úřadu používají pro označení obce, části obce, katastr. území apod. také nějaká číselná IDčka (kupodivu dokonce stejná). Rád bych pokračoval vývojem SW pro poloautomatické zpracování, protože o lepším zdroji informací než je katastrální mapa nevím. Mám představu nějaké GUI, kde půjdou obkreslovat budovy (s případným automatickým návrhem), kontrolovat čísla domů apod. Ale napřed bych si rád ujasnil současnou situaci a zorientoval se v problému. Díky předem za odpovědi Honza

zobrazit citaci

> V kroku 3 (vytvoreni XML souboru, ktery definuje prirazeni mezi > katastralnim uzemim a obci / casti obce z databaze adresnich bodu) > jsem převzal XML z dokumentace. A k tomu se váže první dotaz. Kde > berete tyto informace? A k čemu je to dobré? Upozorňuji, že nejsem > zaměměřič, ale programátor, takže o struktuře území toho moc nevím, i > když jsem k této oblasti trochu přičichnul.

zobrazit citaci

> Moje představa je, že čísla domů jsou jedinečná v části obce (proto > např. v nahlížení do KN říkám obec, část obce, číslo budovy). Proto je > třeba nějak určit část obce, do které dané území patří.

Presne tak. zobrazit citaci

> číselníky částí obcí a jejich vztahy k obcím, okresům, krajům apod. > jsou na Českém Statistikém Úřadě. Ale nevím, zda je lze z licenčních > důvodů použít (ví to někdo?). Ruční vytváření XML pro každé > katastrální území, kterých jsou tisíce(?) je poněkud nepraktické a > hlavně hrozí chyby.

Ano je to trochu neprakticke. Asi by to slo castecne automatizovat. Muj postup je, ze si z databaze [1] vytahnu stukturu oblast - obec - cast a z mapy nazvy k. u. a rucne prirazuju, vestinou je to jasne (zatim stejne delam v mistech, ktere jakz takz znam). Prirazeni k.u. - obec lze nalezt na strankach CUZK [2]. Jak je to s licenci nevim. Problemy jsou ale s nekterymi castmi obci - na jednom k.u. muze byt vice casti obce. zobrazit citaci

>kterých jsou tisíce(?)

Presne 13027. zobrazit citaci

> A pak je třeba udělat merge. Odkud pochází databáze adres? To je > UIR-ADR? Z jakého původního zdroje pocházejí hranice katastrálních > území?

Adresy pochazeni z webu MVCR [1], hranice k.u. ktere mam na strankach jsou vektorizovane mapy CUZK - vektorizaci delal hanoj [3], a Martin Kupec pracuje na OCR nazvu k.u., vysledek na mych strankach jeste neni hotovy, chybi jeste cca 800 nazvu. zobrazit citaci

> A co vlastně merge dělá? Moje představa je, že pro každý adresní bod z > toho CSV souboru vygenerovaném v jednom z předchozích kroků najde > katastrální území, jehož hranice je v souboru daném parametrem > territories.

Merge vezme CSV soubor se souradnicemi budov a rozpoznanym popiskem, najde k.u., ve kterem se budova nachazi, podiva se do souboru *.map jaka obec, mestska cast se na k.u. nachazi a podle toho se budove pokusi priradit adresu z databaze MVCR. zobrazit citaci

> U druhého parametru nevím. Zkoušel jsem > http://osm.templ.net/kucr.osm.bz2

ten urcite fungovat nebude, tam nejsou nazvy k.u. zobrazit citaci

> http://lkabrt.aspone.cz/osm/kucr.zip.

ten muzes pouzit, ale je potreba zkotrolovat, jestli tam je zadany to k.u. o ktery se zajimas - nazvy jeste nejsou kompletni. zobrazit citaci

> Čtvrtý parametr - to je to XML převzaté pro pokus z dokumentace.

priklad z dokumentace mozna nebude kompatiblni s mapu z http://lkabrt.aspone.cz/osm/kucr.zip. Koukam, ze je to jeste z doby, kdy jsem mapu zkousel malovat jen tak priblizne rucne, jen pro ucely tohohle programu takze asi nesedi nazvy. zobrazit citaci

> 2) V případě použití http://lkabrt.aspone.cz/osm/kucr.zip program > vytíží jedno jádro procesoru a nic ... tedy nechal jsem to pár desítek > minut (nebo mám čekat déle?). Poslední hláška je, že Loading > territories borders...

Pro parsovani XML pouzivam XML.LINQ, a ten neni delany na zpracovani tak velkych souboru, proto si ze souboru kucr.zip vyriznu cast se kterou chci pracovat [4]. S parsovanim XML dokumentu mozna neco udelam, fakt to neni nejrychlejsi. XML.Linq ma ale tu vyhodu, ze se s tim hezky pracuje, takze jsem ho pouzil pri vyvoji. zobrazit citaci

> Další věc je, že ten XML soubor z kroku 2 definuje vztahy pomocí > názvů. Ale ty myslím nejsou jednoznačné. Přitom číselníky katastru i > Stat. úřadu používají pro označení obce, části obce, katastr. území > apod. také nějaká číselná IDčka (kupodivu dokonce stejná).

Jmena k.u. jsou jedinecna, stejne tak kombinace oblast-obec-cast z databaze. [1] http://aplikace.mvcr.cz/adresa/adresy.zip [2] http://www.cuzk.cz/Dokument.aspx?PRARESKOD=10&MENUID=10015&AKCE=DOC:10-CISE_KUAP [3] http://lists.openstreetmap.org/pipermail/talk-cz/2009-June/003204.html [4] http://lists.openstreetmap.org/pipermail/talk-cz/2010-January/004310.html -- Lukas

Na kontrolu naimportovaných adresních bodů plně postačuje plugin Czechaddress do JOSM. Poloautomatické obkreslování by asi taky bylo nejlepší udělat formou pluginu do JOSM. On Sat, 23 Jan 2010 18:14:37 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Rád bych pokračoval vývojem SW pro poloautomatické zpracování, protože > o lepším zdroji informací než je katastrální mapa nevím. Mám představu > nějaké GUI, kde půjdou obkreslovat budovy (s případným automatickým > návrhem), kontrolovat čísla domů apod. Ale napřed bych si rád ujasnil > současnou situaci a zorientoval se v problému.

-- Petr Dlouhý

Ahoj, pracuji na generátoru .map souboru. Potřeboval bych ale seznam katastrálních území a jejich čísel, který Martin Kupec získal OCR přehledek, podle čísel území by to šlo jednoduše spojit. Kde je možné ten soubor získat? On Sat, 23 Jan 2010 20:40:13 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> Ano je to trochu neprakticke. Asi by to slo castecne automatizovat. > Muj postup je, ze si z databaze [1] vytahnu stukturu oblast - obec - > cast a z mapy nazvy k. u. a rucne prirazuju, vestinou je to jasne > (zatim stejne delam v mistech, ktere jakz takz znam). Prirazeni k.u. - > obec lze nalezt na strankach CUZK [2]. Jak je to s licenci nevim. > Problemy jsou ale s nekterymi castmi obci - na jednom k.u. muze byt > vice casti obce.

-- Petr Dlouhý

Omlouvám se, pořádně jsem si to nepřečetl. Použiju samozřejmě to ze stránek CUZK. On Sat, 23 Jan 2010 21:50:22 +0100, Petr Dlouhý <petr.dlouhy na email.cz> wrote: zobrazit citaci

> Ahoj, > > pracuji na generátoru .map souboru. Potřeboval bych ale seznam > katastrálních území a jejich čísel, který Martin Kupec získal OCR > přehledek, podle čísel území by to šlo jednoduše spojit. > Kde je možné ten soubor získat? > > On Sat, 23 Jan 2010 20:40:13 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: > >> Ano je to trochu neprakticke. Asi by to slo castecne automatizovat. >> Muj postup je, ze si z databaze [1] vytahnu stukturu oblast - obec - >> cast a z mapy nazvy k. u. a rucne prirazuju, vestinou je to jasne >> (zatim stejne delam v mistech, ktere jakz takz znam). Prirazeni k.u. - >> obec lze nalezt na strankach CUZK [2]. Jak je to s licenci nevim. >> Problemy jsou ale s nekterymi castmi obci - na jednom k.u. muze byt >> vice casti obce. > >

-- Petr Dlouhý

Ahoj, udělal jsem si utilitku pro vyjmutí části území ze souboru *.osm mapy katastrálních území http://lkabrt.aspone.cz/osm/kucr.zip. Třeba se také někomu bude hodit (ať již jako binárka nebo zdroják k zakomentování do celku). Upozorňuji, že nejde o nic obecného (i když by to možná zobecnit šlo), ale je to dělané na míru tomuto souboru. Rychlost nemám s čím porovnat, na mém stroji to trvá tak 10 sekund. Dělá to všechno v paměti, takže to zabere pro daný konkrétní soubor asi 260 MB RAM. Používá to XmlTextReader a XmlTextWriter místo LINQ. Zadá se vstupní soubor, výstupní soubor a obdélník (north, west, south, east). Výsledný soubor obsahuje všechny nodes, ways a relations, které alespoň jedním nodem zasahují do daného obdélníku. Příklad použití: ExtractBoundingBox.exe -north 50.50 -west 16.10278129 -south 50.49 -east 16.123 -input "kucr-jmena.osm" -output kucr-part.osm Ke stažení: http://jabi.aspone.cz/osm/ExtractBoundingBox-bin.rar (binárka pro .NET) http://jabi.aspone.cz/osm/ExtractBoundingBox-src.rar (zdrojáky v C#) Použil jsem k tomu parser parametrů z CUZK.Common.dll, snad autor nebude proti. Honza

Není to trochu nově vynalezené kolo, když tu mám osmosis? [1] http://lists.openstreetmap.org/pipermail/talk-cz/2010-January/004310.html On Sun, 24 Jan 2010 02:08:17 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Ahoj, udělal jsem si utilitku pro vyjmutí části území ze souboru *.osm > mapy katastrálních území > http://lkabrt.aspone.cz/osm/kucr.zip. > Třeba se také někomu bude hodit (ať již jako binárka nebo zdroják k > zakomentování do celku). > > Upozorňuji, že nejde o nic obecného (i když by to možná zobecnit šlo), > ale je to dělané na míru tomuto souboru. Rychlost nemám s čím > porovnat, na mém stroji to trvá tak 10 sekund. Dělá to všechno v > paměti, takže to zabere pro daný konkrétní soubor asi 260 MB RAM. > Používá to XmlTextReader a XmlTextWriter místo LINQ. > > Zadá se vstupní soubor, výstupní soubor a obdélník (north, west, > south, east). Výsledný soubor obsahuje všechny > nodes, ways a relations, které alespoň jedním nodem zasahují do daného > obdélníku. > > Příklad použití: > ExtractBoundingBox.exe -north 50.50 -west 16.10278129 -south 50.49 > -east 16.123 -input "kucr-jmena.osm" -output kucr-part.osm > > Ke stažení: > http://jabi.aspone.cz/osm/ExtractBoundingBox-bin.rar (binárka pro .NET) > http://jabi.aspone.cz/osm/ExtractBoundingBox-src.rar (zdrojáky v C#) > > Použil jsem k tomu parser parametrů z CUZK.Common.dll, snad autor nebude > proti. > > Honza > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

Asi ano, ale kdyz jsem osmosis zkousel, tak vzdycky spadnul na nejakou podovnou vyjimku. Pak jsem v rychlosti dospel k zaveru, ze asi ke sve cinnosti potrebuje nejakou DB (PostreSQL apod.) ... a to se mi nechtelo instalovat ... ale treba je to spatny zaver. Moc jsem to nezkoumal. Honza 2010/1/24 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Není to trochu nově vynalezené kolo, když tu mám osmosis? > > [1] > http://lists.openstreetmap.org/pipermail/talk-cz/2010-January/004310.html > > On Sun, 24 Jan 2010 02:08:17 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > >> Ahoj, udělal jsem si utilitku pro vyjmutí části území ze souboru *.osm >> mapy katastrálních území >> http://lkabrt.aspone.cz/osm/kucr.zip. >> Třeba se také někomu bude hodit (ať již jako binárka nebo zdroják k >> zakomentování do celku). >> >> Upozorňuji, že nejde o nic obecného (i když by to možná zobecnit šlo), >> ale je to dělané na míru tomuto souboru. Rychlost nemám s čím >> porovnat, na mém stroji to trvá tak 10 sekund. Dělá to všechno v >> paměti, takže to zabere pro daný konkrétní soubor asi 260 MB RAM. >> Používá to XmlTextReader a XmlTextWriter místo LINQ. >> >> Zadá se vstupní soubor, výstupní soubor a obdélník (north, west, >> south, east). Výsledný soubor obsahuje všechny >> nodes, ways a relations, které alespoň jedním nodem zasahují do daného >> obdélníku. >> >> Příklad použití: >> ExtractBoundingBox.exe -north 50.50 -west 16.10278129 -south 50.49 >> -east 16.123 -input "kucr-jmena.osm" -output kucr-part.osm >> >> Ke stažení: >> http://jabi.aspone.cz/osm/ExtractBoundingBox-bin.rar (binárka pro .NET) >> http://jabi.aspone.cz/osm/ExtractBoundingBox-src.rar (zdrojáky v C#) >> >> Použil jsem k tomu parser parametrů z CUZK.Common.dll, snad autor nebude >> proti. >> >> Honza >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

A hlavně mým cílem je, aby celý proces byl poměrně jednoduchý ... integrovaný časem do nějaké GUI, protože i když, jak tady někdo psal, se to může zdát jako jednorázový proces, tak a) je natolik pracný, že je třeba distribuovat mezi více lidí (teď nemyslím jen adresní body, ale tahání informací z katastrálních map) b) informace v katastru se mění (aktualizují), takže čím více bude proces automatický, tím lepší pro pozdější aktualizace Přecijen tohle mi přijde snadněji použitelné (i když nechci tvrdit, že tam to je nějak extra složité - nevím. Honza 2010/1/24 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> Asi ano, ale kdyz jsem osmosis zkousel, tak vzdycky spadnul na nejakou > podovnou vyjimku. Pak jsem v rychlosti dospel k zaveru, ze asi ke sve > cinnosti potrebuje nejakou DB (PostreSQL apod.) ... a to se mi > nechtelo instalovat ... ale treba je to spatny zaver. Moc jsem to > nezkoumal. > > Honza > > > 2010/1/24 Petr Dlouhý <petr.dlouhy na email.cz>: >> Není to trochu nově vynalezené kolo, když tu mám osmosis? >> >> [1] >> http://lists.openstreetmap.org/pipermail/talk-cz/2010-January/004310.html >> >> On Sun, 24 Jan 2010 02:08:17 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >> wrote: >> >>> Ahoj, udělal jsem si utilitku pro vyjmutí části území ze souboru *.osm >>> mapy katastrálních území >>> http://lkabrt.aspone.cz/osm/kucr.zip. >>> Třeba se také někomu bude hodit (ať již jako binárka nebo zdroják k >>> zakomentování do celku). >>> >>> Upozorňuji, že nejde o nic obecného (i když by to možná zobecnit šlo), >>> ale je to dělané na míru tomuto souboru. Rychlost nemám s čím >>> porovnat, na mém stroji to trvá tak 10 sekund. Dělá to všechno v >>> paměti, takže to zabere pro daný konkrétní soubor asi 260 MB RAM. >>> Používá to XmlTextReader a XmlTextWriter místo LINQ. >>> >>> Zadá se vstupní soubor, výstupní soubor a obdélník (north, west, >>> south, east). Výsledný soubor obsahuje všechny >>> nodes, ways a relations, které alespoň jedním nodem zasahují do daného >>> obdélníku. >>> >>> Příklad použití: >>> ExtractBoundingBox.exe -north 50.50 -west 16.10278129 -south 50.49 >>> -east 16.123 -input "kucr-jmena.osm" -output kucr-part.osm >>> >>> Ke stažení: >>> http://jabi.aspone.cz/osm/ExtractBoundingBox-bin.rar (binárka pro .NET) >>> http://jabi.aspone.cz/osm/ExtractBoundingBox-src.rar (zdrojáky v C#) >>> >>> Použil jsem k tomu parser parametrů z CUZK.Common.dll, snad autor nebude >>> proti. >>> >>> Honza >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >> >> >> -- >> Petr Dlouhý >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> >

Padat by neměl (nevím, co říká, můžeš se pokusit nahlásit chybu), a databázi pokud vím nepotřebuje. Už jsem ho dlouho nepoužil, i ten kucr.zip se mi daří poměrně dobře vystříhout i pomocí JOSM (a to mám docela starý počítač). Ono totiž když se to zvětší (není zobrazená celá mapa naráz), tak už to jede docela rychle. On Sun, 24 Jan 2010 02:19:01 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Asi ano, ale kdyz jsem osmosis zkousel, tak vzdycky spadnul na nejakou > podovnou vyjimku. Pak jsem v rychlosti dospel k zaveru, ze asi ke sve > cinnosti potrebuje nejakou DB (PostreSQL apod.) ... a to se mi > nechtelo instalovat ... ale treba je to spatny zaver. Moc jsem to > nezkoumal. > > Honza >

-- Petr Dlouhý

Co se týče skriptů, tak myslím, že je třeba se vydat jinou cestou. Pokud to jde alespoň trochu jednoduše udělat, tak by ten skript měl dokázat pracovat s celou mapou katastrálních území. Nemůže být problém z toho souboru vytáhnout pouze ty relace (ty moc nezabírají), a hranice tahat jen podle potřeby. Pokud se navíc vytvoří mapovací soubor pro celou ČR, tak to celý proces výrazně zjednoduší. Pro to není potřeba žádné GUI, manuální práce na začištění ale asi bude potřeba vždy. Co se týče pozdějších manuálních, tak na to existuje Czechaddress plugin do JOSM. Takže vlastně GUI. On Sun, 24 Jan 2010 02:27:55 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> A hlavně mým cílem je, aby celý proces byl poměrně jednoduchý ... > integrovaný časem do nějaké GUI, protože i když, jak tady někdo psal, > se to může zdát jako jednorázový proces, tak > > a) je natolik pracný, že je třeba distribuovat mezi více lidí (teď > nemyslím jen adresní body, ale tahání informací z katastrálních map) > b) informace v katastru se mění (aktualizují), takže čím více bude > proces automatický, tím lepší pro pozdější aktualizace > > Přecijen tohle mi přijde snadněji použitelné (i když nechci tvrdit, že > tam to je nějak extra složité - nevím. > > Honza > > > 2010/1/24 Jan Bilak <jan.bilak.osm na gmail.com>: >> Asi ano, ale kdyz jsem osmosis zkousel, tak vzdycky spadnul na nejakou >> podovnou vyjimku. Pak jsem v rychlosti dospel k zaveru, ze asi ke sve >> cinnosti potrebuje nejakou DB (PostreSQL apod.) ... a to se mi >> nechtelo instalovat ... ale treba je to spatny zaver. Moc jsem to >> nezkoumal. >> >> Honza >> >> >> 2010/1/24 Petr Dlouhý <petr.dlouhy na email.cz>: >>> Není to trochu nově vynalezené kolo, když tu mám osmosis? >>> >>> [1] >>> http://lists.openstreetmap.org/pipermail/talk-cz/2010-January/004310.html >>> >>> On Sun, 24 Jan 2010 02:08:17 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >>> wrote: >>> >>>> Ahoj, udělal jsem si utilitku pro vyjmutí části území ze souboru *.osm >>>> mapy katastrálních území >>>> http://lkabrt.aspone.cz/osm/kucr.zip. >>>> Třeba se také někomu bude hodit (ať již jako binárka nebo zdroják k >>>> zakomentování do celku). >>>> >>>> Upozorňuji, že nejde o nic obecného (i když by to možná zobecnit šlo), >>>> ale je to dělané na míru tomuto souboru. Rychlost nemám s čím >>>> porovnat, na mém stroji to trvá tak 10 sekund. Dělá to všechno v >>>> paměti, takže to zabere pro daný konkrétní soubor asi 260 MB RAM. >>>> Používá to XmlTextReader a XmlTextWriter místo LINQ. >>>> >>>> Zadá se vstupní soubor, výstupní soubor a obdélník (north, west, >>>> south, east). Výsledný soubor obsahuje všechny >>>> nodes, ways a relations, které alespoň jedním nodem zasahují do daného >>>> obdélníku. >>>> >>>> Příklad použití: >>>> ExtractBoundingBox.exe -north 50.50 -west 16.10278129 -south 50.49 >>>> -east 16.123 -input "kucr-jmena.osm" -output kucr-part.osm >>>> >>>> Ke stažení: >>>> http://jabi.aspone.cz/osm/ExtractBoundingBox-bin.rar (binárka pro >>>> .NET) >>>> http://jabi.aspone.cz/osm/ExtractBoundingBox-src.rar (zdrojáky v C#) >>>> >>>> Použil jsem k tomu parser parametrů z CUZK.Common.dll, snad autor >>>> nebude >>>> proti. >>>> >>>> Honza >>>> >>>> _______________________________________________ >>>> Talk-cz mailing list >>>> Talk-cz na openstreetmap.org >>>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >>> >>> -- >>> Petr Dlouhý >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >> > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

Ahoj, díky, už se mi podařilo. Jeden postřeh je ten, že soubor mapování nesmí obsahovat nic navíc, než je nutné. Pokud je tam nějaké mapování navíc (neexistuje k tomu katastrální území v *.osm mapce apod.), tak to při mergování spadne. Honza 2010/1/23 Lukas Kabrt <lukas na kabrt.cz>: zobrazit citaci

>> V kroku 3 (vytvoreni XML souboru, ktery definuje prirazeni mezi >> katastralnim uzemim a obci / casti obce z databaze adresnich bodu) >> jsem převzal XML z dokumentace. A k tomu se váže první dotaz. Kde >> berete tyto informace? A k čemu je to dobré? Upozorňuji, že nejsem >> zaměměřič, ale programátor, takže o struktuře území toho moc nevím, i >> když jsem k této oblasti trochu přičichnul. > >> Moje představa je, že čísla domů jsou jedinečná v části obce (proto >> např. v nahlížení do KN říkám obec, část obce, číslo budovy). Proto je >> třeba nějak určit část obce, do které dané území patří. > > Presne tak. > >> číselníky částí obcí a jejich vztahy k obcím, okresům, krajům apod. >> jsou na Českém Statistikém Úřadě. Ale nevím, zda je lze z licenčních >> důvodů použít (ví to někdo?). Ruční vytváření XML pro každé >> katastrální území, kterých jsou tisíce(?) je poněkud nepraktické a >> hlavně hrozí chyby. > > Ano je to trochu neprakticke. Asi by to slo castecne automatizovat. > Muj postup je, ze si z databaze [1] vytahnu stukturu oblast - obec - > cast a z mapy nazvy k. u. a rucne prirazuju, vestinou je to jasne > (zatim stejne delam v mistech, ktere jakz takz znam). Prirazeni k.u. - > obec lze nalezt na strankach CUZK [2]. Jak je to s licenci nevim. > Problemy jsou ale s nekterymi castmi obci - na jednom k.u. muze byt > vice casti obce. > >>kterých jsou tisíce(?) > > Presne 13027. > >> A pak je třeba udělat merge. Odkud pochází databáze adres? To je >> UIR-ADR? Z jakého původního zdroje pocházejí hranice katastrálních >> území? > > Adresy pochazeni z webu MVCR [1], hranice k.u. ktere mam na strankach > jsou vektorizovane mapy CUZK - vektorizaci delal hanoj [3], a Martin > Kupec pracuje na OCR nazvu k.u., vysledek na mych strankach jeste neni > hotovy, chybi jeste cca 800 nazvu. > >> A co vlastně merge dělá? Moje představa je, že pro každý adresní bod z >> toho CSV souboru vygenerovaném v jednom z předchozích kroků najde >> katastrální území, jehož hranice je v souboru daném parametrem >> territories. > > Merge vezme CSV soubor se souradnicemi budov a rozpoznanym popiskem, > najde k.u., ve kterem se budova nachazi, podiva se do souboru *.map > jaka obec, mestska cast se na k.u. nachazi a podle toho se budove > pokusi priradit adresu z databaze MVCR. > >> U druhého parametru nevím. Zkoušel jsem >> http://osm.templ.net/kucr.osm.bz2 > > ten urcite fungovat nebude, tam nejsou nazvy k.u. > >> http://lkabrt.aspone.cz/osm/kucr.zip. > > ten muzes pouzit, ale je potreba zkotrolovat, jestli tam je zadany to > k.u. o ktery se zajimas - nazvy jeste nejsou kompletni. > > >> Čtvrtý parametr - to je to XML převzaté pro pokus z dokumentace. > > priklad z dokumentace mozna nebude kompatiblni s mapu z > http://lkabrt.aspone.cz/osm/kucr.zip. Koukam, ze je to jeste z doby, > kdy jsem mapu zkousel malovat jen tak priblizne rucne, jen pro ucely > tohohle programu takze asi nesedi nazvy. > >> 2) V případě použití http://lkabrt.aspone.cz/osm/kucr.zip program >> vytíží jedno jádro procesoru a nic ... tedy nechal jsem to pár desítek >> minut (nebo mám čekat déle?). Poslední hláška je, že Loading >> territories borders... > > Pro parsovani XML pouzivam XML.LINQ, a ten neni delany na zpracovani > tak velkych souboru, proto si ze souboru kucr.zip vyriznu cast se > kterou chci pracovat [4]. S parsovanim XML dokumentu mozna neco > udelam, fakt to neni nejrychlejsi. XML.Linq ma ale tu vyhodu, ze se s > tim hezky pracuje, takze jsem ho pouzil pri vyvoji. > >> Další věc je, že ten XML soubor z kroku 2 definuje vztahy pomocí >> názvů. Ale ty myslím nejsou jednoznačné. Přitom číselníky katastru i >> Stat. úřadu používají pro označení obce, části obce, katastr. území >> apod. také nějaká číselná IDčka (kupodivu dokonce stejná). > > Jmena k.u. jsou jedinecna, stejne tak kombinace oblast-obec-cast z databaze. > > [1] http://aplikace.mvcr.cz/adresa/adresy.zip > [2] http://www.cuzk.cz/Dokument.aspx?PRARESKOD=10&MENUID=10015&AKCE=DOC:10-CISE_KUAP > [3] http://lists.openstreetmap.org/pipermail/talk-cz/2009-June/003204.html > [4] http://lists.openstreetmap.org/pipermail/talk-cz/2010-January/004310.html > -- > Lukas > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Já nemyslel GUI v tom smyslu, že tam bude 5 tlačítek a ty budou spouštět tyhle skripty. Ale co je třeba dělat? Pro adresní body: - vybrat území, které mne zajímá (zajímavá informace zde bude, co už je hotové a co nikoli ... zatím není skoro nic, ale časem...) - automaticky stáhnou potřebná data (mapování, adresy, hranice kat. území, dlaždice) a OCRovat - pak je třeba manuální kontrola mapování, adres, výsledku OCRu - zejména pro kontrolu OCRu se hodí možnost v GUI si zobrazit daný text v podobě výřezu obrázku (zcela automaticky, aniž bych musel něco složitě někde hledat či zadávát) - automaticky provést mergování - opět kontrola výsledků - ... Pro zakreslování domů to bude také zajímavé ... nějaké poloautomatický rozpoznávání obrysů, možnost korektur, ověřování na fotomapě, ruční zakreslení budov, návaznost na adresní body, ... Možnosti pluginů do JOSM neznám, zatím ani Czechadress. Ale nemyslím, že bude jednoduché to do toho nějak vhodně napasovat, aby s tím šlo pohodlně pracovat. Přecijen republika je velká a tak zpracování takové velké oblasti dá mnoho práce. Takže investice do co nejpohodlnějšího GUI pro práci se vyplatí. Čím jednodušší to bude, tím více lidí se do toho zapojí. Určitě jsou lidi, kteří by do toho šli, ale je to na ně moc složité. Jak jsem pochopil, tak zatím na tom dělají vlastně jen programátoři (nebo alespoň převážně). Přitom je tam spousta manuální práce, která z principu programátorské schopnosti nevyžaduje, pokud by bylo nějaké rozumné programové vybavení. Co je podle tebe třeba teď dělat? Mapovací soubor apod. je krátkodobý cíl. Myslím alespoň ze střednědobého pohledu. Honza 2010/1/24 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Co se týče skriptů, tak myslím, že je třeba se vydat jinou cestou. > Pokud to jde alespoň trochu jednoduše udělat, tak by ten skript měl > dokázat pracovat s celou mapou katastrálních území. Nemůže být problém z > toho souboru vytáhnout pouze ty relace (ty moc nezabírají), a hranice > tahat jen podle potřeby. > Pokud se navíc vytvoří mapovací soubor pro celou ČR, tak to celý proces > výrazně zjednoduší. Pro to není potřeba žádné GUI, manuální práce na > začištění ale asi bude potřeba vždy. > > Co se týče pozdějších manuálních, tak na to existuje Czechaddress plugin > do JOSM. Takže vlastně GUI. > > On Sun, 24 Jan 2010 02:27:55 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > >> A hlavně mým cílem je, aby celý proces byl poměrně jednoduchý ... >> integrovaný časem do nějaké GUI, protože i když, jak tady někdo psal, >> se to může zdát jako jednorázový proces, tak >> >> a) je natolik pracný, že je třeba distribuovat mezi více lidí (teď >> nemyslím jen adresní body, ale tahání informací z katastrálních map) >> b) informace v katastru se mění (aktualizují), takže čím více bude >> proces automatický, tím lepší pro pozdější aktualizace >> >> Přecijen tohle mi přijde snadněji použitelné (i když nechci tvrdit, že >> tam to je nějak extra složité - nevím. >> >> Honza >> >> >> 2010/1/24 Jan Bilak <jan.bilak.osm na gmail.com>: >>> Asi ano, ale kdyz jsem osmosis zkousel, tak vzdycky spadnul na nejakou >>> podovnou vyjimku. Pak jsem v rychlosti dospel k zaveru, ze asi ke sve >>> cinnosti potrebuje nejakou DB (PostreSQL apod.) ... a to se mi >>> nechtelo instalovat ... ale treba je to spatny zaver. Moc jsem to >>> nezkoumal. >>> >>> Honza >>> >>> >>> 2010/1/24 Petr Dlouhý <petr.dlouhy na email.cz>: >>>> Není to trochu nově vynalezené kolo, když tu mám osmosis? >>>> >>>> [1] >>>> http://lists.openstreetmap.org/pipermail/talk-cz/2010-January/004310.html >>>> >>>> On Sun, 24 Jan 2010 02:08:17 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >>>> wrote: >>>> >>>>> Ahoj, udělal jsem si utilitku pro vyjmutí části území ze souboru *.osm >>>>> mapy katastrálních území >>>>> http://lkabrt.aspone.cz/osm/kucr.zip. >>>>> Třeba se také někomu bude hodit (ať již jako binárka nebo zdroják k >>>>> zakomentování do celku). >>>>> >>>>> Upozorňuji, že nejde o nic obecného (i když by to možná zobecnit šlo), >>>>> ale je to dělané na míru tomuto souboru. Rychlost nemám s čím >>>>> porovnat, na mém stroji to trvá tak 10 sekund. Dělá to všechno v >>>>> paměti, takže to zabere pro daný konkrétní soubor asi 260 MB RAM. >>>>> Používá to XmlTextReader a XmlTextWriter místo LINQ. >>>>> >>>>> Zadá se vstupní soubor, výstupní soubor a obdélník (north, west, >>>>> south, east). Výsledný soubor obsahuje všechny >>>>> nodes, ways a relations, které alespoň jedním nodem zasahují do daného >>>>> obdélníku. >>>>> >>>>> Příklad použití: >>>>> ExtractBoundingBox.exe -north 50.50 -west 16.10278129 -south 50.49 >>>>> -east 16.123 -input "kucr-jmena.osm" -output kucr-part.osm >>>>> >>>>> Ke stažení: >>>>> http://jabi.aspone.cz/osm/ExtractBoundingBox-bin.rar (binárka pro >>>>> .NET) >>>>> http://jabi.aspone.cz/osm/ExtractBoundingBox-src.rar (zdrojáky v C#) >>>>> >>>>> Použil jsem k tomu parser parametrů z CUZK.Common.dll, snad autor >>>>> nebude >>>>> proti. >>>>> >>>>> Honza >>>>> >>>>> _______________________________________________ >>>>> Talk-cz mailing list >>>>> Talk-cz na openstreetmap.org >>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>> >>>> >>>> -- >>>> Petr Dlouhý >>>> >>>> _______________________________________________ >>>> Talk-cz mailing list >>>> Talk-cz na openstreetmap.org >>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>> >>> >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Ahoj. K využití dat z ČSÚ ... na stránce: http://www.czso.cz/csu/redakce.nsf/i/zasady_cenove_strategie_v_csu_ se píše: "Veškeré údaje na internetových stránkách ČSÚ si může kdokoliv převzít pro své účely bezplatně, pouze s podmínkou, že uvede jako zdroj ČSÚ. Je doporučováno uvádět i datum, kdy údaje byly převzaty." Pod "svým účelem" si mohu představit kde co ... třeba vytváření open source mapy. Patrně nejde jen o osobní využití, tam by nemělo smysl uvádět zdroj. A ČSÚ má mimo jiné na svých stránkách i mapy ... ale většina věcí je tam stejná s katastrem. Např.: http://apl.czso.cz/irso/mapa.jsp?budId=207400&obrprvId=184459 Honza 2010/1/24 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> Já nemyslel GUI v tom smyslu, že tam bude 5 tlačítek a ty budou > spouštět tyhle skripty. Ale co je třeba dělat? > > Pro adresní body: > - vybrat území, které mne zajímá (zajímavá informace zde bude, co už > je hotové a co nikoli ... zatím není skoro nic, ale časem...) > - automaticky stáhnou potřebná data (mapování, adresy, hranice kat. > území, dlaždice) a OCRovat > - pak je třeba manuální kontrola mapování, adres, výsledku OCRu - > zejména pro kontrolu OCRu se hodí možnost v GUI si zobrazit daný text > v podobě výřezu obrázku (zcela automaticky, aniž bych musel něco > složitě někde hledat či zadávát) > - automaticky provést mergování > - opět kontrola výsledků > - ... > > Pro zakreslování domů to bude také zajímavé ... nějaké poloautomatický > rozpoznávání obrysů, možnost korektur, ověřování na fotomapě, ruční > zakreslení budov, návaznost na adresní body, ... > > Možnosti pluginů do JOSM neznám, zatím ani Czechadress. Ale nemyslím, > že bude jednoduché to do toho nějak vhodně napasovat, aby s tím šlo > pohodlně pracovat. Přecijen republika je velká a tak zpracování takové > velké oblasti dá mnoho práce. Takže investice do co nejpohodlnějšího > GUI pro práci se vyplatí. Čím jednodušší to bude, tím více lidí se do > toho zapojí. Určitě jsou lidi, kteří by do toho šli, ale je to na ně > moc složité. Jak jsem pochopil, tak zatím na tom dělají vlastně jen > programátoři (nebo alespoň převážně). Přitom je tam spousta manuální > práce, která z principu programátorské schopnosti nevyžaduje, pokud by > bylo nějaké rozumné programové vybavení. > > Co je podle tebe třeba teď dělat? Mapovací soubor apod. je krátkodobý > cíl. Myslím alespoň ze střednědobého pohledu. > > Honza > > > 2010/1/24 Petr Dlouhý <petr.dlouhy na email.cz>: >> Co se týče skriptů, tak myslím, že je třeba se vydat jinou cestou. >> Pokud to jde alespoň trochu jednoduše udělat, tak by ten skript měl >> dokázat pracovat s celou mapou katastrálních území. Nemůže být problém z >> toho souboru vytáhnout pouze ty relace (ty moc nezabírají), a hranice >> tahat jen podle potřeby. >> Pokud se navíc vytvoří mapovací soubor pro celou ČR, tak to celý proces >> výrazně zjednoduší. Pro to není potřeba žádné GUI, manuální práce na >> začištění ale asi bude potřeba vždy. >> >> Co se týče pozdějších manuálních, tak na to existuje Czechaddress plugin >> do JOSM. Takže vlastně GUI. >> >> On Sun, 24 Jan 2010 02:27:55 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >> wrote: >> >>> A hlavně mým cílem je, aby celý proces byl poměrně jednoduchý ... >>> integrovaný časem do nějaké GUI, protože i když, jak tady někdo psal, >>> se to může zdát jako jednorázový proces, tak >>> >>> a) je natolik pracný, že je třeba distribuovat mezi více lidí (teď >>> nemyslím jen adresní body, ale tahání informací z katastrálních map) >>> b) informace v katastru se mění (aktualizují), takže čím více bude >>> proces automatický, tím lepší pro pozdější aktualizace >>> >>> Přecijen tohle mi přijde snadněji použitelné (i když nechci tvrdit, že >>> tam to je nějak extra složité - nevím. >>> >>> Honza >>> >>> >>> 2010/1/24 Jan Bilak <jan.bilak.osm na gmail.com>: >>>> Asi ano, ale kdyz jsem osmosis zkousel, tak vzdycky spadnul na nejakou >>>> podovnou vyjimku. Pak jsem v rychlosti dospel k zaveru, ze asi ke sve >>>> cinnosti potrebuje nejakou DB (PostreSQL apod.) ... a to se mi >>>> nechtelo instalovat ... ale treba je to spatny zaver. Moc jsem to >>>> nezkoumal. >>>> >>>> Honza >>>> >>>> >>>> 2010/1/24 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>> Není to trochu nově vynalezené kolo, když tu mám osmosis? >>>>> >>>>> [1] >>>>> http://lists.openstreetmap.org/pipermail/talk-cz/2010-January/004310.html >>>>> >>>>> On Sun, 24 Jan 2010 02:08:17 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >>>>> wrote: >>>>> >>>>>> Ahoj, udělal jsem si utilitku pro vyjmutí části území ze souboru *.osm >>>>>> mapy katastrálních území >>>>>> http://lkabrt.aspone.cz/osm/kucr.zip. >>>>>> Třeba se také někomu bude hodit (ať již jako binárka nebo zdroják k >>>>>> zakomentování do celku). >>>>>> >>>>>> Upozorňuji, že nejde o nic obecného (i když by to možná zobecnit šlo), >>>>>> ale je to dělané na míru tomuto souboru. Rychlost nemám s čím >>>>>> porovnat, na mém stroji to trvá tak 10 sekund. Dělá to všechno v >>>>>> paměti, takže to zabere pro daný konkrétní soubor asi 260 MB RAM. >>>>>> Používá to XmlTextReader a XmlTextWriter místo LINQ. >>>>>> >>>>>> Zadá se vstupní soubor, výstupní soubor a obdélník (north, west, >>>>>> south, east). Výsledný soubor obsahuje všechny >>>>>> nodes, ways a relations, které alespoň jedním nodem zasahují do daného >>>>>> obdélníku. >>>>>> >>>>>> Příklad použití: >>>>>> ExtractBoundingBox.exe -north 50.50 -west 16.10278129 -south 50.49 >>>>>> -east 16.123 -input "kucr-jmena.osm" -output kucr-part.osm >>>>>> >>>>>> Ke stažení: >>>>>> http://jabi.aspone.cz/osm/ExtractBoundingBox-bin.rar (binárka pro >>>>>> .NET) >>>>>> http://jabi.aspone.cz/osm/ExtractBoundingBox-src.rar (zdrojáky v C#) >>>>>> >>>>>> Použil jsem k tomu parser parametrů z CUZK.Common.dll, snad autor >>>>>> nebude >>>>>> proti. >>>>>> >>>>>> Honza >>>>>> >>>>>> _______________________________________________ >>>>>> Talk-cz mailing list >>>>>> Talk-cz na openstreetmap.org >>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>> >>>>> >>>>> -- >>>>> Petr Dlouhý >>>>> >>>>> _______________________________________________ >>>>> Talk-cz mailing list >>>>> Talk-cz na openstreetmap.org >>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>> >>>> >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >> >> >> -- >> Petr Dlouhý >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> >

Háček je v tom "bezplatně". U OSM nikdo nezakazuje, aby byla data prodávána. Je otázka, zdali se ale nejedná o úřední dílo - v tom případě by si ČSÚ takové podmínky diktovat asi nemohl. On Sun, 24 Jan 2010 04:46:05 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> > "Veškeré údaje na internetových stránkách ČSÚ si může kdokoliv převzít > pro své účely bezplatně, pouze s podmínkou, že uvede jako zdroj ČSÚ. > Je doporučováno uvádět i datum, kdy údaje byly převzaty."

-- Petr Dlouhý

On Sun, 24 Jan 2010 03:54:13 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Já nemyslel GUI v tom smyslu, že tam bude 5 tlačítek a ty budou > spouštět tyhle skripty. Ale co je třeba dělat?

Já vidím zatím největší problém ve výpočetní náročnosti celého procesu (mé velmi hrubé odhady se pohybují od 50 do 100 hodin jenom pro 2. fázi). Možná by bylo lepší udělat něco ve stylu Seti na home - rozdělit republiku na čtverce rozumné velikosti (zpracování ~1 hodina). Program by si zjistil, které území ještě chybí, a uploadnul někam by výsledné soubory (asi ty 3 .osm + .csv). Až by to bylo hotové, tak by se to rozsekalo na menší celky (například ORP), a lidi by to mohli manuálně kontrolovat a uploadovat. Manuální kontrolu jde bez problému provést v JOSM, dokonce i původní OCRkovaný text je tam vidět. Kontrola by taky šla zvýšit vytvořěním nějaké stránky ve stylu <http://tools.geofabrik.de/osmi/>, která by porovnávala databáze adres s OSM. Dlouhodobé hledisko bych příliš neřešil, protože další korekce adresních bodů proběhne nejdříve za rok, a to může být situace úplně jiná (může být dostupná nějaká dostupná databáze, WMS katastrálního úřadu se může změnit, ...). zobrazit citaci

> > Pro adresní body: > - vybrat území, které mne zajímá (zajímavá informace zde bude, co už > je hotové a co nikoli ... zatím není skoro nic, ale časem...) > - automaticky stáhnou potřebná data (mapování, adresy, hranice kat. > území, dlaždice) a OCRovat > - pak je třeba manuální kontrola mapování, adres, výsledku OCRu - > zejména pro kontrolu OCRu se hodí možnost v GUI si zobrazit daný text > v podobě výřezu obrázku (zcela automaticky, aniž bych musel něco > složitě někde hledat či zadávát) > - automaticky provést mergování > - opět kontrola výsledků > - ... >

Zakreslování domů je, myslím, úplně jiná pohádka. Ta mapa je složená z částí, které byli kresleny ručně snad ještě za Rakouska Uherska a z částí, které vznikly renderingem vektorové KM. Nevím také, jak je to s dostupností vektorové KM. Návaznost na adresní body bych moc neřešil, jinak moc nevím, jak to udělat. Asi bych ale asi nedělal vlastní GUI, ale řešil to taky formou pluginu do JOSM, protože s tím umí pracovat asi nejvíc lidí a už je tam plno nástrojů implementovaných. zobrazit citaci

> Pro zakreslování domů to bude také zajímavé ... nějaké poloautomatický > rozpoznávání obrysů, možnost korektur, ověřování na fotomapě, ruční > zakreslení budov, návaznost na adresní body, ... >

Czechadress je určen na manuální dolaďování adres s pomocí databáze MVČR (tedy byl určen i na hromadné zanášení bodů, ale to teď odpadá). zobrazit citaci

> Možnosti pluginů do JOSM neznám, zatím ani Czechadress. Ale nemyslím, > že bude jednoduché to do toho nějak vhodně napasovat, aby s tím šlo > pohodlně pracovat. Přecijen republika je velká a tak zpracování takové > velké oblasti dá mnoho práce. Takže investice do co nejpohodlnějšího > GUI pro práci se vyplatí. Čím jednodušší to bude, tím více lidí se do > toho zapojí. Určitě jsou lidi, kteří by do toho šli, ale je to na ně > moc složité. Jak jsem pochopil, tak zatím na tom dělají vlastně jen > programátoři (nebo alespoň převážně). Přitom je tam spousta manuální > práce, která z principu programátorské schopnosti nevyžaduje, pokud by > bylo nějaké rozumné programové vybavení.

Vyřešit poloautomatické rozpoznávání budov z katastrální mapy by bylo jistě přínosné. Chce to ale prozkoumat všechny možnosti (vektorová KM, není mi moc jasné jak by to mělo fungovat). Pak je tady spousta dalších věcí: -Export mapových značek z Wiki do XML (pro možnosti dalšího vytváření -Kontrolor relací (seznam relací ve stylu [1] + historie) -Kontrolor všeho možného co ještě kontrolováno není -Dodělání paralelních turistických tras ve stylu seznam.cz do Mapniku (Osmarenderu) -Další práce na OpenTrackMap -Další renderery věcí, které ještě renderovány nejsou [1] http://wiki.openstreetmap.org/wiki/Cyklotrasy_v_ČR zobrazit citaci

> Co je podle tebe třeba teď dělat? Mapovací soubor apod. je krátkodobý > cíl. Myslím alespoň ze střednědobého pohledu. > > Honza >

-- Petr Dlouhý

Pardon, myslel jsem dní. On Sun, 24 Jan 2010 08:46:16 +0100, Petr Dlouhý <petr.dlouhy na email.cz> wrote: zobrazit citaci

> (mé velmi hrubé odhady se pohybují od 50 do 100 hodin jenom pro 2. fázi).

-- Petr Dlouhý

zobrazit citaci

> Asi ano, ale kdyz jsem osmosis zkousel, tak vzdycky spadnul na nejakou > podovnou vyjimku. Pak jsem v rychlosti dospel k zaveru, ze asi ke sve > cinnosti potrebuje nejakou DB (PostreSQL apod.) ... a to se mi > nechtelo instalovat ... ale treba je to spatny zaver. Moc jsem to > nezkoumal.

Urcite funguje i bez DB. pouzivam vyvojovou verzi 0.33 [1] a funguje bez problemu. Musel jsem ale pouzit soubor osmosis.bat z predchozi verze a dopnit do promenne EXEC pridat chybejci knihovnu commons-compress-1.0.jar [1] http://dev.openstreetmap.de:23457/hudson/job/osmosis-SNAPSHOT-ant/lastSuccessfulBuild/artifact/trunk/dist/ -- Lukas

zobrazit citaci

> Co se týče skriptů, tak myslím, že je třeba se vydat jinou cestou. > Pokud to jde alespoň trochu jednoduše udělat, tak by ten skript měl > dokázat pracovat s celou mapou katastrálních území.

Problem to neni. Kdyz jsem program vytvarel, tak jsem nevedel o tom, ze existuje vektorizovana mapa k.u. a tak jsem k.u. kreslil rucne. Vzdycky jen par k.u., ktere jsem chtel zpracovat. Takze me rychlost zpracovani OSM souboru nejak netrapila. Na vektorizovanou mapu jsem narazil az kdyz jsem mel program hotovy a jeste jsem se nedostal k tomu ho predelat - dalsi polozka do TODO listu :-) Koukal jsem, ze by sla pouzit knihovna pro praci s OSM soubory z programu Kosmos [1], takze s tim nakonec asi ani nebude tolik prace. [1] http://wiki.openstreetmap.org/wiki/Kosmos -- Lukas

zobrazit citaci

> Pardon, myslel jsem dní. > > On Sun, 24 Jan 2010 08:46:16 +0100, Petr Dlouhý <petr.dlouhy na email.cz> > wrote: > >> (mé velmi hrubé odhady se pohybují od 50 do 100 hodin jenom pro 2. fázi).

Jestli myslis cisteho vypocetniho casu, tak bych rekl, ze je to pesimisticky odhad. Podle toho, jak rychle probiha vypocet u me, bych to odhadnul na 30 - 50 dni. Limitujici je tady rychlost procesoru. Nedavno jsem zkousel oblast cca 20 x 25 km a rozpoznavani bezelo neco pres 5 hodin. Muj pocitac pritom neni zadne "delo" - Intel Core2 Duo @ 2Ghz. -- Lukas

To docela odpovídá. Já mám počítač ještě pomalejší, jednojádrový a podle něj jsem to odhadoval. Každopádně je to poměrně dost, a chtělo by to možná zapojit i ty, kdo mají dost procesorového a málo osobního času. On Sun, 24 Jan 2010 10:53:38 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> Jestli myslis cisteho vypocetniho casu, tak bych rekl, ze je to > pesimisticky odhad. Podle toho, jak rychle probiha vypocet u me, bych > to odhadnul na 30 - 50 dni. Limitujici je tady rychlost procesoru. > Nedavno jsem zkousel oblast cca 20 x 25 km a rozpoznavani bezelo neco > pres 5 hodin. Muj pocitac pritom neni zadne "delo" - Intel Core2 Duo @ > 2Ghz.

-- Petr Dlouhý

Mam malo osobniho casu, ale jsem schopen pripravit virtualni masinu s debianem pro zajemce, ktery to uchodi. Je tam 2x2.8GHz XEON a 4GB pameti. Pokud by to pomohlo... K Dne 24.1.2010 10:58, Petr Dlouhý napsal(a): zobrazit citaci

> To docela odpovídá. Já mám počítač ještě pomalejší, jednojádrový a podle > něj jsem to odhadoval. > Každopádně je to poměrně dost, a chtělo by to možná zapojit i ty, kdo mají > dost procesorového a málo osobního času. > > On Sun, 24 Jan 2010 10:53:38 +0100, Lukas Kabrt<lukas na kabrt.cz> wrote: > > >> Jestli myslis cisteho vypocetniho casu, tak bych rekl, ze je to >> pesimisticky odhad. Podle toho, jak rychle probiha vypocet u me, bych >> to odhadnul na 30 - 50 dni. Limitujici je tady rychlost procesoru. >> Nedavno jsem zkousel oblast cca 20 x 25 km a rozpoznavani bezelo neco >> pres 5 hodin. Muj pocitac pritom neni zadne "delo" - Intel Core2 Duo @ >> 2Ghz. >> > >

Ahoj, já bych se klidně přidal. Pendluju mezi 2jádrem a 3jádrem, obě poměrně výkonné a málo využité :-) Výkon teď věnuju tiles na home, ale v tomhle vidím větší smysl. Stačilo by, kdyby nás bylo pár, a do dvou týdnů bysme to měli :-) Program by měl jít ale přerušit a znova obnovit, neměl by to být jeden velký cyklus, aby šlo přecházet mezi počítači. Jinak jak tu tak sleduju diskusi, tak velice chválím vaše počiny :-) Aleš Janda On 24.1.2010 10:58, Petr Dlouhý napsal/a: zobrazit citaci

> To docela odpovídá. Já mám počítač ještě pomalejší, jednojádrový a podle > něj jsem to odhadoval. > Každopádně je to poměrně dost, a chtělo by to možná zapojit i ty, kdo mají > dost procesorového a málo osobního času. > > On Sun, 24 Jan 2010 10:53:38 +0100, Lukas Kabrt<lukas na kabrt.cz> wrote: > >> Jestli myslis cisteho vypocetniho casu, tak bych rekl, ze je to >> pesimisticky odhad. Podle toho, jak rychle probiha vypocet u me, bych >> to odhadnul na 30 - 50 dni. Limitujici je tady rychlost procesoru. >> Nedavno jsem zkousel oblast cca 20 x 25 km a rozpoznavani bezelo neco >> pres 5 hodin. Muj pocitac pritom neni zadne "delo" - Intel Core2 Duo @ >> 2Ghz. > >

Na OCR by paměť není moc potřeba. Klidně to tam rozběhnu. On Sun, 24 Jan 2010 11:09:38 +0100, Kubajz <kubajz na kbx.cz> wrote: zobrazit citaci

> Mam malo osobniho casu, ale jsem schopen pripravit virtualni masinu s > debianem pro zajemce, ktery to uchodi. Je tam 2x2.8GHz XEON a 4GB > pameti. Pokud by to pomohlo...

-- Petr Dlouhý

Paměť není moc potřeba, takže to stejně potrvá kolem 20 dní. Klidně to tam rozjedu, ale stejně se to musí rozdělit do čtverců o určité rozloze. On Sun, 24 Jan 2010 11:09:38 +0100, Kubajz <kubajz na kbx.cz> wrote: zobrazit citaci

> Mam malo osobniho casu, ale jsem schopen pripravit virtualni masinu s > debianem pro zajemce, ktery to uchodi. Je tam 2x2.8GHz XEON a 4GB > pameti. Pokud by to pomohlo... > > K > > Dne 24.1.2010 10:58, Petr Dlouhý napsal(a): >> To docela odpovídá. Já mám počítač ještě pomalejší, jednojádrový a podle >> něj jsem to odhadoval. >> Každopádně je to poměrně dost, a chtělo by to možná zapojit i ty, kdo >> mají >> dost procesorového a málo osobního času. >>

-- Petr Dlouhý

Nemyslím si, že je to háček. Mluví se o bezplatném převzetí od ČSÚ (tedy, že není za to třeba platit ČSÚ). Ale nikoli o tom, že by se data nesměla prodávat (bezplatných produktech, kde budou data použita, nekomerční účely apod.). Honza 2010/1/24 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Háček je v tom "bezplatně". U OSM nikdo nezakazuje, aby byla data > prodávána. Je otázka, zdali se ale nejedná o úřední dílo - v tom případě > by si ČSÚ takové podmínky diktovat asi nemohl. > > On Sun, 24 Jan 2010 04:46:05 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > >> >> "Veškeré údaje na internetových stránkách ČSÚ si může kdokoliv převzít >> pro své účely bezplatně, pouze s podmínkou, že uvede jako zdroj ČSÚ. >> Je doporučováno uvádět i datum, kdy údaje byly převzaty." > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Já myslím, že hodně času žere spouštění nového procesu pro OCR. Pokud lze OCRu předhodit obrázek, který bude obsahovat více textů (a pak rozpoznat, co je co), nebo mu předhodit více obrázků (vícestránkový dokument), tak by to mohlo jít rychleji. Přecijen OCRka se běžně použivají na čtení hustého textu na A4 a s rozpoznání trvá chvilku. Honza Dne 24. ledna 2010 10:53 Lukas Kabrt <lukas na kabrt.cz> napsal(a): zobrazit citaci

>> Pardon, myslel jsem dní. >> >> On Sun, 24 Jan 2010 08:46:16 +0100, Petr Dlouhý <petr.dlouhy na email.cz> >> wrote: >> >>> (mé velmi hrubé odhady se pohybují od 50 do 100 hodin jenom pro 2. fázi). > > Jestli myslis cisteho vypocetniho casu, tak bych rekl, ze je to > pesimisticky odhad. Podle toho, jak rychle probiha vypocet u me, bych > to odhadnul na 30 - 50 dni. Limitujici je tady rychlost procesoru. > Nedavno jsem zkousel oblast cca 20 x 25 km a rozpoznavani bezelo neco > pres 5 hodin. Muj pocitac pritom neni zadne "delo" - Intel Core2 Duo @ > 2Ghz. > > -- > Lukas > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Tady je .NETí wrapper nad DLL. Ale píší tam, že Tesseract má memory leaky, takže to čas o času spadne. Ale nějaké dávky (více popisků najednou) by to mohlo zvládnout. http://www.pixel-technology.com/freeware/tessnet2/ Honza 2010/1/24 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> Já myslím, že hodně času žere spouštění nového procesu pro OCR. Pokud > lze OCRu předhodit obrázek, který bude obsahovat více textů (a pak > rozpoznat, co je co), nebo mu předhodit více obrázků (vícestránkový > dokument), tak by to mohlo jít rychleji. Přecijen OCRka se běžně > použivají na čtení hustého textu na A4 a s rozpoznání trvá chvilku. > > Honza > > > Dne 24. ledna 2010 10:53 Lukas Kabrt <lukas na kabrt.cz> napsal(a): >>> Pardon, myslel jsem dní. >>> >>> On Sun, 24 Jan 2010 08:46:16 +0100, Petr Dlouhý <petr.dlouhy na email.cz> >>> wrote: >>> >>>> (mé velmi hrubé odhady se pohybují od 50 do 100 hodin jenom pro 2. fázi). >> >> Jestli myslis cisteho vypocetniho casu, tak bych rekl, ze je to >> pesimisticky odhad. Podle toho, jak rychle probiha vypocet u me, bych >> to odhadnul na 30 - 50 dni. Limitujici je tady rychlost procesoru. >> Nedavno jsem zkousel oblast cca 20 x 25 km a rozpoznavani bezelo neco >> pres 5 hodin. Muj pocitac pritom neni zadne "delo" - Intel Core2 Duo @ >> 2Ghz. >> >> -- >> Lukas >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> >

Ahoj, stačí použít Dictionary, a už to funguje rozumě rychle (i když celá ČR asi ještě ne - po minutě mi zabrala celou paměť). Opravil jsem i pády při chybějících relacích, i když oprava je dost quick&dirty. Posílám zdrojáky změněných souborů i funkční program. On Sun, 24 Jan 2010 10:37:08 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> > Problem to neni. Kdyz jsem program vytvarel, tak jsem nevedel o tom, > ze existuje vektorizovana mapa k.u. a tak jsem k.u. kreslil rucne. > Vzdycky jen par k.u., ktere jsem chtel zpracovat. Takze me rychlost > zpracovani OSM souboru nejak netrapila. Na vektorizovanou mapu jsem > narazil az kdyz jsem mel program hotovy a jeste jsem se nedostal k > tomu ho predelat - dalsi polozka do TODO listu :-) > > Koukal jsem, ze by sla pouzit knihovna pro praci s OSM soubory z > programu Kosmos [1], takze s tim nakonec asi ani nebude tolik prace. > > [1] http://wiki.openstreetmap.org/wiki/Kosmos > -- > Lukas > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý ------------- další část --------------- A non-text attachment was scrubbed... Name: CUZK.MergeDBWithPoints1.tar.gz Type: application/x-gzip Size: 30465 bytes Desc: [žádný popis není k dispozici] URL: <https://lists.openstreetmap.org/pipermail/talk-cz/attachments/20100124/8dd8ea8c/attachment.bin>

Ahoj, stačí použít Dictionary, a už to funguje rozumě rychle (i když celá ČR asi ještě ne - po minutě mi zabrala celou paměť). Opravil jsem i pády při chybějících relacích, i když oprava je dost quick&dirty. Posílám zdrojáky změněných souborů i funkční program. On Sun, 24 Jan 2010 10:37:08 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> > Problem to neni. Kdyz jsem program vytvarel, tak jsem nevedel o tom, > ze existuje vektorizovana mapa k.u. a tak jsem k.u. kreslil rucne. > Vzdycky jen par k.u., ktere jsem chtel zpracovat. Takze me rychlost > zpracovani OSM souboru nejak netrapila. Na vektorizovanou mapu jsem > narazil az kdyz jsem mel program hotovy a jeste jsem se nedostal k > tomu ho predelat - dalsi polozka do TODO listu :-) > > Koukal jsem, ze by sla pouzit knihovna pro praci s OSM soubory z > programu Kosmos [1], takze s tim nakonec asi ani nebude tolik prace. > > [1] http://wiki.openstreetmap.org/wiki/Kosmos > -- > Lukas > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý ------------- další část --------------- A non-text attachment was scrubbed... Name: CUZK.MergeDBWithPoints.tar.gz Type: application/x-gzip Size: 20594 bytes Desc: [žádný popis není k dispozici] URL: <https://lists.openstreetmap.org/pipermail/talk-cz/attachments/20100124/d6bf63aa/attachment.bin>

zobrazit citaci

> Nemyslím si, že je to háček. Mluví se o bezplatném převzetí od ČSÚ > (tedy, že není za to třeba platit ČSÚ). Ale nikoli o tom, že by se > data nesměla prodávat (bezplatných produktech, kde budou data použita, > nekomerční účely apod.).

*** take to tak vnimam, zvlaste po rozhovorech s VUV TGM... Oni neco jako open source neznaji a nemluvi k nemu. hanoj

zobrazit citaci

> A ČSÚ má mimo jiné na svých stránkách i mapy ... ale většina věcí je > tam stejná s katastrem. Např.: > http://apl.czso.cz/irso/mapa.jsp?budId=207400&obrprvId=184459

*** ty mapy jsou mashup. Velka cast se taha z CUZK! hanoj

Dne Ne 24. ledna 2010 Petr Dlouhý napsal(a): zobrazit citaci

> To docela odpovídá. Já mám počítač ještě pomalejší, jednojádrový a podle > něj jsem to odhadoval. > Každopádně je to poměrně dost, a chtělo by to možná zapojit i ty, kdo mají > dost procesorového a málo osobního času.

já se taky hlásím, jestli je to ještě aktuální ... Core i5, bohužel s KVM mi qemu řve, že umí jen jeden procesor, a bez KVM je to neskutečně pomalé ... ale jestli se to dá rozumně rozdělit, klidně si ty virtuální mašiny pustím tři :) K.

OK, takže rozumě automaticky jdou udělat první dva kroky - třetí krok je taky možný, ale jen pro ta území, která není nutné manuálně rozdělovat. Chtělo by to tedy určit rozumě velkou jednotu zpracování - oblast jejíž zpracování trvá zpracovat nějaký rozumný čas (např. 1 hodinu). Dále pak vytvořit skripty, které budou volat ty programy. Klidně takový skript pro Linux vytvořím, když budu znát velikost jednotky. Jinak to Qemu je kvůli bezpečnosti? Ten program totiž jinak na Linuxu chodí. zobrazit citaci

> ------------ Původní zpráva ------------ > Od: Karel Volný <kavol na seznam.cz> > Předmět: Re: [Talk-cz] Import adres z katastralni mapy > Datum: 26.1.2010 10:50:35 > ---------------------------------------- > Dne Ne 24. ledna 2010 Petr Dlouhý napsal(a): > > To docela odpovídá. Já mám počítač ještě pomalejší, jednojádrový a podle > > něj jsem to odhadoval. > > Každopádně je to poměrně dost, a chtělo by to možná zapojit i ty, kdo mají > > dost procesorového a málo osobního času. > > já se taky hlásím, jestli je to ještě aktuální ... Core i5, bohužel s KVM mi > qemu řve, že umí jen jeden procesor, a bez KVM je to neskutečně pomalé ... ale > jestli se to dá rozumně rozdělit, klidně si ty virtuální mašiny pustím tři :) > > K. > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz > > >

Petr Dlouhý petr.dlouhy na email.cz

... zobrazit citaci

> Jinak to Qemu je kvůli bezpečnosti? Ten program totiž jinak na Linuxu > chodí.

tak nějak ... a kvůli pohodlí s tím, jak hladce nyní virtualizace jde, jsem si nějak navykl rozcházet věci na čisté instalaci (např. pokud si nebudu chtít nabít hubu jako o Vánocích s OTM, není nic jednoduššího než nahodit virtualizované Ubuntu nebo na čem autor postup vyladil, zatímco na desktopu mi dál bude spokojeně chroupat Gentoo); navíc jde-li o něco, co trvá déle a nelze přerušit, není třeba mít reálný stroj pořád online, virtuální se dá v mezičase zmrazit K.

On Thu 2010-01-21 16:50:15, Lukas Kabrt wrote: zobrazit citaci

> Tak jsem trochu zapracoval na mape katastralnich uzemi, aby se k.u. > nemuseli kreslit rucne. > > Vektorizovanou mapu k.u. od hanoje [1] jsem zacistil (slouceni > duplicitnich bodu, odtraneni fragmentu po vektorizaci, pospojovani > prerusenych linii) a vytvoril na ni relace pro jednotliva k.u. > > Mapu jsem dal dohromady s daty co mi poslal Martin Kupec (nazvy > katastralnich uzemi a jejich poloha). Vysledek je ke stazeni tady [2]. > > Trocha statistiky: > CR ma 13027 k.u. > Martin mi poslal data pro 12171 k.u. > Mapa ma definovano 13028 relaci > > Mapa je jenom prozatmni, pri prirazeni se vyskytly nejake chyby (vic > nazvu pro jedno k.u., jedna se ale o jednotky, max. desitky pripadu) > To bych resil az budou hotova data pro vsechy k.u. Stejne tak je v > mape 1 relace navic - pravdepodobne nekde zustal nejaky fragment, ten > se taky objevi, az se priradi vsechny nazvy. > > Pokud se nekdo pousti do importu adres, tak mu tohle snad usetri trochu casu. > > [1] http://osm.templ.net/kucr.osm.bz2 > [2] http://lkabrt.aspone.cz/osm/kucr.zip

Jaky je dalsi plan? Upload do osm? Nebo se jeste budou nejak cistit? Pavel -- (english) http://www.livejournal.com/~pavelmachek (cesky, pictures) http://atrey.karlin.mff.cuni.cz/~pavel/picture/horses/blog.html

Čti dál: http://lists.openstreetmap.org/pipermail/talk-cz/2010-January/004354.html zobrazit citaci

> ------------ Původní zpráva ------------ > Od: Pavel Machek <pavel na ucw.cz> > Předmět: Re: [Talk-cz] Import adres z katastralni mapy > Datum: 26.1.2010 14:58:51 > ---------------------------------------- > On Thu 2010-01-21 16:50:15, Lukas Kabrt wrote: > > Tak jsem trochu zapracoval na mape katastralnich uzemi, aby se k.u. > > nemuseli kreslit rucne. > > > > Vektorizovanou mapu k.u. od hanoje [1] jsem zacistil (slouceni > > duplicitnich bodu, odtraneni fragmentu po vektorizaci, pospojovani > > prerusenych linii) a vytvoril na ni relace pro jednotliva k.u. > > > > Mapu jsem dal dohromady s daty co mi poslal Martin Kupec (nazvy > > katastralnich uzemi a jejich poloha). Vysledek je ke stazeni tady [2]. > > > > Trocha statistiky: > > CR ma 13027 k.u. > > Martin mi poslal data pro 12171 k.u. > > Mapa ma definovano 13028 relaci > > > > Mapa je jenom prozatmni, pri prirazeni se vyskytly nejake chyby (vic > > nazvu pro jedno k.u., jedna se ale o jednotky, max. desitky pripadu) > > To bych resil az budou hotova data pro vsechy k.u. Stejne tak je v > > mape 1 relace navic - pravdepodobne nekde zustal nejaky fragment, ten > > se taky objevi, az se priradi vsechny nazvy. > > > > Pokud se nekdo pousti do importu adres, tak mu tohle snad usetri trochu casu. > > > > [1] http://osm.templ.net/kucr.osm.bz2 > > [2] http://lkabrt.aspone.cz/osm/kucr.zip > > Jaky je dalsi plan? Upload do osm? Nebo se jeste budou nejak cistit? > > Pavel > > -- > (english) http://www.livejournal.com/~pavelmachek > (cesky, pictures) > http://atrey.karlin.mff.cuni.cz/~pavel/picture/horses/blog.html > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz > > >

Petr Dlouhý petr.dlouhy na email.cz

Provedl jsem par zmen v programu tile-processor, binarky [1] i zdrojove kody [2] muzete stahovat z mych stranek. Hlavni zmeny: rychlost - OCR utitlita se ted spousti pouze jednou pro kazdou dlazdici - prineslo to cca dvojnasobnou rychlost zpracovani drobne zvyseni presnosti - presnejsi orez popisku a vynechani budov blizko praveho okraje (tak jak navrhoval Petr Dlouhy) pridano logovani cinnosti osetreni chyb - program by se ted mel byt schopny zotavit z vetsiny chyb, pouze zaloguje co se stalo a pokracuje v cinnosti V binarkach jsou dve verze tile processoru - jedna pro LINUX s upravou od Petra Dlouheho ([3], bod 2), druha bez ni. Nechal jsem dve verze, protoze u me verze s upravou dava o neco horsi vysledky pri OCR (cca o 1 - 2% vice chyb) Progam jsem zkousel na platforme Win/.NET a Win/MONO a funguji bez problemu. Nekoho bych poprosil aby vyzkousel jestli neni nejaky problem na Linuxu. Distribuovane pocitani Diky vsem, kteri se ozvali a nabidli se, ze pomuzou s vypoctem. Rozdelil jsem CR na dlazdice 0.2 x 0.2 stupne, celkem je to 302 dlazdic. Hranice jsou definovany v CSV souboru [4], prilozena je i prehledova mapka. Zpracovani jedne dlazdice by se melo vejit do 1 hodiny. CSV soubor ma nasledujici format ID,sever,vychod,jih,zapad Pro koordinaci jsem na wiki zalozil stranku [5]. Pokud se rozhodnete pomoct, zapiste na wiki, jake dlazdice zpracujete - at se neco nepocita vicekrat. Dlazdice prosim vybirejte postupne, at v tom neni zmatek. Moje idea dalsiho postupu je takova, ze vysledky vypoctu (CSV a LOG soubory) zpracuju, pripadne opravim data na mistech, kde se vyskytnul nejaky error a vysledek umistim nekde na web k dalsimu vyuziti pro import adres. Postup 1) na wiki napsat dlazdice, ktere se chystam zpracovat 2) ze souboru [4] zjistit hranice dlazdic 3) stahnout data z WMS CUZK tile-downloader.exe -north [sever] -west [zapad] -south [jih] -east [vychos] -addressPoints -output [ID-Dlazdice] 4) zpracovat dlazdici tile-processor.exe -tiles [ID-Dlazdice] - output [ID-Dlazdice].csv 5) zabalit vytvorene soubory (CSV a LOG) a vysledek nekam uplodovat nebo zaslat na mail osm na kabrt.cz [1] http://lkabrt.aspone.cz/osm/cuzk.zip [2] http://lkabrt.aspone.cz/osm/cuzk-source.zip [3] http://lists.openstreetmap.org/pipermail/talk-cz/2010-January/004312.html [4] http://lkabrt.aspone.cz/osm/oblasti.zip [5] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR/Prubeh_Zpracovani -- Lukas

Ahoj, nebylo by lepší ukládat a přibalit potom k výsledku i kousky mapy s těmi čísly? Zrychlila by se ruční kontrola, zda to OCR rozpoznal správně. Aneb bylo by možné pak jednoduše třeba zobrazit číslo v textové podobě a vedle číslo v obrázkové podobě. A stejně už se to stahuje, ořezává, ... jen to ukládat. Honza 2010/1/26 Lukas Kabrt <lukas na kabrt.cz>: zobrazit citaci

> Provedl jsem par zmen v programu tile-processor, binarky [1] i > zdrojove kody [2] muzete stahovat z mych stranek. > > Hlavni zmeny: > rychlost - OCR utitlita se ted spousti pouze jednou pro kazdou > dlazdici - prineslo to cca dvojnasobnou rychlost zpracovani > drobne zvyseni presnosti - presnejsi orez popisku a vynechani budov > blizko praveho okraje (tak jak navrhoval Petr Dlouhy) > pridano logovani cinnosti > osetreni chyb - program by se ted mel byt schopny zotavit z vetsiny > chyb, pouze zaloguje co se stalo a pokracuje v cinnosti > > V binarkach jsou dve verze tile processoru - jedna pro LINUX s upravou > od Petra Dlouheho ([3], bod 2), druha bez ni. Nechal jsem dve verze, > protoze u me verze s upravou dava o neco horsi vysledky pri OCR (cca o > 1 - 2% vice chyb) > > Progam jsem zkousel na platforme Win/.NET a Win/MONO a funguji bez > problemu. Nekoho bych poprosil aby vyzkousel jestli neni nejaky > problem na Linuxu. > > > Distribuovane pocitani > Diky vsem, kteri se ozvali a nabidli se, ze pomuzou s vypoctem. > > Rozdelil jsem CR na dlazdice 0.2 x 0.2 stupne, celkem je to 302 > dlazdic. Hranice jsou definovany v CSV souboru [4], prilozena je i > prehledova mapka. Zpracovani jedne dlazdice by se melo vejit do 1 > hodiny. > > CSV soubor ma nasledujici format > ID,sever,vychod,jih,zapad > > Pro koordinaci jsem na wiki zalozil stranku [5]. Pokud se rozhodnete > pomoct, zapiste na wiki, jake dlazdice zpracujete - at se neco > nepocita vicekrat. Dlazdice prosim vybirejte postupne, at v tom neni > zmatek. > > Moje idea dalsiho postupu je takova, ze vysledky vypoctu (CSV a LOG > soubory) zpracuju, pripadne opravim data na mistech, kde se vyskytnul > nejaky error a vysledek umistim nekde na web k dalsimu vyuziti pro > import adres. > > Postup > 1) na wiki napsat dlazdice, ktere se chystam zpracovat > 2) ze souboru [4] zjistit hranice dlazdic > 3) stahnout data z WMS CUZK > > tile-downloader.exe -north [sever] -west [zapad] -south [jih] -east > [vychos] -addressPoints -output [ID-Dlazdice] > > 4) zpracovat dlazdici > > tile-processor.exe -tiles [ID-Dlazdice] - output [ID-Dlazdice].csv > > 5) zabalit vytvorene soubory (CSV a LOG) a vysledek nekam uplodovat > nebo zaslat na mail osm na kabrt.cz > > [1] http://lkabrt.aspone.cz/osm/cuzk.zip > [2] http://lkabrt.aspone.cz/osm/cuzk-source.zip > [3] http://lists.openstreetmap.org/pipermail/talk-cz/2010-January/004312.html > [4] http://lkabrt.aspone.cz/osm/oblasti.zip > [5] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR/Prubeh_Zpracovani > -- > Lukas > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Díky za synchronizaci postupu. On Tue, 26 Jan 2010 20:10:09 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: Tomu moc nerozumím, můj postup byl takový, že jsem vyříznul z dlaždice číslo (což by měla být bezestrátová konverze) a potom jsem to zvětšil (což by měla být stejná konverze jako předtím. Postup by mohl být nepatrně náročnější na výpočetní výkon, ale výsledek by snad měl být stejný, ne? Leda že by tam došlo k nějaké ztrátě při převodu mezi různými počty barev - to by šlo asi eliminovat. zobrazit citaci

> V binarkach jsou dve verze tile processoru - jedna pro LINUX s upravou > od Petra Dlouheho ([3], bod 2), druha bez ni. Nechal jsem dve verze, > protoze u me verze s upravou dava o neco horsi vysledky pri OCR (cca o > 1 - 2% vice chyb)

Bohužel Mono pro Win narozdíl od Mona pro Linux používá nativní Windowsové knihovny (Mono pro Linux používá místo nich knihovny Mona), takže se výsledek může lišit. Až se k tomu dostanu, tak to vyzkouším. zobrazit citaci

> Progam jsem zkousel na platforme Win/.NET a Win/MONO a funguji bez > problemu. Nekoho bych poprosil aby vyzkousel jestli neni nejaky > problem na Linuxu.

-- Petr Dlouhý

zobrazit citaci

> Tomu moc nerozumím, můj postup byl takový, že jsem vyříznul z dlaždice > číslo (což by měla být bezestrátová konverze) a potom jsem to zvětšil (což > by měla být stejná konverze jako předtím. Postup by mohl být nepatrně > náročnější na výpočetní výkon, ale výsledek by snad měl být stejný, ne? > Leda že by tam došlo k nějaké ztrátě při převodu mezi různými počty barev > - to by šlo asi eliminovat.

To mas pravdu, asi jsem blbe identifikoval pricinu. Pravy duvod je asi ten, ze ty jsi vyrezy zvetsoval 3x a ja jen 2x. Tesseract si to potom pravdepodobne prebere trochu jinak. Pravdou je, ze obcas lepe zafunguje ta upravena verze. Kdyz to porovnam u nejakeho vetsiho souboru dat, tak to vychazi priblezne 1 az 2% v neprospech upravene verze. -- Lukas

zobrazit citaci

> nebylo by lepší ukládat a přibalit potom k výsledku i kousky mapy s > těmi čísly? Zrychlila by se ruční kontrola, zda to OCR rozpoznal > správně. Aneb bylo by možné pak jednoduše třeba zobrazit číslo v > textové podobě a vedle číslo v obrázkové podobě. A stejně už se to > stahuje, ořezává, ... jen to ukládat.

Technicky to neni zadny problem, ale moc se mi to nelibi 1) Je to spousta dat 2) Kontorlovat se to da dobre v JOSM (nebo v jinem editoru), vcetne doplneni prislusnych addr tagu 3) Stejne vetsina spatne rozpoznanych popisku jsou budovy bez c.p./c.e., jako treba garaze nahustene vedle sebe - v editoru pak jednim pohledem a par kliknutima vyresim treba 30 spatne rozpoznanych napisu najednou -- Lukas

Ok, když jsi schopný to kontrolovat v JOSM, tak není problém. Ale nezapomeň, že toho bude spousta. Honza 2010/1/26 Lukas Kabrt <lukas na kabrt.cz>: zobrazit citaci

>> nebylo by lepší ukládat a přibalit potom k výsledku i kousky mapy s >> těmi čísly? Zrychlila by se ruční kontrola, zda to OCR rozpoznal >> správně. Aneb bylo by možné pak jednoduše třeba zobrazit číslo v >> textové podobě a vedle číslo v obrázkové podobě. A stejně už se to >> stahuje, ořezává, ... jen to ukládat. > > Technicky to neni zadny problem, ale moc se mi to nelibi > 1) Je to spousta dat > 2) Kontorlovat se to da dobre v JOSM (nebo v jinem editoru), vcetne > doplneni prislusnych addr tagu > 3) Stejne vetsina spatne rozpoznanych popisku jsou budovy bez > c.p./c.e., jako treba garaze nahustene vedle sebe - v editoru pak > jednim pohledem a par kliknutima vyresim treba 30 spatne rozpoznanych > napisu najednou > > -- > Lukas > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Při zkusmém zpracování oblasti 4 se zdá že mi nějak nefunguje rozpoznávání. Výsledný csv je prázdný a v logu errory podobné tomuto: [ERROR] Tile: 4\14.8270_50.8700_14.8320_50.8750-budovy.png Could not find file 'E:\cuzk\5d8577a6-a71a-454b-9785-354a446ef9d5.tif.txt'.; přitom stažené obrázky jsou v pořádku, tile processor se tváří že také něco dělá: Performing OCR (25 labels): .Processing tile: 15.0250_51.0185_15.0300_51.0235-budovy .. Performing OCR (4 labels): .Processing tile: 15.0250_51.0230_15.0300_51.0280-budovy . Processing tile: 15.0250_51.0275_15.0300_51.0325-budovy . ale zůstane po něm jen kupa tifů a vysledek nikde. Tak nevím co dělám špatně :)

2010/1/26 Jiri Parkan <jparkan na gmail.com>: zobrazit citaci

> Při zkusmém zpracování oblasti 4 se zdá že mi nějak nefunguje > rozpoznávání. Výsledný csv je prázdný a v logu errory podobné tomuto: > > [ERROR] Tile: 4\14.8270_50.8700_14.8320_50.8750-budovy.png Could not > find file 'E:\cuzk\5d8577a6-a71a-454b-9785-354a446ef9d5.tif.txt'.; > > přitom stažené obrázky jsou v pořádku, tile processor se tváří že také > něco dělá: > > Performing OCR (25 labels): .Processing tile: > 15.0250_51.0185_15.0300_51.0235-budovy .. > Performing OCR (4 labels): .Processing tile: > 15.0250_51.0230_15.0300_51.0280-budovy . > Processing tile: 15.0250_51.0275_15.0300_51.0325-budovy

To vypada, ze nefunguje OCR utilita, muzes vyzkouset spustit rucne? "tesseract jmeno_jednoho_z_tech_tifu output.txt -l cuzk" -- Lukas

Jo, ještě jsem udělal jednu změnu v merge skriptu. Často se stalo, že při OCR evidenčních čísel to vynechalo obě tečky, takže by merge měl rozpoznat i "če70". On Tue, 26 Jan 2010 22:40:31 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> To mas pravdu, asi jsem blbe identifikoval pricinu. Pravy duvod je asi > ten, ze ty jsi vyrezy zvetsoval 3x a ja jen 2x. Tesseract si to potom > pravdepodobne prebere trochu jinak. Pravdou je, ze obcas lepe > zafunguje ta upravena verze. Kdyz to porovnam u nejakeho vetsiho > souboru dat, tak to vychazi priblezne 1 az 2% v neprospech upravene

-- Petr Dlouhý

Sypu si popel na hlavu, nějak jsem opomněl rozbalit adresář testdata. Teď už vše funguje jak má, zítra snad dodám nějaké výsledky. 2010/1/26 Lukas Kabrt <lukas na kabrt.cz>: zobrazit citaci

> 2010/1/26 Jiri Parkan <jparkan na gmail.com>: >> Při zkusmém zpracování oblasti 4 se zdá že mi nějak nefunguje >> rozpoznávání. Výsledný csv je prázdný a v logu errory podobné tomuto: >> >> [ERROR] Tile: 4\14.8270_50.8700_14.8320_50.8750-budovy.png Could not >> find file 'E:\cuzk\5d8577a6-a71a-454b-9785-354a446ef9d5.tif.txt'.; >> >> přitom stažené obrázky jsou v pořádku, tile processor se tváří že také >> něco dělá: >> >> Performing OCR (25 labels): .Processing tile: >> 15.0250_51.0185_15.0300_51.0235-budovy .. >> Performing OCR (4 labels): .Processing tile: >> 15.0250_51.0230_15.0300_51.0280-budovy . >> Processing tile: 15.0250_51.0275_15.0300_51.0325-budovy > > To vypada, ze nefunguje OCR utilita, muzes vyzkouset spustit rucne? > > "tesseract jmeno_jednoho_z_tech_tifu output.txt -l cuzk" > -- > Lukas > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Pro potreby komunity jsem dnes predal pristup Petrovi Dlouhemu na server s 4 x 3.4GHz Xeon s 4GB pameti. Doufam, ze to pomuze k rychlejsimu vyreseni nasich potreb :) K P.S.: Presneji jsou to jen dve dvoujadra Kubajz napsal(a): zobrazit citaci

> Mam malo osobniho casu, ale jsem schopen pripravit virtualni masinu s > debianem pro zajemce, ktery to uchodi. Je tam 2x2.8GHz XEON a 4GB > pameti. Pokud by to pomohlo... > > K > > Dne 24.1.2010 10:58, Petr Dlouhý napsal(a): > >> To docela odpovídá. Já mám počítač ještě pomalejší, jednojádrový a podle >> něj jsem to odhadoval. >> Každopádně je to poměrně dost, a chtělo by to možná zapojit i ty, kdo mají >> dost procesorového a málo osobního času. >> >> On Sun, 24 Jan 2010 10:53:38 +0100, Lukas Kabrt<lukas na kabrt.cz> wrote: >> >> >> >>> Jestli myslis cisteho vypocetniho casu, tak bych rekl, ze je to >>> pesimisticky odhad. Podle toho, jak rychle probiha vypocet u me, bych >>> to odhadnul na 30 - 50 dni. Limitujici je tady rychlost procesoru. >>> Nedavno jsem zkousel oblast cca 20 x 25 km a rozpoznavani bezelo neco >>> pres 5 hodin. Muj pocitac pritom neni zadne "delo" - Intel Core2 Duo @ >>> 2Ghz. >>> >>> >> >> > > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Dovolil bych si ještě jednu poznámku. Program si ukládá pomocné soubory do aktuálního adresáře s konstantním jménem (pokud se od minulé verze nic nezměnilo). Jestli tomu dobře rozumím, tak nemohu spustit víc instancí těch skriptů v jednom adresáři bez toho, aby se nepopraly (budou si OCRkovat čísla navzájem). Je to tak? Pokud ano, tak by to chtělo uživatele důrazně varovat, protože by se mohlo stát, že výsledek bude pomíchaný a nikdo si toho nevšimne. Nešlo by s tím něco udělat? On Tue, 26 Jan 2010 20:10:09 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> Provedl jsem par zmen v programu tile-processor, binarky [1] i > zdrojove kody [2] muzete stahovat z mych stranek. > > Hlavni zmeny: > rychlost - OCR utitlita se ted spousti pouze jednou pro kazdou > dlazdici - prineslo to cca dvojnasobnou rychlost zpracovani > drobne zvyseni presnosti - presnejsi orez popisku a vynechani budov > blizko praveho okraje (tak jak navrhoval Petr Dlouhy) > pridano logovani cinnosti > osetreni chyb - program by se ted mel byt schopny zotavit z vetsiny > chyb, pouze zaloguje co se stalo a pokracuje v cinnosti > > V binarkach jsou dve verze tile processoru - jedna pro LINUX s upravou > od Petra Dlouheho ([3], bod 2), druha bez ni. Nechal jsem dve verze, > protoze u me verze s upravou dava o neco horsi vysledky pri OCR (cca o > 1 - 2% vice chyb) > > Progam jsem zkousel na platforme Win/.NET a Win/MONO a funguji bez > problemu. Nekoho bych poprosil aby vyzkousel jestli neni nejaky > problem na Linuxu. > > > Distribuovane pocitani > Diky vsem, kteri se ozvali a nabidli se, ze pomuzou s vypoctem. > > Rozdelil jsem CR na dlazdice 0.2 x 0.2 stupne, celkem je to 302 > dlazdic. Hranice jsou definovany v CSV souboru [4], prilozena je i > prehledova mapka. Zpracovani jedne dlazdice by se melo vejit do 1 > hodiny. > > CSV soubor ma nasledujici format > ID,sever,vychod,jih,zapad > > Pro koordinaci jsem na wiki zalozil stranku [5]. Pokud se rozhodnete > pomoct, zapiste na wiki, jake dlazdice zpracujete - at se neco > nepocita vicekrat. Dlazdice prosim vybirejte postupne, at v tom neni > zmatek. > > Moje idea dalsiho postupu je takova, ze vysledky vypoctu (CSV a LOG > soubory) zpracuju, pripadne opravim data na mistech, kde se vyskytnul > nejaky error a vysledek umistim nekde na web k dalsimu vyuziti pro > import adres. > > Postup > 1) na wiki napsat dlazdice, ktere se chystam zpracovat > 2) ze souboru [4] zjistit hranice dlazdic > 3) stahnout data z WMS CUZK > > tile-downloader.exe -north [sever] -west [zapad] -south [jih] -east > [vychos] -addressPoints -output [ID-Dlazdice] > > 4) zpracovat dlazdici > > tile-processor.exe -tiles [ID-Dlazdice] - output [ID-Dlazdice].csv > > 5) zabalit vytvorene soubory (CSV a LOG) a vysledek nekam uplodovat > nebo zaslat na mail osm na kabrt.cz > > [1] http://lkabrt.aspone.cz/osm/cuzk.zip > [2] http://lkabrt.aspone.cz/osm/cuzk-source.zip > [3] > http://lists.openstreetmap.org/pipermail/talk-cz/2010-January/004312.html > [4] http://lkabrt.aspone.cz/osm/oblasti.zip > [5] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR/Prubeh_Zpracovani > -- > Lukas > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

zobrazit citaci

> Je to tak? Pokud ano, tak by to chtělo uživatele důrazně varovat, protože > by se mohlo stát, že výsledek bude pomíchaný a nikdo si toho nevšimne. > Nešlo by s tím něco udělat?

Ne, uz to tak neni, jen jsem to zapomnel zapsat do provedenych zmen. Program si uklada pomocne soubory stale do aktualniho adresare, ale pod unikatnim jmenem (GUID), takze bez problemu muze bezet vice instanci v jednom adresari. -- Lukas

Ahoj, tak výpočet už zatěžuje všechna 4 jádra na Kubajzově stroji. Udělal jsem si na to skripty, kterým stačí jen předhodit rozsah dlaždic, a ony pak už vše udělají samy. Nejsou nějak úžasné, ale mohlo by to někomu ušetřit práci, takže jsou v příloze. -- Petr Dlouhý ------------- další část --------------- A non-text attachment was scrubbed... Name: tile-do.sh Type: application/octet-stream Size: 502 bytes Desc: [žádný popis není k dispozici] URL: <https://lists.openstreetmap.org/pipermail/talk-cz/attachments/20100127/d74ee818/attachment.obj> ------------- další část --------------- A non-text attachment was scrubbed... Name: tile-more.sh Type: application/octet-stream Size: 57 bytes Desc: [žádný popis není k dispozici] URL: <https://lists.openstreetmap.org/pipermail/talk-cz/attachments/20100127/d74ee818/attachment-0001.obj>

Hm, tak bohužel program na Linuxu nefunguje (tedy pod Wine ano). Důvodem je neimplementovaná metoda System.Drawing.Image.SaveAdd v Linuxové verzi knihovny GDI+. Má někdo nápad, jak by to šlo jednoduše obejít? On Tue, 26 Jan 2010 20:10:09 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> Progam jsem zkousel na platforme Win/.NET a Win/MONO a funguji bez > problemu. Nekoho bych poprosil aby vyzkousel jestli neni nejaky > problem na Linuxu.

-- Petr Dlouhý

Nemám zkušenost ... ale nepomohlo by třeba toto? http://www.remotesensing.org/libtiff/man/tiffcp.1.html Honza 2010/1/27 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Hm, tak bohužel program na Linuxu nefunguje (tedy pod Wine ano). > Důvodem je neimplementovaná metoda System.Drawing.Image.SaveAdd v Linuxové > verzi knihovny GDI+. > Má někdo nápad, jak by to šlo jednoduše obejít? > > On Tue, 26 Jan 2010 20:10:09 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: > >> Progam jsem zkousel na platforme Win/.NET a Win/MONO a funguji bez >> problemu. Nekoho bych poprosil aby vyzkousel jestli neni nejaky >> problem na Linuxu. > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

2010/1/27 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Má někdo nápad, jak by to šlo jednoduše obejít?

Vyzkousel jsem pouziti tiffcp jak navrhoval Jan Bilak. Na WIN mi to funguje bez problemu. Stahovat muzete opet z mych stranek [1]. Je to o neco pomalejsi, nez kdyz mutli-page tiff vytvarim primo v tile-processor, ale pokud to bude fungovat na LINUXU, tak je to prijatelna obet. Porad je to totiz rychlejsi, nez puvodni verze. [1] http://lkabrt.aspone.cz/osm/cuzk-test.zip -- Lukas

Ahoj, díky - vypadá to, že to funguje (tedy musel jsem updatovat tesseract z verze 2.03 na 2.04). On Fri, 29 Jan 2010 17:28:48 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> 2010/1/27 Petr Dlouhý <petr.dlouhy na email.cz>: >> Má někdo nápad, jak by to šlo jednoduše obejít? > > Vyzkousel jsem pouziti tiffcp jak navrhoval Jan Bilak. Na WIN mi to > funguje bez problemu. Stahovat muzete opet z mych stranek [1]. Je to o > neco pomalejsi, nez kdyz mutli-page tiff vytvarim primo v > tile-processor, ale pokud to bude fungovat na LINUXU, tak je to > prijatelna obet. Porad je to totiz rychlejsi, nez puvodni verze. > > [1] http://lkabrt.aspone.cz/osm/cuzk-test.zip > -- > Lukas > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

On Tue, Jan 26, 2010 at 08:10:09PM +0100, Lukas Kabrt wrote: zobrazit citaci

> Moje idea dalsiho postupu je takova, ze vysledky vypoctu (CSV a LOG > soubory) zpracuju, pripadne opravim data na mistech, kde se vyskytnul > nejaky error a vysledek umistim nekde na web k dalsimu vyuziti pro > import adres.

uz jsem skoro dopracoval svoje davky, ale nastal maly problem. v tech cca 80 tile je cca 850 erroru v logach. Mam to nejak resit, nebo uz si je zkusis udelat znova sam? Vypada to ze tesseract sem tam nejak spadl nebo neco takoveho provedl. Az dodelam poslednich par tilu, tak to cele nejak uploadtnu a na wiki dam odkaz. Martin Kupec

zobrazit citaci

> uz jsem skoro dopracoval svoje davky, ale nastal maly problem. > > v tech cca 80 tile je cca 850 erroru v logach. Mam to nejak > resit, nebo uz si je zkusis udelat znova sam? > > Vypada to ze tesseract sem tam nejak spadl nebo neco takoveho > provedl.

Resit to nijak nemusis, uz jsem si napsal skriptik, ktery projde logy a mista kde se vyskytnul error zpracuje znova. -- Lukas

On Tue, Feb 02, 2010 at 10:04:40AM +0100, Lukas Kabrt wrote: zobrazit citaci

> > uz jsem skoro dopracoval svoje davky, ale nastal maly problem. > > > > v tech cca 80 tile je cca 850 erroru v logach. Mam to nejak > > resit, nebo uz si je zkusis udelat znova sam? > > > > Vypada to ze tesseract sem tam nejak spadl nebo neco takoveho > > provedl. > > Resit to nijak nemusis, uz jsem si napsal skriptik, ktery projde logy > a mista kde se vyskytnul error zpracuje znova.

Ok super. Asi nejsem sam kdo sem tam ma chybu. Uvazoval jsem jestli neco takoveho nezbastlit, ale pak me napadlo ze uz to mozna nekdo udelal. Moje vysledky poslu nekdky k veceru. Jeste to zpracovava 3 tily, tak to necham dobehnout a vecer to uploaduju. Martin

Ahoj, přemýšlel jsem o tom, jestli by nešel vyrobit i skript, co projde všechny adresní body, které nevyhovují vzoru č.e./č.p./bez č.e./č.p a zpracoval je znovu s vyšším rozlišením. zobrazit citaci

> ------------ Původní zpráva ------------ > Od: Lukas Kabrt <lukas na kabrt.cz> > Předmět: Re: [Talk-cz] Import adres z katastralni mapy > Datum: 02.2.2010 10:05:16 > ---------------------------------------- > > uz jsem skoro dopracoval svoje davky, ale nastal maly problem. > > > > v tech cca 80 tile je cca 850 erroru v logach. Mam to nejak > > resit, nebo uz si je zkusis udelat znova sam? > > > > Vypada to ze tesseract sem tam nejak spadl nebo neco takoveho > > provedl. > > Resit to nijak nemusis, uz jsem si napsal skriptik, ktery projde logy > a mista kde se vyskytnul error zpracuje znova. > -- > Lukas > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz > > >

Petr Dlouhý petr.dlouhy na email.cz

zobrazit citaci

> přemýšlel jsem o tom, jestli by nešel vyrobit i skript, co projde všechny adresní body, které nevyhovují vzoru č.e./č.p./bez č.e./č.p a zpracoval je znovu s vyšším rozlišením.

Koukal jsem kolika pripadu by se to tykalo a pokud za spravne rozpoznane budeme povazovat i ruzne varianty (ce, c.e, ce., apod.) tak to odhaduju na cca 200 000 pripadu. To by se asi dalo zvladnout. Schvalne zkusim neco vytvorit ... -- Lukas

Tak jsem uploadoval na server vysledky, odkaz je na wiki ([1]). Nevim jak je to se zpracovanim zbylych tilu, ale kdyz mi nekdo neco uvolni, tak to klidne jeste spocitam :-). Zjistil jsem ze ten stoj co jsem na to zneuzil se nejak moc zbytecne flaka... [1] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR/Prubeh_Zpracovani Martin Kupec

No ja jsem se vcera od kamarada dozvedel, ze v dohledne dobe dostaneme ctyrXeon s 30GB pameti. Takze az zase nekdo vymysli nejakou takovouhle ptakovinu, tak procesoru bude dost :) K Dne 2.2.2010 22:52, Martin Kupec napsal(a): zobrazit citaci

> Tak jsem uploadoval na server vysledky, odkaz je na wiki ([1]). > > Nevim jak je to se zpracovanim zbylych tilu, ale kdyz mi nekdo neco > uvolni, tak to klidne jeste spocitam :-). Zjistil jsem ze ten stoj co > jsem na to zneuzil se nejak moc zbytecne flaka... > > [1] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR/Prubeh_Zpracovani > > Martin Kupec > > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Ahoj, můžeš kdyžtak udělat 10 - 49 a 60 - 69 ještě jednou? Já to dělal ještě se starou verzí tile-processoru, takže chybí logy. On Tue, 02 Feb 2010 22:52:06 +0100, Martin Kupec <magon na jkopava.cz> wrote: zobrazit citaci

> Tak jsem uploadoval na server vysledky, odkaz je na wiki ([1]). > > Nevim jak je to se zpracovanim zbylych tilu, ale kdyz mi nekdo neco > uvolni, tak to klidne jeste spocitam :-). Zjistil jsem ze ten stoj co > jsem na to zneuzil se nejak moc zbytecne flaka... > > [1] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR/Prubeh_Zpracovani > > Martin Kupec > > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

On Wed, Feb 03, 2010 at 07:39:02AM +0100, Petr Dlouhý wrote: zobrazit citaci

> Ahoj, > > můžeš kdyžtak udělat 10 - 49 a 60 - 69 ještě jednou? Já to dělal ještě se > starou verzí tile-processoru, takže chybí logy.

Ok, pracuje se na tom. Martin

Ahoj, tak na Kubajzově stroji je (po kratší odstávce) už taky vše spočítané a uploadované. On Tue, 02 Feb 2010 22:52:06 +0100, Martin Kupec <magon na jkopava.cz> wrote: zobrazit citaci

> Tak jsem uploadoval na server vysledky, odkaz je na wiki ([1]). > > Nevim jak je to se zpracovanim zbylych tilu, ale kdyz mi nekdo neco > uvolni, tak to klidne jeste spocitam :-). Zjistil jsem ze ten stoj co > jsem na to zneuzil se nejak moc zbytecne flaka... > > [1] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR/Prubeh_Zpracovani > > Martin Kupec > > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

Ahoj, začal jsem s imortem adresních bodů v Praze-západ, ale zjistil jsem jeden celkem zásadní problém. Zdá se, že evidenční čísla jsou o něco blíž k tečce než ta popisná - důsledkem je to, že pokud je v čísle číslice 2, tak se občas stane, že jí to rozezná jako 7. Těch případů je tolik, že dělat to ručně pro celou ČR by byla nepředstavitelná práce (nehledě na to, že by se to špatně přiřadilo) - bylo by tedy dobré vyřešit to nějak automaticky. Otázka je jak problém vyřešit. Asi nejlepší bude znovu rozpoznat ty evidenční čísla, ve kterých je 7 - byl by to tedy stejný problém jako jsem už navrhoval s čísly, která nebyla rozpoznána vůbec. Máš na to Lukáši skript, nebo ho mám vyrobit? On Wed, 10 Feb 2010 01:48:34 +0100, Petr Dlouhý <petr.dlouhy na email.cz> wrote: zobrazit citaci

> Ahoj, > > tak na Kubajzově stroji je (po kratší odstávce) už taky vše spočítané a > uploadované. > > On Tue, 02 Feb 2010 22:52:06 +0100, Martin Kupec <magon na jkopava.cz> > wrote: > >> Tak jsem uploadoval na server vysledky, odkaz je na wiki ([1]). >> >> Nevim jak je to se zpracovanim zbylych tilu, ale kdyz mi nekdo neco >> uvolni, tak to klidne jeste spocitam :-). Zjistil jsem ze ten stoj co >> jsem na to zneuzil se nejak moc zbytecne flaka... >> >> [1] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR/Prubeh_Zpracovani >> >> Martin Kupec >> >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz > >

-- Petr Dlouhý

Ahoj, ještě jsem si říkal, že možná nebylo špatné rozpoznávání dělat na základě podobnosti vzoru jednotlivých číslic. Když je to psané jedním fontem, jednou velikostí, vždy stejně natočené a bez nějakých kazů vzniklým skenováním, tak by tato metoda musela být vysoce spolehlivá. Dokonce podle pozorování jsou znaky zarovnané na celé pixely (ale mohu se plést - koukal jsem na to jen letmo). Výhoda je v tom, že je to metoda prakticky zcela spolehlivá. Pokud text něco překrývá, tak to odhalí (neshoduje se s žádným vzorem číslice/písmena). Pokud se naopak znak shoduje se vzorem, tak je prakticky jisté, že jde o tento znak. Teoreticky by nějaký jiný objekt mohl udělat např. z písmene I písmeno T, ale aby to zcela přesně odpovídalo vzoru, to je podle mne menší pravděpodobnost, než vyhrát první cenu v nějaké loterii. Algoritmus rozpoznávání by přitom byl myslím velmi jednoduše naprogramovatelný, rychlý a nepotřeboval by nějaké externí OCRy. To se sice může zdát jako zbytečnost, ale mělo by to význam při aktualizacích. Tedy nyní se celý import pojal jako jednorázový import. Ale data se budou měnit a nebylo by od věci, kdyby se periodicky našly změny, doplnila nová čísla domů apod. Zkusím to ověřit na příkladu. Honza 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Ahoj, > > začal jsem s imortem adresních bodů v Praze-západ, ale zjistil jsem jeden > celkem zásadní problém. > Zdá se, že evidenční čísla jsou o něco blíž k tečce než ta popisná - > důsledkem je to, že pokud je v čísle číslice 2, tak se občas stane, že jí > to rozezná jako 7. Těch případů je tolik, že dělat to ručně pro celou ČR > by byla nepředstavitelná práce (nehledě na to, že by se to špatně > přiřadilo) - bylo by tedy dobré vyřešit to nějak automaticky. > > Otázka je jak problém vyřešit. Asi nejlepší bude znovu rozpoznat ty > evidenční čísla, ve kterých je 7 - byl by to tedy stejný problém jako jsem > už navrhoval s čísly, která nebyla rozpoznána vůbec. Máš na to Lukáši > skript, nebo ho mám vyrobit? > > On Wed, 10 Feb 2010 01:48:34 +0100, Petr Dlouhý <petr.dlouhy na email.cz> > wrote: > >> Ahoj, >> >> tak na Kubajzově stroji je (po kratší odstávce) už taky vše spočítané a >> uploadované. >> >> On Tue, 02 Feb 2010 22:52:06 +0100, Martin Kupec <magon na jkopava.cz> >> wrote: >> >>> Tak jsem uploadoval na server vysledky, odkaz je na wiki ([1]). >>> >>> Nevim jak je to se zpracovanim zbylych tilu, ale kdyz mi nekdo neco >>> uvolni, tak to klidne jeste spocitam :-). Zjistil jsem ze ten stoj co >>> jsem na to zneuzil se nejak moc zbytecne flaka... >>> >>> [1] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR/Prubeh_Zpracovani >>> >>> Martin Kupec >>> >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >> >> > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Ahoj, to by možná fungovalo líp, ale je otázka, jestli to stojí za tu práci, když už mám funkční program. Ty změny se samozřejmě časem budou muset udělat, takže by to určitě nebyla zbytečná práce. Zajímavý by byl taky nějaký obecný diff plugin pro JOSM. On Thu, 11 Feb 2010 18:29:27 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Ahoj, > > ještě jsem si říkal, že možná nebylo špatné rozpoznávání dělat na > základě podobnosti vzoru jednotlivých číslic. Když je to psané jedním > fontem, jednou velikostí, vždy stejně natočené a bez nějakých kazů > vzniklým skenováním, tak by tato metoda musela být vysoce spolehlivá. > Dokonce podle pozorování jsou znaky zarovnané na celé pixely (ale mohu > se plést - koukal jsem na to jen letmo). > > Výhoda je v tom, že je to metoda prakticky zcela spolehlivá. Pokud > text něco překrývá, tak to odhalí (neshoduje se s žádným vzorem > číslice/písmena). Pokud se naopak znak shoduje se vzorem, tak je > prakticky jisté, že jde o tento znak. Teoreticky by nějaký jiný objekt > mohl udělat např. z písmene I písmeno T, ale aby to zcela přesně > odpovídalo vzoru, to je podle mne menší pravděpodobnost, než vyhrát > první cenu v nějaké loterii. > > Algoritmus rozpoznávání by přitom byl myslím velmi jednoduše > naprogramovatelný, rychlý a nepotřeboval by nějaké externí OCRy. To se > sice může zdát jako zbytečnost, ale mělo by to význam při > aktualizacích. Tedy nyní se celý import pojal jako jednorázový import. > Ale data se budou měnit a nebylo by od věci, kdyby se periodicky našly > změny, doplnila nová čísla domů apod. > > Zkusím to ověřit na příkladu. > > Honza > > > 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >> Ahoj, >> >> začal jsem s imortem adresních bodů v Praze-západ, ale zjistil jsem >> jeden >> celkem zásadní problém. >> Zdá se, že evidenční čísla jsou o něco blíž k tečce než ta popisná - >> důsledkem je to, že pokud je v čísle číslice 2, tak se občas stane, že >> jí >> to rozezná jako 7. Těch případů je tolik, že dělat to ručně pro celou ČR >> by byla nepředstavitelná práce (nehledě na to, že by se to špatně >> přiřadilo) - bylo by tedy dobré vyřešit to nějak automaticky. >> >> Otázka je jak problém vyřešit. Asi nejlepší bude znovu rozpoznat ty >> evidenční čísla, ve kterých je 7 - byl by to tedy stejný problém jako >> jsem >> už navrhoval s čísly, která nebyla rozpoznána vůbec. Máš na to Lukáši >> skript, nebo ho mám vyrobit? >> >> On Wed, 10 Feb 2010 01:48:34 +0100, Petr Dlouhý <petr.dlouhy na email.cz> >> wrote: >> >>> Ahoj, >>> >>> tak na Kubajzově stroji je (po kratší odstávce) už taky vše spočítané a >>> uploadované. >>> >>> On Tue, 02 Feb 2010 22:52:06 +0100, Martin Kupec <magon na jkopava.cz> >>> wrote: >>> >>>> Tak jsem uploadoval na server vysledky, odkaz je na wiki ([1]). >>>> >>>> Nevim jak je to se zpracovanim zbylych tilu, ale kdyz mi nekdo neco >>>> uvolni, tak to klidne jeste spocitam :-). Zjistil jsem ze ten stoj co >>>> jsem na to zneuzil se nejak moc zbytecne flaka... >>>> >>>> [1] >>>> http://wiki.openstreetmap.org/wiki/Import_Adres_ČR/Prubeh_Zpracovani >>>> >>>> Martin Kupec >>>> >>>> >>>> _______________________________________________ >>>> Talk-cz mailing list >>>> Talk-cz na openstreetmap.org >>>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >>> >> >> >> -- >> Petr Dlouhý >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

Ahoj, jasně ... to je dobrá otázka. Ale ono by to neznamelalo to celé předělat. Prakticky by to bylo spíše rozšíření stávajícího. Jen místo zavolání externího OCR by se zavolalo jednoúčelové "interní OCR". Honza 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Ahoj, > > to by možná fungovalo líp, ale je otázka, jestli to stojí za tu práci, > když už mám funkční program. > > Ty změny se samozřejmě časem budou muset udělat, takže by to určitě nebyla > zbytečná práce. Zajímavý by byl taky nějaký obecný diff plugin pro JOSM. > > On Thu, 11 Feb 2010 18:29:27 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > >> Ahoj, >> >> ještě jsem si říkal, že možná nebylo špatné rozpoznávání dělat na >> základě podobnosti vzoru jednotlivých číslic. Když je to psané jedním >> fontem, jednou velikostí, vždy stejně natočené a bez nějakých kazů >> vzniklým skenováním, tak by tato metoda musela být vysoce spolehlivá. >> Dokonce podle pozorování jsou znaky zarovnané na celé pixely (ale mohu >> se plést - koukal jsem na to jen letmo). >> >> Výhoda je v tom, že je to metoda prakticky zcela spolehlivá. Pokud >> text něco překrývá, tak to odhalí (neshoduje se s žádným vzorem >> číslice/písmena). Pokud se naopak znak shoduje se vzorem, tak je >> prakticky jisté, že jde o tento znak. Teoreticky by nějaký jiný objekt >> mohl udělat např. z písmene I písmeno T, ale aby to zcela přesně >> odpovídalo vzoru, to je podle mne menší pravděpodobnost, než vyhrát >> první cenu v nějaké loterii. >> >> Algoritmus rozpoznávání by přitom byl myslím velmi jednoduše >> naprogramovatelný, rychlý a nepotřeboval by nějaké externí OCRy. To se >> sice může zdát jako zbytečnost, ale mělo by to význam při >> aktualizacích. Tedy nyní se celý import pojal jako jednorázový import. >> Ale data se budou měnit a nebylo by od věci, kdyby se periodicky našly >> změny, doplnila nová čísla domů apod. >> >> Zkusím to ověřit na příkladu. >> >> Honza >> >> >> 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >>> Ahoj, >>> >>> začal jsem s imortem adresních bodů v Praze-západ, ale zjistil jsem >>> jeden >>> celkem zásadní problém. >>> Zdá se, že evidenční čísla jsou o něco blíž k tečce než ta popisná - >>> důsledkem je to, že pokud je v čísle číslice 2, tak se občas stane, že >>> jí >>> to rozezná jako 7. Těch případů je tolik, že dělat to ručně pro celou ČR >>> by byla nepředstavitelná práce (nehledě na to, že by se to špatně >>> přiřadilo) - bylo by tedy dobré vyřešit to nějak automaticky. >>> >>> Otázka je jak problém vyřešit. Asi nejlepší bude znovu rozpoznat ty >>> evidenční čísla, ve kterých je 7 - byl by to tedy stejný problém jako >>> jsem >>> už navrhoval s čísly, která nebyla rozpoznána vůbec. Máš na to Lukáši >>> skript, nebo ho mám vyrobit? >>> >>> On Wed, 10 Feb 2010 01:48:34 +0100, Petr Dlouhý <petr.dlouhy na email.cz> >>> wrote: >>> >>>> Ahoj, >>>> >>>> tak na Kubajzově stroji je (po kratší odstávce) už taky vše spočítané a >>>> uploadované. >>>> >>>> On Tue, 02 Feb 2010 22:52:06 +0100, Martin Kupec <magon na jkopava.cz> >>>> wrote: >>>> >>>>> Tak jsem uploadoval na server vysledky, odkaz je na wiki ([1]). >>>>> >>>>> Nevim jak je to se zpracovanim zbylych tilu, ale kdyz mi nekdo neco >>>>> uvolni, tak to klidne jeste spocitam :-). Zjistil jsem ze ten stoj co >>>>> jsem na to zneuzil se nejak moc zbytecne flaka... >>>>> >>>>> [1] >>>>> http://wiki.openstreetmap.org/wiki/Import_Adres_ČR/Prubeh_Zpracovani >>>>> >>>>> Martin Kupec >>>>> >>>>> >>>>> _______________________________________________ >>>>> Talk-cz mailing list >>>>> Talk-cz na openstreetmap.org >>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>> >>>> >>> >>> >>> -- >>> Petr Dlouhý >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Petr Dlouhý píše v Čt 11. 02. 2010 v 18:13 +0100: zobrazit citaci

> začal jsem s imortem adresních bodů v Praze-západ, ale zjistil jsem jeden > celkem zásadní problém. > Zdá se, že evidenční čísla jsou o něco blíž k tečce než ta popisná - > důsledkem je to, že pokud je v čísle číslice 2, tak se občas stane, že jí > to rozezná jako 7. Těch případů je tolik, že dělat to ručně pro celou ČR > by byla nepředstavitelná práce (nehledě na to, že by se to špatně > přiřadilo) - bylo by tedy dobré vyřešit to nějak automaticky.

Nešlo by program naučit správně poznávat dvojku, která splynula s tečkou? -- Stanislav Brabec http://www.penguin.cz/~utx

Nerozumím. Problém o kterém jsem mluvil je, že to pozná dvojku, které byl uříznut spodek jako sedmičku. On Thu, 11 Feb 2010 19:36:13 +0100, Stanislav Brabec <utx na penguin.cz> wrote: zobrazit citaci

> Nešlo by program naučit správně poznávat dvojku, která splynula > s tečkou?

-- Petr Dlouhý

Petr Dlouhý píše v Čt 11. 02. 2010 v 20:15 +0100: zobrazit citaci

> Nerozumím. Problém o kterém jsem mluvil je, že to pozná dvojku, které byl > uříznut spodek jako sedmičku.

Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat uříznutou dvojku? Pokud to ovšem nezvýší riziko chyby jinde. zobrazit citaci

> On Thu, 11 Feb 2010 19:36:13 +0100, Stanislav Brabec <utx na penguin.cz> > wrote: > > > Nešlo by program naučit správně poznávat dvojku, která splynula > > s tečkou? > >

-- Stanislav Brabec http://www.penguin.cz/~utx

Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat pouze ta evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je tam ta dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že by to nešlo uříznout o trochu níž. Problém je, že už jsme to udělali špatně, takže by to bylo dobré napravit bez toho, abychom museli všechno předělávat. On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec <utx na penguin.cz> wrote: zobrazit citaci

> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat uříznutou > dvojku? Pokud to ovšem nezvýší riziko chyby jinde.

-- Petr Dlouhý

Ahoj, pokusná implementace je velmi rychlá a měla by být i spolehlivá. Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas zpracování jednoho adresního bodu je 17 ms. To vše v jednom vlákně a tedy to zatěžuje jen jedno jádro procesoru. Zítra to snad dodělám do použitelného stavu. Honza 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat pouze ta > evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je tam ta > dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že by to nešlo > uříznout o trochu níž. Problém je, že už jsme to udělali špatně, takže by > to bylo dobré napravit bez toho, abychom museli všechno předělávat. > > On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec <utx na penguin.cz> > wrote: > >> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat uříznutou >> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Ahoj, zní to dobře, jestli by to opravdu neznamenalo příliš mnoho času, tak by možná stálo za to data kvůli té chybě předělat (pokud navíc zlepší detekci u překryvů, nebo díky rychlosti umožní stahovat dlaždice s větším zoomem, tak to bude další plus). On Fri, 12 Feb 2010 04:25:19 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Ahoj, > > pokusná implementace je velmi rychlá a měla by být i spolehlivá. > > Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. > Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas > zpracování jednoho adresního bodu je 17 ms. To vše v jednom vlákně a > tedy to zatěžuje jen jedno jádro procesoru. > > Zítra to snad dodělám do použitelného stavu. > > Honza > > > 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat pouze >> ta >> evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je tam ta >> dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že by to >> nešlo >> uříznout o trochu níž. Problém je, že už jsme to udělali špatně, takže >> by >> to bylo dobré napravit bez toho, abychom museli všechno předělávat. >> >> On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec <utx na penguin.cz> >> wrote: >> >>> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat uříznutou >>> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. >> >> >> -- >> Petr Dlouhý >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

Ahoj, k čemu větší rozlišení? Spíše jsem uvažoval nad dynamickým rozlišením ... tedy stahovat výřezy nejprve v malém rozlišení a podle toho detekovat oblasti, které obsahují adresní body. A jen tyto úseky stahovat ve vyšším (třeba stávajícím) rozlišení. To by mohlo ušetřit množství stahovaných dat. Přijde mi, že nejpomalejší bude právě stahování dlaždic z WMS, takže obecným zvýšením rozlišení by se čas prodloužil. Mimochodem - nemáte někdo stažené dlaždice z nějaké větší oblasti, které byste mohli někam hodit zazipované, abych to nemusel stahovat z WMS pro testování? Honza 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Ahoj, > > zní to dobře, jestli by to opravdu neznamenalo příliš mnoho času, tak by > možná stálo za to data kvůli té chybě předělat (pokud navíc zlepší detekci > u překryvů, nebo díky rychlosti umožní stahovat dlaždice s větším zoomem, > tak to bude další plus). > > On Fri, 12 Feb 2010 04:25:19 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > >> Ahoj, >> >> pokusná implementace je velmi rychlá a měla by být i spolehlivá. >> >> Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. >> Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas >> zpracování jednoho adresního bodu je 17 ms. To vše v jednom vlákně a >> tedy to zatěžuje jen jedno jádro procesoru. >> >> Zítra to snad dodělám do použitelného stavu. >> >> Honza >> >> >> 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >>> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat pouze >>> ta >>> evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je tam ta >>> dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že by to >>> nešlo >>> uříznout o trochu níž. Problém je, že už jsme to udělali špatně, takže >>> by >>> to bylo dobré napravit bez toho, abychom museli všechno předělávat. >>> >>> On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec <utx na penguin.cz> >>> wrote: >>> >>>> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat uříznutou >>>> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. >>> >>> >>> -- >>> Petr Dlouhý >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Kvůli překryvům - čísla se s rozlišením zmenšují. Nevím, jak moc je tvůj algoritmus dokonalý v detekci překrývajících se číslic, ale nevěřím, že dokážeš spolehlivě poznat, kde číslo skončí. Samozřejmě je to otázka nějakého kompromisu, ale většinu času předtím zabralo počítání. Myslím, že ale to dynamické rozlišení, které navrhuješ, nemá moc cenu, protože ty dlaždice jsou v PNG, takže by bílé plochy neměly zabírat příliš mnoho datového objemu. To samé platí pro vyšší rozlišení - zpomalení může nastat spíš tím, že je nutné zpracovat větší množství obrazové informace. On Fri, 12 Feb 2010 15:39:54 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Ahoj, > k čemu větší rozlišení? Spíše jsem uvažoval nad dynamickým rozlišením > ... tedy stahovat výřezy nejprve v malém rozlišení a podle toho > detekovat oblasti, které obsahují adresní body. A jen tyto úseky > stahovat ve vyšším (třeba stávajícím) rozlišení. To by mohlo ušetřit > množství stahovaných dat. Přijde mi, že nejpomalejší bude právě > stahování dlaždic z WMS, takže obecným zvýšením rozlišení by se čas > prodloužil. > > Mimochodem - nemáte někdo stažené dlaždice z nějaké větší oblasti, > které byste mohli někam hodit zazipované, abych to nemusel stahovat z > WMS pro testování? > > Honza > > > 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >> Ahoj, >> >> zní to dobře, jestli by to opravdu neznamenalo příliš mnoho času, tak by >> možná stálo za to data kvůli té chybě předělat (pokud navíc zlepší >> detekci >> u překryvů, nebo díky rychlosti umožní stahovat dlaždice s větším >> zoomem, >> tak to bude další plus). >> >> On Fri, 12 Feb 2010 04:25:19 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >> wrote: >> >>> Ahoj, >>> >>> pokusná implementace je velmi rychlá a měla by být i spolehlivá. >>> >>> Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. >>> Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas >>> zpracování jednoho adresního bodu je 17 ms. To vše v jednom vlákně a >>> tedy to zatěžuje jen jedno jádro procesoru. >>> >>> Zítra to snad dodělám do použitelného stavu. >>> >>> Honza >>> >>> >>> 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >>>> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat >>>> pouze >>>> ta >>>> evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je tam ta >>>> dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že by to >>>> nešlo >>>> uříznout o trochu níž. Problém je, že už jsme to udělali špatně, takže >>>> by >>>> to bylo dobré napravit bez toho, abychom museli všechno předělávat. >>>> >>>> On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec <utx na penguin.cz> >>>> wrote: >>>> >>>>> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat uříznutou >>>>> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. >>>> >>>> >>>> -- >>>> Petr Dlouhý >>>> >>>> _______________________________________________ >>>> Talk-cz mailing list >>>> Talk-cz na openstreetmap.org >>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>> >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >> >> >> -- >> Petr Dlouhý >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

Na slušné detekci překryvů právě pracuji a myslím, že rozhodně bude výrazně lepší než byla (to už je myslím teď). Ale stoprocentní samozřejmě ne - když překryv bude velký, tak to určitě nepůjde. Ale jinak si myslím, že generování dlaždic na serveru KN bude nějakou dobu trvat - a to, ať je na té dlaždici 5 bodů nebo třeba jen jeden. A také jim to bude zatěžovat servery, když se to přežene s rychlostí stahování (mnoho vláken apod.). Honza 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Kvůli překryvům - čísla se s rozlišením zmenšují. > Nevím, jak moc je tvůj algoritmus dokonalý v detekci překrývajících se > číslic, ale nevěřím, že dokážeš spolehlivě poznat, kde číslo skončí. > Samozřejmě je to otázka nějakého kompromisu, ale většinu času předtím > zabralo počítání. > > Myslím, že ale to dynamické rozlišení, které navrhuješ, nemá moc cenu, > protože ty dlaždice jsou v PNG, takže by bílé plochy neměly zabírat příliš > mnoho datového objemu. To samé platí pro vyšší rozlišení - zpomalení může > nastat spíš tím, že je nutné zpracovat větší množství obrazové informace. > > On Fri, 12 Feb 2010 15:39:54 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > >> Ahoj, >> k čemu větší rozlišení? Spíše jsem uvažoval nad dynamickým rozlišením >> ... tedy stahovat výřezy nejprve v malém rozlišení a podle toho >> detekovat oblasti, které obsahují adresní body. A jen tyto úseky >> stahovat ve vyšším (třeba stávajícím) rozlišení. To by mohlo ušetřit >> množství stahovaných dat. Přijde mi, že nejpomalejší bude právě >> stahování dlaždic z WMS, takže obecným zvýšením rozlišení by se čas >> prodloužil. >> >> Mimochodem - nemáte někdo stažené dlaždice z nějaké větší oblasti, >> které byste mohli někam hodit zazipované, abych to nemusel stahovat z >> WMS pro testování? >> >> Honza >> >> >> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>> Ahoj, >>> >>> zní to dobře, jestli by to opravdu neznamenalo příliš mnoho času, tak by >>> možná stálo za to data kvůli té chybě předělat (pokud navíc zlepší >>> detekci >>> u překryvů, nebo díky rychlosti umožní stahovat dlaždice s větším >>> zoomem, >>> tak to bude další plus). >>> >>> On Fri, 12 Feb 2010 04:25:19 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >>> wrote: >>> >>>> Ahoj, >>>> >>>> pokusná implementace je velmi rychlá a měla by být i spolehlivá. >>>> >>>> Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. >>>> Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas >>>> zpracování jednoho adresního bodu je 17 ms. To vše v jednom vlákně a >>>> tedy to zatěžuje jen jedno jádro procesoru. >>>> >>>> Zítra to snad dodělám do použitelného stavu. >>>> >>>> Honza >>>> >>>> >>>> 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat >>>>> pouze >>>>> ta >>>>> evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je tam ta >>>>> dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že by to >>>>> nešlo >>>>> uříznout o trochu níž. Problém je, že už jsme to udělali špatně, takže >>>>> by >>>>> to bylo dobré napravit bez toho, abychom museli všechno předělávat. >>>>> >>>>> On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec <utx na penguin.cz> >>>>> wrote: >>>>> >>>>>> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat uříznutou >>>>>> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. >>>>> >>>>> >>>>> -- >>>>> Petr Dlouhý >>>>> >>>>> _______________________________________________ >>>>> Talk-cz mailing list >>>>> Talk-cz na openstreetmap.org >>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>> >>>> >>>> _______________________________________________ >>>> Talk-cz mailing list >>>> Talk-cz na openstreetmap.org >>>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >>> >>> -- >>> Petr Dlouhý >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

K vyzkoušení: http://jabi.aspone.cz/osm/OcrBeta1.zip Má to stejné ovládání jako původní tile-processor, ale navíc možnost logování: FindAddressPoints.exe -tiles test-dir-with-png-images -output test.csv -log log.txt -all -log log.txt ... pokud se toto uvede, tak program bude logovat nerozpoznané body nebo ty, které byly narušené překryvem. Pokud se uvede navíc -all, tak se budou logovat všechny body. Soubor charDef.txt obsahuje definici znaků nebo posloupnosti znaků. Je to také textový soubor, který když zobrazíte fontem s pevnou šířkou, tak je myslím význam jasný. Chybí tam číslice 4 posunutá dolů (tedy za č.o.), protože jsem na nic při pokusech nenarazil. Soubor musí být při spuštění v aktuálním adresáři. Honza 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> Na slušné detekci překryvů právě pracuji a myslím, že rozhodně bude > výrazně lepší než byla (to už je myslím teď). Ale stoprocentní > samozřejmě ne - když překryv bude velký, tak to určitě nepůjde. > > Ale jinak si myslím, že generování dlaždic na serveru KN bude nějakou > dobu trvat - a to, ať je na té dlaždici 5 bodů nebo třeba jen jeden. A > také jim to bude zatěžovat servery, když se to přežene s rychlostí > stahování (mnoho vláken apod.). > > Honza > > > 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >> Kvůli překryvům - čísla se s rozlišením zmenšují. >> Nevím, jak moc je tvůj algoritmus dokonalý v detekci překrývajících se >> číslic, ale nevěřím, že dokážeš spolehlivě poznat, kde číslo skončí. >> Samozřejmě je to otázka nějakého kompromisu, ale většinu času předtím >> zabralo počítání. >> >> Myslím, že ale to dynamické rozlišení, které navrhuješ, nemá moc cenu, >> protože ty dlaždice jsou v PNG, takže by bílé plochy neměly zabírat příliš >> mnoho datového objemu. To samé platí pro vyšší rozlišení - zpomalení může >> nastat spíš tím, že je nutné zpracovat větší množství obrazové informace. >> >> On Fri, 12 Feb 2010 15:39:54 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >> wrote: >> >>> Ahoj, >>> k čemu větší rozlišení? Spíše jsem uvažoval nad dynamickým rozlišením >>> ... tedy stahovat výřezy nejprve v malém rozlišení a podle toho >>> detekovat oblasti, které obsahují adresní body. A jen tyto úseky >>> stahovat ve vyšším (třeba stávajícím) rozlišení. To by mohlo ušetřit >>> množství stahovaných dat. Přijde mi, že nejpomalejší bude právě >>> stahování dlaždic z WMS, takže obecným zvýšením rozlišení by se čas >>> prodloužil. >>> >>> Mimochodem - nemáte někdo stažené dlaždice z nějaké větší oblasti, >>> které byste mohli někam hodit zazipované, abych to nemusel stahovat z >>> WMS pro testování? >>> >>> Honza >>> >>> >>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>>> Ahoj, >>>> >>>> zní to dobře, jestli by to opravdu neznamenalo příliš mnoho času, tak by >>>> možná stálo za to data kvůli té chybě předělat (pokud navíc zlepší >>>> detekci >>>> u překryvů, nebo díky rychlosti umožní stahovat dlaždice s větším >>>> zoomem, >>>> tak to bude další plus). >>>> >>>> On Fri, 12 Feb 2010 04:25:19 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >>>> wrote: >>>> >>>>> Ahoj, >>>>> >>>>> pokusná implementace je velmi rychlá a měla by být i spolehlivá. >>>>> >>>>> Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. >>>>> Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas >>>>> zpracování jednoho adresního bodu je 17 ms. To vše v jednom vlákně a >>>>> tedy to zatěžuje jen jedno jádro procesoru. >>>>> >>>>> Zítra to snad dodělám do použitelného stavu. >>>>> >>>>> Honza >>>>> >>>>> >>>>> 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat >>>>>> pouze >>>>>> ta >>>>>> evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je tam ta >>>>>> dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že by to >>>>>> nešlo >>>>>> uříznout o trochu níž. Problém je, že už jsme to udělali špatně, takže >>>>>> by >>>>>> to bylo dobré napravit bez toho, abychom museli všechno předělávat. >>>>>> >>>>>> On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec <utx na penguin.cz> >>>>>> wrote: >>>>>> >>>>>>> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat uříznutou >>>>>>> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. >>>>>> >>>>>> >>>>>> -- >>>>>> Petr Dlouhý >>>>>> >>>>>> _______________________________________________ >>>>>> Talk-cz mailing list >>>>>> Talk-cz na openstreetmap.org >>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>> >>>>> >>>>> _______________________________________________ >>>>> Talk-cz mailing list >>>>> Talk-cz na openstreetmap.org >>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>> >>>> >>>> -- >>>> Petr Dlouhý >>>> >>>> _______________________________________________ >>>> Talk-cz mailing list >>>> Talk-cz na openstreetmap.org >>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>> >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >> >> >> -- >> Petr Dlouhý >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> >

Doplnil jsem tam chybějící číslici 4. Honza 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> K vyzkoušení: > http://jabi.aspone.cz/osm/OcrBeta1.zip > > Má to stejné ovládání jako původní tile-processor, ale navíc možnost logování: > > FindAddressPoints.exe -tiles test-dir-with-png-images -output test.csv > -log log.txt -all > > -log log.txt ... pokud se toto uvede, tak program bude logovat > nerozpoznané body nebo ty, které byly narušené překryvem. > > Pokud se uvede navíc -all, tak se budou logovat všechny body. > > Soubor charDef.txt obsahuje definici znaků nebo posloupnosti znaků. Je > to také textový soubor, který když zobrazíte fontem s pevnou šířkou, > tak je myslím význam jasný. Chybí tam číslice 4 posunutá dolů (tedy za > č.o.), protože jsem na nic při pokusech nenarazil. Soubor musí být při > spuštění v aktuálním adresáři. > > Honza > > > 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >> Na slušné detekci překryvů právě pracuji a myslím, že rozhodně bude >> výrazně lepší než byla (to už je myslím teď). Ale stoprocentní >> samozřejmě ne - když překryv bude velký, tak to určitě nepůjde. >> >> Ale jinak si myslím, že generování dlaždic na serveru KN bude nějakou >> dobu trvat - a to, ať je na té dlaždici 5 bodů nebo třeba jen jeden. A >> také jim to bude zatěžovat servery, když se to přežene s rychlostí >> stahování (mnoho vláken apod.). >> >> Honza >> >> >> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>> Kvůli překryvům - čísla se s rozlišením zmenšují. >>> Nevím, jak moc je tvůj algoritmus dokonalý v detekci překrývajících se >>> číslic, ale nevěřím, že dokážeš spolehlivě poznat, kde číslo skončí. >>> Samozřejmě je to otázka nějakého kompromisu, ale většinu času předtím >>> zabralo počítání. >>> >>> Myslím, že ale to dynamické rozlišení, které navrhuješ, nemá moc cenu, >>> protože ty dlaždice jsou v PNG, takže by bílé plochy neměly zabírat příliš >>> mnoho datového objemu. To samé platí pro vyšší rozlišení - zpomalení může >>> nastat spíš tím, že je nutné zpracovat větší množství obrazové informace. >>> >>> On Fri, 12 Feb 2010 15:39:54 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >>> wrote: >>> >>>> Ahoj, >>>> k čemu větší rozlišení? Spíše jsem uvažoval nad dynamickým rozlišením >>>> ... tedy stahovat výřezy nejprve v malém rozlišení a podle toho >>>> detekovat oblasti, které obsahují adresní body. A jen tyto úseky >>>> stahovat ve vyšším (třeba stávajícím) rozlišení. To by mohlo ušetřit >>>> množství stahovaných dat. Přijde mi, že nejpomalejší bude právě >>>> stahování dlaždic z WMS, takže obecným zvýšením rozlišení by se čas >>>> prodloužil. >>>> >>>> Mimochodem - nemáte někdo stažené dlaždice z nějaké větší oblasti, >>>> které byste mohli někam hodit zazipované, abych to nemusel stahovat z >>>> WMS pro testování? >>>> >>>> Honza >>>> >>>> >>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>> Ahoj, >>>>> >>>>> zní to dobře, jestli by to opravdu neznamenalo příliš mnoho času, tak by >>>>> možná stálo za to data kvůli té chybě předělat (pokud navíc zlepší >>>>> detekci >>>>> u překryvů, nebo díky rychlosti umožní stahovat dlaždice s větším >>>>> zoomem, >>>>> tak to bude další plus). >>>>> >>>>> On Fri, 12 Feb 2010 04:25:19 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >>>>> wrote: >>>>> >>>>>> Ahoj, >>>>>> >>>>>> pokusná implementace je velmi rychlá a měla by být i spolehlivá. >>>>>> >>>>>> Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. >>>>>> Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas >>>>>> zpracování jednoho adresního bodu je 17 ms. To vše v jednom vlákně a >>>>>> tedy to zatěžuje jen jedno jádro procesoru. >>>>>> >>>>>> Zítra to snad dodělám do použitelného stavu. >>>>>> >>>>>> Honza >>>>>> >>>>>> >>>>>> 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>>> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat >>>>>>> pouze >>>>>>> ta >>>>>>> evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je tam ta >>>>>>> dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že by to >>>>>>> nešlo >>>>>>> uříznout o trochu níž. Problém je, že už jsme to udělali špatně, takže >>>>>>> by >>>>>>> to bylo dobré napravit bez toho, abychom museli všechno předělávat. >>>>>>> >>>>>>> On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec <utx na penguin.cz> >>>>>>> wrote: >>>>>>> >>>>>>>> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat uříznutou >>>>>>>> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. >>>>>>> >>>>>>> >>>>>>> -- >>>>>>> Petr Dlouhý >>>>>>> >>>>>>> _______________________________________________ >>>>>>> Talk-cz mailing list >>>>>>> Talk-cz na openstreetmap.org >>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>> >>>>>> >>>>>> _______________________________________________ >>>>>> Talk-cz mailing list >>>>>> Talk-cz na openstreetmap.org >>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>> >>>>> >>>>> -- >>>>> Petr Dlouhý >>>>> >>>>> _______________________________________________ >>>>> Talk-cz mailing list >>>>> Talk-cz na openstreetmap.org >>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>> >>>> >>>> _______________________________________________ >>>> Talk-cz mailing list >>>> Talk-cz na openstreetmap.org >>>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >>> >>> -- >>> Petr Dlouhý >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >> >

Zkousel jsem to na jednom kousku (cca 300 dlazdic) z centra Prahy. Prehryvy tomu prakticky vubec nevadi a detekuje rozpozna to spravne. Ale co tomu vadi, to je ten copyright. Zatím totiž beru v úvahu pouze červenou barvu. Jsou 3 možnosti jak to řešit: a) stahovat dlaždice s překryvem tak, že se bude rozpoznávat pouze z těch částí mapy, které copyright není. Výhody: Nejlepší výsledky. Nevýhody: Nutnost stahovat více dat z WMS. b) považovat černou barvu za červenou. Výhody: Nejsou nutné úpravy downloaderu, u rozpoznávače jen triviální změna 3 konstant. Nevýhody: Drobné zhoršení rozpoznávání v případě překryvu copyrightu s popiskem - pokud se to nešikovně trefí, tak bude třeba ruční rozpoznání, ale nemusí to znamenat nic, i když se to trefí. c) Provádět ruční kontrolu všech popisků s překryvem (těch může být hodně). Osobně považuji c) za špatné řešení. A mezi a) a b) nemám vyhrazený názor. Možnost a) je sice teoreticky nejlepší, ale b) nemusí mít postřehnutelně horší výsledky. Honza 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> Doplnil jsem tam chybějící číslici 4. > > Honza > > 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >> K vyzkoušení: >> http://jabi.aspone.cz/osm/OcrBeta1.zip >> >> Má to stejné ovládání jako původní tile-processor, ale navíc možnost logování: >> >> FindAddressPoints.exe -tiles test-dir-with-png-images -output test.csv >> -log log.txt -all >> >> -log log.txt ... pokud se toto uvede, tak program bude logovat >> nerozpoznané body nebo ty, které byly narušené překryvem. >> >> Pokud se uvede navíc -all, tak se budou logovat všechny body. >> >> Soubor charDef.txt obsahuje definici znaků nebo posloupnosti znaků. Je >> to také textový soubor, který když zobrazíte fontem s pevnou šířkou, >> tak je myslím význam jasný. Chybí tam číslice 4 posunutá dolů (tedy za >> č.o.), protože jsem na nic při pokusech nenarazil. Soubor musí být při >> spuštění v aktuálním adresáři. >> >> Honza >> >> >> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>> Na slušné detekci překryvů právě pracuji a myslím, že rozhodně bude >>> výrazně lepší než byla (to už je myslím teď). Ale stoprocentní >>> samozřejmě ne - když překryv bude velký, tak to určitě nepůjde. >>> >>> Ale jinak si myslím, že generování dlaždic na serveru KN bude nějakou >>> dobu trvat - a to, ať je na té dlaždici 5 bodů nebo třeba jen jeden. A >>> také jim to bude zatěžovat servery, když se to přežene s rychlostí >>> stahování (mnoho vláken apod.). >>> >>> Honza >>> >>> >>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>>> Kvůli překryvům - čísla se s rozlišením zmenšují. >>>> Nevím, jak moc je tvůj algoritmus dokonalý v detekci překrývajících se >>>> číslic, ale nevěřím, že dokážeš spolehlivě poznat, kde číslo skončí. >>>> Samozřejmě je to otázka nějakého kompromisu, ale většinu času předtím >>>> zabralo počítání. >>>> >>>> Myslím, že ale to dynamické rozlišení, které navrhuješ, nemá moc cenu, >>>> protože ty dlaždice jsou v PNG, takže by bílé plochy neměly zabírat příliš >>>> mnoho datového objemu. To samé platí pro vyšší rozlišení - zpomalení může >>>> nastat spíš tím, že je nutné zpracovat větší množství obrazové informace. >>>> >>>> On Fri, 12 Feb 2010 15:39:54 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >>>> wrote: >>>> >>>>> Ahoj, >>>>> k čemu větší rozlišení? Spíše jsem uvažoval nad dynamickým rozlišením >>>>> ... tedy stahovat výřezy nejprve v malém rozlišení a podle toho >>>>> detekovat oblasti, které obsahují adresní body. A jen tyto úseky >>>>> stahovat ve vyšším (třeba stávajícím) rozlišení. To by mohlo ušetřit >>>>> množství stahovaných dat. Přijde mi, že nejpomalejší bude právě >>>>> stahování dlaždic z WMS, takže obecným zvýšením rozlišení by se čas >>>>> prodloužil. >>>>> >>>>> Mimochodem - nemáte někdo stažené dlaždice z nějaké větší oblasti, >>>>> které byste mohli někam hodit zazipované, abych to nemusel stahovat z >>>>> WMS pro testování? >>>>> >>>>> Honza >>>>> >>>>> >>>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>> Ahoj, >>>>>> >>>>>> zní to dobře, jestli by to opravdu neznamenalo příliš mnoho času, tak by >>>>>> možná stálo za to data kvůli té chybě předělat (pokud navíc zlepší >>>>>> detekci >>>>>> u překryvů, nebo díky rychlosti umožní stahovat dlaždice s větším >>>>>> zoomem, >>>>>> tak to bude další plus). >>>>>> >>>>>> On Fri, 12 Feb 2010 04:25:19 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >>>>>> wrote: >>>>>> >>>>>>> Ahoj, >>>>>>> >>>>>>> pokusná implementace je velmi rychlá a měla by být i spolehlivá. >>>>>>> >>>>>>> Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. >>>>>>> Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas >>>>>>> zpracování jednoho adresního bodu je 17 ms. To vše v jednom vlákně a >>>>>>> tedy to zatěžuje jen jedno jádro procesoru. >>>>>>> >>>>>>> Zítra to snad dodělám do použitelného stavu. >>>>>>> >>>>>>> Honza >>>>>>> >>>>>>> >>>>>>> 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>>>> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat >>>>>>>> pouze >>>>>>>> ta >>>>>>>> evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je tam ta >>>>>>>> dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že by to >>>>>>>> nešlo >>>>>>>> uříznout o trochu níž. Problém je, že už jsme to udělali špatně, takže >>>>>>>> by >>>>>>>> to bylo dobré napravit bez toho, abychom museli všechno předělávat. >>>>>>>> >>>>>>>> On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec <utx na penguin.cz> >>>>>>>> wrote: >>>>>>>> >>>>>>>>> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat uříznutou >>>>>>>>> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. >>>>>>>> >>>>>>>> >>>>>>>> -- >>>>>>>> Petr Dlouhý >>>>>>>> >>>>>>>> _______________________________________________ >>>>>>>> Talk-cz mailing list >>>>>>>> Talk-cz na openstreetmap.org >>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>>> >>>>>>> >>>>>>> _______________________________________________ >>>>>>> Talk-cz mailing list >>>>>>> Talk-cz na openstreetmap.org >>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>> >>>>>> >>>>>> -- >>>>>> Petr Dlouhý >>>>>> >>>>>> _______________________________________________ >>>>>> Talk-cz mailing list >>>>>> Talk-cz na openstreetmap.org >>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>> >>>>> >>>>> _______________________________________________ >>>>> Talk-cz mailing list >>>>> Talk-cz na openstreetmap.org >>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>> >>>> >>>> -- >>>> Petr Dlouhý >>>> >>>> _______________________________________________ >>>> Talk-cz mailing list >>>> Talk-cz na openstreetmap.org >>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>> >>> >> >

Ahoj, ten copyright je jen úplně nahoře na každé dlaždici, nebo se pletu? Pokud tomu tak je, tak bych volil možnost a), protože je to minimum z velikosti dlaždice, a ty se už stejně stahují s přesahem (kvůli tomu, že se čísla kreslí jen na dlaždici s tečkou). Jinak jsem se koukal na ten skript, a zdá se to velice dobré. Myslím, že by stálo za to to přepočítat, vzhledem k tomu, že je to tak 20x rychlejší, tak to asi nebude problém udělat na jednou počítači. Chyby vidím následující: -Některé adresní body nejsou vůbec detekovány, a u některých je prázdný text (přestože jsou daleko od všeho). -Často se objevuje [CHECK] i u bodů, které byly detekovány správně. Pokud je to v případech, kdy se čísla už skutečně překrývají, tak OK. Jenom se ptám, jestli není možné zvolit agresivnější ořez před detekcí (pozor na jiné posunutí č.e. vs č.p.). -V případech, kdy se objeví [CHECK], tak by asi skript měl stáhnout číslo ve vyšším rozlišení a detekovat to. On Fri, 12 Feb 2010 22:05:40 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Zkousel jsem to na jednom kousku (cca 300 dlazdic) z centra Prahy. > Prehryvy tomu prakticky vubec nevadi a detekuje rozpozna to spravne. > Ale co tomu vadi, to je ten copyright. Zatím totiž beru v úvahu pouze > červenou barvu. Jsou 3 možnosti jak to řešit: > > a) stahovat dlaždice s překryvem tak, že se bude rozpoznávat pouze z > těch částí mapy, které copyright není. Výhody: Nejlepší výsledky. > Nevýhody: Nutnost stahovat více dat z WMS. > > b) považovat černou barvu za červenou. Výhody: Nejsou nutné úpravy > downloaderu, u rozpoznávače jen triviální změna 3 konstant. Nevýhody: > Drobné zhoršení rozpoznávání v případě překryvu copyrightu s popiskem > - pokud se to nešikovně trefí, tak bude třeba ruční rozpoznání, ale > nemusí to znamenat nic, i když se to trefí. > > c) Provádět ruční kontrolu všech popisků s překryvem (těch může být > hodně). > > Osobně považuji c) za špatné řešení. A mezi a) a b) nemám vyhrazený > názor. Možnost a) je sice teoreticky nejlepší, ale b) nemusí mít > postřehnutelně horší výsledky. > > Honza > > > > 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >> Doplnil jsem tam chybějící číslici 4. >> >> Honza >> >> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>> K vyzkoušení: >>> http://jabi.aspone.cz/osm/OcrBeta1.zip >>> >>> Má to stejné ovládání jako původní tile-processor, ale navíc možnost >>> logování: >>> >>> FindAddressPoints.exe -tiles test-dir-with-png-images -output test.csv >>> -log log.txt -all >>> >>> -log log.txt ... pokud se toto uvede, tak program bude logovat >>> nerozpoznané body nebo ty, které byly narušené překryvem. >>> >>> Pokud se uvede navíc -all, tak se budou logovat všechny body. >>> >>> Soubor charDef.txt obsahuje definici znaků nebo posloupnosti znaků. Je >>> to také textový soubor, který když zobrazíte fontem s pevnou šířkou, >>> tak je myslím význam jasný. Chybí tam číslice 4 posunutá dolů (tedy za >>> č.o.), protože jsem na nic při pokusech nenarazil. Soubor musí být při >>> spuštění v aktuálním adresáři. >>> >>> Honza >>> >>> >>> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>>> Na slušné detekci překryvů právě pracuji a myslím, že rozhodně bude >>>> výrazně lepší než byla (to už je myslím teď). Ale stoprocentní >>>> samozřejmě ne - když překryv bude velký, tak to určitě nepůjde. >>>> >>>> Ale jinak si myslím, že generování dlaždic na serveru KN bude nějakou >>>> dobu trvat - a to, ať je na té dlaždici 5 bodů nebo třeba jen jeden. A >>>> také jim to bude zatěžovat servery, když se to přežene s rychlostí >>>> stahování (mnoho vláken apod.). >>>> >>>> Honza >>>> >>>> >>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>> Kvůli překryvům - čísla se s rozlišením zmenšují. >>>>> Nevím, jak moc je tvůj algoritmus dokonalý v detekci překrývajících >>>>> se >>>>> číslic, ale nevěřím, že dokážeš spolehlivě poznat, kde číslo skončí. >>>>> Samozřejmě je to otázka nějakého kompromisu, ale většinu času předtím >>>>> zabralo počítání. >>>>> >>>>> Myslím, že ale to dynamické rozlišení, které navrhuješ, nemá moc >>>>> cenu, >>>>> protože ty dlaždice jsou v PNG, takže by bílé plochy neměly zabírat >>>>> příliš >>>>> mnoho datového objemu. To samé platí pro vyšší rozlišení - zpomalení >>>>> může >>>>> nastat spíš tím, že je nutné zpracovat větší množství obrazové >>>>> informace. >>>>> >>>>> On Fri, 12 Feb 2010 15:39:54 +0100, Jan Bilak >>>>> <jan.bilak.osm na gmail.com> >>>>> wrote: >>>>> >>>>>> Ahoj, >>>>>> k čemu větší rozlišení? Spíše jsem uvažoval nad dynamickým >>>>>> rozlišením >>>>>> ... tedy stahovat výřezy nejprve v malém rozlišení a podle toho >>>>>> detekovat oblasti, které obsahují adresní body. A jen tyto úseky >>>>>> stahovat ve vyšším (třeba stávajícím) rozlišení. To by mohlo ušetřit >>>>>> množství stahovaných dat. Přijde mi, že nejpomalejší bude právě >>>>>> stahování dlaždic z WMS, takže obecným zvýšením rozlišení by se čas >>>>>> prodloužil. >>>>>> >>>>>> Mimochodem - nemáte někdo stažené dlaždice z nějaké větší oblasti, >>>>>> které byste mohli někam hodit zazipované, abych to nemusel stahovat >>>>>> z >>>>>> WMS pro testování? >>>>>> >>>>>> Honza >>>>>> >>>>>> >>>>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>>> Ahoj, >>>>>>> >>>>>>> zní to dobře, jestli by to opravdu neznamenalo příliš mnoho času, >>>>>>> tak by >>>>>>> možná stálo za to data kvůli té chybě předělat (pokud navíc zlepší >>>>>>> detekci >>>>>>> u překryvů, nebo díky rychlosti umožní stahovat dlaždice s větším >>>>>>> zoomem, >>>>>>> tak to bude další plus). >>>>>>> >>>>>>> On Fri, 12 Feb 2010 04:25:19 +0100, Jan Bilak >>>>>>> <jan.bilak.osm na gmail.com> >>>>>>> wrote: >>>>>>> >>>>>>>> Ahoj, >>>>>>>> >>>>>>>> pokusná implementace je velmi rychlá a měla by být i spolehlivá. >>>>>>>> >>>>>>>> Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. >>>>>>>> Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas >>>>>>>> zpracování jednoho adresního bodu je 17 ms. To vše v jednom >>>>>>>> vlákně a >>>>>>>> tedy to zatěžuje jen jedno jádro procesoru. >>>>>>>> >>>>>>>> Zítra to snad dodělám do použitelného stavu. >>>>>>>> >>>>>>>> Honza >>>>>>>> >>>>>>>> >>>>>>>> 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>>>>> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat >>>>>>>>> pouze >>>>>>>>> ta >>>>>>>>> evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je >>>>>>>>> tam ta >>>>>>>>> dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že >>>>>>>>> by to >>>>>>>>> nešlo >>>>>>>>> uříznout o trochu níž. Problém je, že už jsme to udělali špatně, >>>>>>>>> takže >>>>>>>>> by >>>>>>>>> to bylo dobré napravit bez toho, abychom museli všechno >>>>>>>>> předělávat. >>>>>>>>> >>>>>>>>> On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec >>>>>>>>> <utx na penguin.cz> >>>>>>>>> wrote: >>>>>>>>> >>>>>>>>>> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat >>>>>>>>>> uříznutou >>>>>>>>>> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. >>>>>>>>> >>>>>>>>> >>>>>>>>> -- >>>>>>>>> Petr Dlouhý >>>>>>>>> >>>>>>>>> _______________________________________________ >>>>>>>>> Talk-cz mailing list >>>>>>>>> Talk-cz na openstreetmap.org >>>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>>>> >>>>>>>> >>>>>>>> _______________________________________________ >>>>>>>> Talk-cz mailing list >>>>>>>> Talk-cz na openstreetmap.org >>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>> >>>>>>> >>>>>>> -- >>>>>>> Petr Dlouhý >>>>>>> >>>>>>> _______________________________________________ >>>>>>> Talk-cz mailing list >>>>>>> Talk-cz na openstreetmap.org >>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>> >>>>>> >>>>>> _______________________________________________ >>>>>> Talk-cz mailing list >>>>>> Talk-cz na openstreetmap.org >>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>> >>>>> >>>>> -- >>>>> Petr Dlouhý >>>>> >>>>> _______________________________________________ >>>>> Talk-cz mailing list >>>>> Talk-cz na openstreetmap.org >>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>> >>>> >>> >> > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

Ahoj, ten copyright je vlevo nahoře, ale pak i na souřadnici cca [530,510] px. Ta detekce bodů ... toho jsem si nevšiml. Jak to kontroluješ? Check ... to značí opravdu i nepatrný překryv. Pokud si to není jisté, tak je tam znak otazník a v hranatých závorkách seznam možností. Ještě tam dám jednu kontrolu a mělo byt o být myslím 100% spolehlivé, když tam nebude žádný červený bod chybět (tedy je třeba použít možnost a) nebo b) vypořádání se s copyrightem). Ořez před detekcí nedělám ... detekce si sama řídí, kdy skončit. Check by nemělo být nic, co by bylo třeba ručně kontrolovat - až se vyřeší ten copyright a přidám tam tu jednu drobnou kontrolu. Těch možností, kdy se tam objeví otazník (není si to jisté) je myslím minimum. Zatím se mi to nestalo. Honza 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Ahoj, > > ten copyright je jen úplně nahoře na každé dlaždici, nebo se pletu? Pokud > tomu tak je, tak bych volil možnost a), protože je to minimum z velikosti > dlaždice, a ty se už stejně stahují s přesahem (kvůli tomu, že se čísla > kreslí jen na dlaždici s tečkou). > > Jinak jsem se koukal na ten skript, a zdá se to velice dobré. Myslím, že > by stálo za to to přepočítat, vzhledem k tomu, že je to tak 20x rychlejší, > tak to asi nebude problém udělat na jednou počítači. > > Chyby vidím následující: > > -Některé adresní body nejsou vůbec detekovány, a u některých je prázdný > text (přestože jsou daleko od všeho). > -Často se objevuje [CHECK] i u bodů, které byly detekovány správně. Pokud > je to v případech, kdy se čísla už skutečně překrývají, tak OK. Jenom se > ptám, jestli není možné zvolit agresivnější ořez před detekcí (pozor na > jiné posunutí č.e. vs č.p.). > -V případech, kdy se objeví [CHECK], tak by asi skript měl stáhnout číslo > ve vyšším rozlišení a detekovat to. > > > On Fri, 12 Feb 2010 22:05:40 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > >> Zkousel jsem to na jednom kousku (cca 300 dlazdic) z centra Prahy. >> Prehryvy tomu prakticky vubec nevadi a detekuje rozpozna to spravne. >> Ale co tomu vadi, to je ten copyright. Zatím totiž beru v úvahu pouze >> červenou barvu. Jsou 3 možnosti jak to řešit: >> >> a) stahovat dlaždice s překryvem tak, že se bude rozpoznávat pouze z >> těch částí mapy, které copyright není. Výhody: Nejlepší výsledky. >> Nevýhody: Nutnost stahovat více dat z WMS. >> >> b) považovat černou barvu za červenou. Výhody: Nejsou nutné úpravy >> downloaderu, u rozpoznávače jen triviální změna 3 konstant. Nevýhody: >> Drobné zhoršení rozpoznávání v případě překryvu copyrightu s popiskem >> - pokud se to nešikovně trefí, tak bude třeba ruční rozpoznání, ale >> nemusí to znamenat nic, i když se to trefí. >> >> c) Provádět ruční kontrolu všech popisků s překryvem (těch může být >> hodně). >> >> Osobně považuji c) za špatné řešení. A mezi a) a b) nemám vyhrazený >> názor. Možnost a) je sice teoreticky nejlepší, ale b) nemusí mít >> postřehnutelně horší výsledky. >> >> Honza >> >> >> >> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>> Doplnil jsem tam chybějící číslici 4. >>> >>> Honza >>> >>> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>>> K vyzkoušení: >>>> http://jabi.aspone.cz/osm/OcrBeta1.zip >>>> >>>> Má to stejné ovládání jako původní tile-processor, ale navíc možnost >>>> logování: >>>> >>>> FindAddressPoints.exe -tiles test-dir-with-png-images -output test.csv >>>> -log log.txt -all >>>> >>>> -log log.txt ... pokud se toto uvede, tak program bude logovat >>>> nerozpoznané body nebo ty, které byly narušené překryvem. >>>> >>>> Pokud se uvede navíc -all, tak se budou logovat všechny body. >>>> >>>> Soubor charDef.txt obsahuje definici znaků nebo posloupnosti znaků. Je >>>> to také textový soubor, který když zobrazíte fontem s pevnou šířkou, >>>> tak je myslím význam jasný. Chybí tam číslice 4 posunutá dolů (tedy za >>>> č.o.), protože jsem na nic při pokusech nenarazil. Soubor musí být při >>>> spuštění v aktuálním adresáři. >>>> >>>> Honza >>>> >>>> >>>> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>>>> Na slušné detekci překryvů právě pracuji a myslím, že rozhodně bude >>>>> výrazně lepší než byla (to už je myslím teď). Ale stoprocentní >>>>> samozřejmě ne - když překryv bude velký, tak to určitě nepůjde. >>>>> >>>>> Ale jinak si myslím, že generování dlaždic na serveru KN bude nějakou >>>>> dobu trvat - a to, ať je na té dlaždici 5 bodů nebo třeba jen jeden. A >>>>> také jim to bude zatěžovat servery, když se to přežene s rychlostí >>>>> stahování (mnoho vláken apod.). >>>>> >>>>> Honza >>>>> >>>>> >>>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>> Kvůli překryvům - čísla se s rozlišením zmenšují. >>>>>> Nevím, jak moc je tvůj algoritmus dokonalý v detekci překrývajících >>>>>> se >>>>>> číslic, ale nevěřím, že dokážeš spolehlivě poznat, kde číslo skončí. >>>>>> Samozřejmě je to otázka nějakého kompromisu, ale většinu času předtím >>>>>> zabralo počítání. >>>>>> >>>>>> Myslím, že ale to dynamické rozlišení, které navrhuješ, nemá moc >>>>>> cenu, >>>>>> protože ty dlaždice jsou v PNG, takže by bílé plochy neměly zabírat >>>>>> příliš >>>>>> mnoho datového objemu. To samé platí pro vyšší rozlišení - zpomalení >>>>>> může >>>>>> nastat spíš tím, že je nutné zpracovat větší množství obrazové >>>>>> informace. >>>>>> >>>>>> On Fri, 12 Feb 2010 15:39:54 +0100, Jan Bilak >>>>>> <jan.bilak.osm na gmail.com> >>>>>> wrote: >>>>>> >>>>>>> Ahoj, >>>>>>> k čemu větší rozlišení? Spíše jsem uvažoval nad dynamickým >>>>>>> rozlišením >>>>>>> ... tedy stahovat výřezy nejprve v malém rozlišení a podle toho >>>>>>> detekovat oblasti, které obsahují adresní body. A jen tyto úseky >>>>>>> stahovat ve vyšším (třeba stávajícím) rozlišení. To by mohlo ušetřit >>>>>>> množství stahovaných dat. Přijde mi, že nejpomalejší bude právě >>>>>>> stahování dlaždic z WMS, takže obecným zvýšením rozlišení by se čas >>>>>>> prodloužil. >>>>>>> >>>>>>> Mimochodem - nemáte někdo stažené dlaždice z nějaké větší oblasti, >>>>>>> které byste mohli někam hodit zazipované, abych to nemusel stahovat >>>>>>> z >>>>>>> WMS pro testování? >>>>>>> >>>>>>> Honza >>>>>>> >>>>>>> >>>>>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>>>> Ahoj, >>>>>>>> >>>>>>>> zní to dobře, jestli by to opravdu neznamenalo příliš mnoho času, >>>>>>>> tak by >>>>>>>> možná stálo za to data kvůli té chybě předělat (pokud navíc zlepší >>>>>>>> detekci >>>>>>>> u překryvů, nebo díky rychlosti umožní stahovat dlaždice s větším >>>>>>>> zoomem, >>>>>>>> tak to bude další plus). >>>>>>>> >>>>>>>> On Fri, 12 Feb 2010 04:25:19 +0100, Jan Bilak >>>>>>>> <jan.bilak.osm na gmail.com> >>>>>>>> wrote: >>>>>>>> >>>>>>>>> Ahoj, >>>>>>>>> >>>>>>>>> pokusná implementace je velmi rychlá a měla by být i spolehlivá. >>>>>>>>> >>>>>>>>> Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. >>>>>>>>> Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas >>>>>>>>> zpracování jednoho adresního bodu je 17 ms. To vše v jednom >>>>>>>>> vlákně a >>>>>>>>> tedy to zatěžuje jen jedno jádro procesoru. >>>>>>>>> >>>>>>>>> Zítra to snad dodělám do použitelného stavu. >>>>>>>>> >>>>>>>>> Honza >>>>>>>>> >>>>>>>>> >>>>>>>>> 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>>>>>> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat >>>>>>>>>> pouze >>>>>>>>>> ta >>>>>>>>>> evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je >>>>>>>>>> tam ta >>>>>>>>>> dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že >>>>>>>>>> by to >>>>>>>>>> nešlo >>>>>>>>>> uříznout o trochu níž. Problém je, že už jsme to udělali špatně, >>>>>>>>>> takže >>>>>>>>>> by >>>>>>>>>> to bylo dobré napravit bez toho, abychom museli všechno >>>>>>>>>> předělávat. >>>>>>>>>> >>>>>>>>>> On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec >>>>>>>>>> <utx na penguin.cz> >>>>>>>>>> wrote: >>>>>>>>>> >>>>>>>>>>> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat >>>>>>>>>>> uříznutou >>>>>>>>>>> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. >>>>>>>>>> >>>>>>>>>> >>>>>>>>>> -- >>>>>>>>>> Petr Dlouhý >>>>>>>>>> >>>>>>>>>> _______________________________________________ >>>>>>>>>> Talk-cz mailing list >>>>>>>>>> Talk-cz na openstreetmap.org >>>>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>>>>> >>>>>>>>> >>>>>>>>> _______________________________________________ >>>>>>>>> Talk-cz mailing list >>>>>>>>> Talk-cz na openstreetmap.org >>>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>>> >>>>>>>> >>>>>>>> -- >>>>>>>> Petr Dlouhý >>>>>>>> >>>>>>>> _______________________________________________ >>>>>>>> Talk-cz mailing list >>>>>>>> Talk-cz na openstreetmap.org >>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>>> >>>>>>> >>>>>>> _______________________________________________ >>>>>>> Talk-cz mailing list >>>>>>> Talk-cz na openstreetmap.org >>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>> >>>>>> >>>>>> -- >>>>>> Petr Dlouhý >>>>>> >>>>>> _______________________________________________ >>>>>> Talk-cz mailing list >>>>>> Talk-cz na openstreetmap.org >>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>> >>>>> >>>> >>> >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Jinak ... když si povolíš logování, tak se loguje i grafická reprezentace toho textu, takže tam uvidíš, co a jak to rozpoznává. Honza 2010/2/13 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> Ahoj, > ten copyright je vlevo nahoře, ale pak i na souřadnici cca [530,510] px. > > Ta detekce bodů ... toho jsem si nevšiml. Jak to kontroluješ? > > Check ... to značí opravdu i nepatrný překryv. Pokud si to není jisté, > tak je tam znak otazník a v hranatých závorkách seznam možností. Ještě > tam dám jednu kontrolu a mělo byt o být myslím 100% spolehlivé, když > tam nebude žádný červený bod chybět (tedy je třeba použít možnost a) > nebo b) vypořádání se s copyrightem). > > Ořez před detekcí nedělám ... detekce si sama řídí, kdy skončit. > > Check by nemělo být nic, co by bylo třeba ručně kontrolovat - až se > vyřeší ten copyright a přidám tam tu jednu drobnou kontrolu. Těch > možností, kdy se tam objeví otazník (není si to jisté) je myslím > minimum. Zatím se mi to nestalo. > > Honza > > > 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: >> Ahoj, >> >> ten copyright je jen úplně nahoře na každé dlaždici, nebo se pletu? Pokud >> tomu tak je, tak bych volil možnost a), protože je to minimum z velikosti >> dlaždice, a ty se už stejně stahují s přesahem (kvůli tomu, že se čísla >> kreslí jen na dlaždici s tečkou). >> >> Jinak jsem se koukal na ten skript, a zdá se to velice dobré. Myslím, že >> by stálo za to to přepočítat, vzhledem k tomu, že je to tak 20x rychlejší, >> tak to asi nebude problém udělat na jednou počítači. >> >> Chyby vidím následující: >> >> -Některé adresní body nejsou vůbec detekovány, a u některých je prázdný >> text (přestože jsou daleko od všeho). >> -Často se objevuje [CHECK] i u bodů, které byly detekovány správně. Pokud >> je to v případech, kdy se čísla už skutečně překrývají, tak OK. Jenom se >> ptám, jestli není možné zvolit agresivnější ořez před detekcí (pozor na >> jiné posunutí č.e. vs č.p.). >> -V případech, kdy se objeví [CHECK], tak by asi skript měl stáhnout číslo >> ve vyšším rozlišení a detekovat to. >> >> >> On Fri, 12 Feb 2010 22:05:40 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >> wrote: >> >>> Zkousel jsem to na jednom kousku (cca 300 dlazdic) z centra Prahy. >>> Prehryvy tomu prakticky vubec nevadi a detekuje rozpozna to spravne. >>> Ale co tomu vadi, to je ten copyright. Zatím totiž beru v úvahu pouze >>> červenou barvu. Jsou 3 možnosti jak to řešit: >>> >>> a) stahovat dlaždice s překryvem tak, že se bude rozpoznávat pouze z >>> těch částí mapy, které copyright není. Výhody: Nejlepší výsledky. >>> Nevýhody: Nutnost stahovat více dat z WMS. >>> >>> b) považovat černou barvu za červenou. Výhody: Nejsou nutné úpravy >>> downloaderu, u rozpoznávače jen triviální změna 3 konstant. Nevýhody: >>> Drobné zhoršení rozpoznávání v případě překryvu copyrightu s popiskem >>> - pokud se to nešikovně trefí, tak bude třeba ruční rozpoznání, ale >>> nemusí to znamenat nic, i když se to trefí. >>> >>> c) Provádět ruční kontrolu všech popisků s překryvem (těch může být >>> hodně). >>> >>> Osobně považuji c) za špatné řešení. A mezi a) a b) nemám vyhrazený >>> názor. Možnost a) je sice teoreticky nejlepší, ale b) nemusí mít >>> postřehnutelně horší výsledky. >>> >>> Honza >>> >>> >>> >>> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>>> Doplnil jsem tam chybějící číslici 4. >>>> >>>> Honza >>>> >>>> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>>>> K vyzkoušení: >>>>> http://jabi.aspone.cz/osm/OcrBeta1.zip >>>>> >>>>> Má to stejné ovládání jako původní tile-processor, ale navíc možnost >>>>> logování: >>>>> >>>>> FindAddressPoints.exe -tiles test-dir-with-png-images -output test.csv >>>>> -log log.txt -all >>>>> >>>>> -log log.txt ... pokud se toto uvede, tak program bude logovat >>>>> nerozpoznané body nebo ty, které byly narušené překryvem. >>>>> >>>>> Pokud se uvede navíc -all, tak se budou logovat všechny body. >>>>> >>>>> Soubor charDef.txt obsahuje definici znaků nebo posloupnosti znaků. Je >>>>> to také textový soubor, který když zobrazíte fontem s pevnou šířkou, >>>>> tak je myslím význam jasný. Chybí tam číslice 4 posunutá dolů (tedy za >>>>> č.o.), protože jsem na nic při pokusech nenarazil. Soubor musí být při >>>>> spuštění v aktuálním adresáři. >>>>> >>>>> Honza >>>>> >>>>> >>>>> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>>>>> Na slušné detekci překryvů právě pracuji a myslím, že rozhodně bude >>>>>> výrazně lepší než byla (to už je myslím teď). Ale stoprocentní >>>>>> samozřejmě ne - když překryv bude velký, tak to určitě nepůjde. >>>>>> >>>>>> Ale jinak si myslím, že generování dlaždic na serveru KN bude nějakou >>>>>> dobu trvat - a to, ať je na té dlaždici 5 bodů nebo třeba jen jeden. A >>>>>> také jim to bude zatěžovat servery, když se to přežene s rychlostí >>>>>> stahování (mnoho vláken apod.). >>>>>> >>>>>> Honza >>>>>> >>>>>> >>>>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>>> Kvůli překryvům - čísla se s rozlišením zmenšují. >>>>>>> Nevím, jak moc je tvůj algoritmus dokonalý v detekci překrývajících >>>>>>> se >>>>>>> číslic, ale nevěřím, že dokážeš spolehlivě poznat, kde číslo skončí. >>>>>>> Samozřejmě je to otázka nějakého kompromisu, ale většinu času předtím >>>>>>> zabralo počítání. >>>>>>> >>>>>>> Myslím, že ale to dynamické rozlišení, které navrhuješ, nemá moc >>>>>>> cenu, >>>>>>> protože ty dlaždice jsou v PNG, takže by bílé plochy neměly zabírat >>>>>>> příliš >>>>>>> mnoho datového objemu. To samé platí pro vyšší rozlišení - zpomalení >>>>>>> může >>>>>>> nastat spíš tím, že je nutné zpracovat větší množství obrazové >>>>>>> informace. >>>>>>> >>>>>>> On Fri, 12 Feb 2010 15:39:54 +0100, Jan Bilak >>>>>>> <jan.bilak.osm na gmail.com> >>>>>>> wrote: >>>>>>> >>>>>>>> Ahoj, >>>>>>>> k čemu větší rozlišení? Spíše jsem uvažoval nad dynamickým >>>>>>>> rozlišením >>>>>>>> ... tedy stahovat výřezy nejprve v malém rozlišení a podle toho >>>>>>>> detekovat oblasti, které obsahují adresní body. A jen tyto úseky >>>>>>>> stahovat ve vyšším (třeba stávajícím) rozlišení. To by mohlo ušetřit >>>>>>>> množství stahovaných dat. Přijde mi, že nejpomalejší bude právě >>>>>>>> stahování dlaždic z WMS, takže obecným zvýšením rozlišení by se čas >>>>>>>> prodloužil. >>>>>>>> >>>>>>>> Mimochodem - nemáte někdo stažené dlaždice z nějaké větší oblasti, >>>>>>>> které byste mohli někam hodit zazipované, abych to nemusel stahovat >>>>>>>> z >>>>>>>> WMS pro testování? >>>>>>>> >>>>>>>> Honza >>>>>>>> >>>>>>>> >>>>>>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>>>>> Ahoj, >>>>>>>>> >>>>>>>>> zní to dobře, jestli by to opravdu neznamenalo příliš mnoho času, >>>>>>>>> tak by >>>>>>>>> možná stálo za to data kvůli té chybě předělat (pokud navíc zlepší >>>>>>>>> detekci >>>>>>>>> u překryvů, nebo díky rychlosti umožní stahovat dlaždice s větším >>>>>>>>> zoomem, >>>>>>>>> tak to bude další plus). >>>>>>>>> >>>>>>>>> On Fri, 12 Feb 2010 04:25:19 +0100, Jan Bilak >>>>>>>>> <jan.bilak.osm na gmail.com> >>>>>>>>> wrote: >>>>>>>>> >>>>>>>>>> Ahoj, >>>>>>>>>> >>>>>>>>>> pokusná implementace je velmi rychlá a měla by být i spolehlivá. >>>>>>>>>> >>>>>>>>>> Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. >>>>>>>>>> Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas >>>>>>>>>> zpracování jednoho adresního bodu je 17 ms. To vše v jednom >>>>>>>>>> vlákně a >>>>>>>>>> tedy to zatěžuje jen jedno jádro procesoru. >>>>>>>>>> >>>>>>>>>> Zítra to snad dodělám do použitelného stavu. >>>>>>>>>> >>>>>>>>>> Honza >>>>>>>>>> >>>>>>>>>> >>>>>>>>>> 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>>>>>>> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat >>>>>>>>>>> pouze >>>>>>>>>>> ta >>>>>>>>>>> evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je >>>>>>>>>>> tam ta >>>>>>>>>>> dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že >>>>>>>>>>> by to >>>>>>>>>>> nešlo >>>>>>>>>>> uříznout o trochu níž. Problém je, že už jsme to udělali špatně, >>>>>>>>>>> takže >>>>>>>>>>> by >>>>>>>>>>> to bylo dobré napravit bez toho, abychom museli všechno >>>>>>>>>>> předělávat. >>>>>>>>>>> >>>>>>>>>>> On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec >>>>>>>>>>> <utx na penguin.cz> >>>>>>>>>>> wrote: >>>>>>>>>>> >>>>>>>>>>>> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat >>>>>>>>>>>> uříznutou >>>>>>>>>>>> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. >>>>>>>>>>> >>>>>>>>>>> >>>>>>>>>>> -- >>>>>>>>>>> Petr Dlouhý >>>>>>>>>>> >>>>>>>>>>> _______________________________________________ >>>>>>>>>>> Talk-cz mailing list >>>>>>>>>>> Talk-cz na openstreetmap.org >>>>>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>>>>>> >>>>>>>>>> >>>>>>>>>> _______________________________________________ >>>>>>>>>> Talk-cz mailing list >>>>>>>>>> Talk-cz na openstreetmap.org >>>>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>>>> >>>>>>>>> >>>>>>>>> -- >>>>>>>>> Petr Dlouhý >>>>>>>>> >>>>>>>>> _______________________________________________ >>>>>>>>> Talk-cz mailing list >>>>>>>>> Talk-cz na openstreetmap.org >>>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>>>> >>>>>>>> >>>>>>>> _______________________________________________ >>>>>>>> Talk-cz mailing list >>>>>>>> Talk-cz na openstreetmap.org >>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>> >>>>>>> >>>>>>> -- >>>>>>> Petr Dlouhý >>>>>>> >>>>>>> _______________________________________________ >>>>>>> Talk-cz mailing list >>>>>>> Talk-cz na openstreetmap.org >>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>> >>>>>> >>>>> >>>> >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >> >> >> -- >> Petr Dlouhý >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> >

Ahoj, teprv teď jsem si všiml toho krásného logu. Ořez by mohl být o 1 pixel nižší a o něco užší (nevím ale kolikaciferná je nejdelší adresa). Další nápady na snížení množství [CHECK] jsou: Pokud adresa začíná na "bez č.p./č.e." tak není nutné dávat [CHECK], ale stačí oříznout zbytek řetězce (tím se vyřadí tak polovina případů). Pokud je tam navíc pouze pár bodů nižších než číslice/písmeno, nemohou ji tvořit, a tudíž není nutné dávat [CHECK], protože se tam nemohl připlést nějaký další adresný bod, který by musel začínat na č nebo b. Pro vypořádání s copyrightem existuje ještě možnost d) - pokud si skript není jist výsledkem, tak si stáhne zazoomované číslo, takže mu muže být copyright jedno. Spolehlivé to není hlavně v místech, kde je několik adres v jednom shluku (poměrně blízko sebe). Kontroluju to tak, že si vygeneruju adresní body pomocí Merge skriptu a otevřu to v JOSM. PS. Jestli pořád sháníš testovací data, můžu ti poslat celou prahu-západ, myslel jsem, že už jsem jí smazal, ale není tomu tak. zobrazit citaci

> ------------ Původní zpráva ------------ > Od: Petr Dlouhý <petr.dlouhy na email.cz> > Předmět: Re: [Talk-cz] Import adres z katastralni mapy > Datum: 13.2.2010 00:29:16 > ---------------------------------------- > Ahoj, > > ten copyright je jen úplně nahoře na každé dlaždici, nebo se pletu? Pokud > tomu tak je, tak bych volil možnost a), protože je to minimum z velikosti > dlaždice, a ty se už stejně stahují s přesahem (kvůli tomu, že se čísla > kreslí jen na dlaždici s tečkou). > > Jinak jsem se koukal na ten skript, a zdá se to velice dobré. Myslím, že > by stálo za to to přepočítat, vzhledem k tomu, že je to tak 20x rychlejší, > tak to asi nebude problém udělat na jednou počítači. > > Chyby vidím následující: > > -Některé adresní body nejsou vůbec detekovány, a u některých je prázdný > text (přestože jsou daleko od všeho). > -Často se objevuje [CHECK] i u bodů, které byly detekovány správně. Pokud > je to v případech, kdy se čísla už skutečně překrývají, tak OK. Jenom se > ptám, jestli není možné zvolit agresivnější ořez před detekcí (pozor na > jiné posunutí č.e. vs č.p.). > -V případech, kdy se objeví [CHECK], tak by asi skript měl stáhnout číslo > ve vyšším rozlišení a detekovat to. > > > On Fri, 12 Feb 2010 22:05:40 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > > > Zkousel jsem to na jednom kousku (cca 300 dlazdic) z centra Prahy. > > Prehryvy tomu prakticky vubec nevadi a detekuje rozpozna to spravne. > > Ale co tomu vadi, to je ten copyright. Zatím totiž beru v úvahu pouze > > červenou barvu. Jsou 3 možnosti jak to řešit: > > > > a) stahovat dlaždice s překryvem tak, že se bude rozpoznávat pouze z > > těch částí mapy, které copyright není. Výhody: Nejlepší výsledky. > > Nevýhody: Nutnost stahovat více dat z WMS. > > > > b) považovat černou barvu za červenou. Výhody: Nejsou nutné úpravy > > downloaderu, u rozpoznávače jen triviální změna 3 konstant. Nevýhody: > > Drobné zhoršení rozpoznávání v případě překryvu copyrightu s popiskem > > - pokud se to nešikovně trefí, tak bude třeba ruční rozpoznání, ale > > nemusí to znamenat nic, i když se to trefí. > > > > c) Provádět ruční kontrolu všech popisků s překryvem (těch může být > > hodně). > > > > Osobně považuji c) za špatné řešení. A mezi a) a b) nemám vyhrazený > > názor. Možnost a) je sice teoreticky nejlepší, ale b) nemusí mít > > postřehnutelně horší výsledky. > > > > Honza > > > > > > > > 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: > >> Doplnil jsem tam chybějící číslici 4. > >> > >> Honza > >> > >> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: > >>> K vyzkoušení: > >>> http://jabi.aspone.cz/osm/OcrBeta1.zip > >>> > >>> Má to stejné ovládání jako původní tile-processor, ale navíc možnost > >>> logování: > >>> > >>> FindAddressPoints.exe -tiles test-dir-with-png-images -output test.csv > >>> -log log.txt -all > >>> > >>> -log log.txt ... pokud se toto uvede, tak program bude logovat > >>> nerozpoznané body nebo ty, které byly narušené překryvem. > >>> > >>> Pokud se uvede navíc -all, tak se budou logovat všechny body. > >>> > >>> Soubor charDef.txt obsahuje definici znaků nebo posloupnosti znaků. Je > >>> to také textový soubor, který když zobrazíte fontem s pevnou šířkou, > >>> tak je myslím význam jasný. Chybí tam číslice 4 posunutá dolů (tedy za > >>> č.o.), protože jsem na nic při pokusech nenarazil. Soubor musí být při > >>> spuštění v aktuálním adresáři. > >>> > >>> Honza > >>> > >>> > >>> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: > >>>> Na slušné detekci překryvů právě pracuji a myslím, že rozhodně bude > >>>> výrazně lepší než byla (to už je myslím teď). Ale stoprocentní > >>>> samozřejmě ne - když překryv bude velký, tak to určitě nepůjde. > >>>> > >>>> Ale jinak si myslím, že generování dlaždic na serveru KN bude nějakou > >>>> dobu trvat - a to, ať je na té dlaždici 5 bodů nebo třeba jen jeden. A > >>>> také jim to bude zatěžovat servery, když se to přežene s rychlostí > >>>> stahování (mnoho vláken apod.). > >>>> > >>>> Honza > >>>> > >>>> > >>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: > >>>>> Kvůli překryvům - čísla se s rozlišením zmenšují. > >>>>> Nevím, jak moc je tvůj algoritmus dokonalý v detekci překrývajících > >>>>> se > >>>>> číslic, ale nevěřím, že dokážeš spolehlivě poznat, kde číslo skončí. > >>>>> Samozřejmě je to otázka nějakého kompromisu, ale většinu času předtím > >>>>> zabralo počítání. > >>>>> > >>>>> Myslím, že ale to dynamické rozlišení, které navrhuješ, nemá moc > >>>>> cenu, > >>>>> protože ty dlaždice jsou v PNG, takže by bílé plochy neměly zabírat > >>>>> příliš > >>>>> mnoho datového objemu. To samé platí pro vyšší rozlišení - zpomalení > >>>>> může > >>>>> nastat spíš tím, že je nutné zpracovat větší množství obrazové > >>>>> informace. > >>>>> > >>>>> On Fri, 12 Feb 2010 15:39:54 +0100, Jan Bilak > >>>>> <jan.bilak.osm na gmail.com> > >>>>> wrote: > >>>>> > >>>>>> Ahoj, > >>>>>> k čemu větší rozlišení? Spíše jsem uvažoval nad dynamickým > >>>>>> rozlišením > >>>>>> ... tedy stahovat výřezy nejprve v malém rozlišení a podle toho > >>>>>> detekovat oblasti, které obsahují adresní body. A jen tyto úseky > >>>>>> stahovat ve vyšším (třeba stávajícím) rozlišení. To by mohlo ušetřit > >>>>>> množství stahovaných dat. Přijde mi, že nejpomalejší bude právě > >>>>>> stahování dlaždic z WMS, takže obecným zvýšením rozlišení by se čas > >>>>>> prodloužil. > >>>>>> > >>>>>> Mimochodem - nemáte někdo stažené dlaždice z nějaké větší oblasti, > >>>>>> které byste mohli někam hodit zazipované, abych to nemusel stahovat > >>>>>> z > >>>>>> WMS pro testování? > >>>>>> > >>>>>> Honza > >>>>>> > >>>>>> > >>>>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: > >>>>>>> Ahoj, > >>>>>>> > >>>>>>> zní to dobře, jestli by to opravdu neznamenalo příliš mnoho času, > >>>>>>> tak by > >>>>>>> možná stálo za to data kvůli té chybě předělat (pokud navíc zlepší > >>>>>>> detekci > >>>>>>> u překryvů, nebo díky rychlosti umožní stahovat dlaždice s větším > >>>>>>> zoomem, > >>>>>>> tak to bude další plus). > >>>>>>> > >>>>>>> On Fri, 12 Feb 2010 04:25:19 +0100, Jan Bilak > >>>>>>> <jan.bilak.osm na gmail.com> > >>>>>>> wrote: > >>>>>>> > >>>>>>>> Ahoj, > >>>>>>>> > >>>>>>>> pokusná implementace je velmi rychlá a měla by být i spolehlivá. > >>>>>>>> > >>>>>>>> Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. > >>>>>>>> Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas > >>>>>>>> zpracování jednoho adresního bodu je 17 ms. To vše v jednom > >>>>>>>> vlákně a > >>>>>>>> tedy to zatěžuje jen jedno jádro procesoru. > >>>>>>>> > >>>>>>>> Zítra to snad dodělám do použitelného stavu. > >>>>>>>> > >>>>>>>> Honza > >>>>>>>> > >>>>>>>> > >>>>>>>> 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: > >>>>>>>>> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat > >>>>>>>>> pouze > >>>>>>>>> ta > >>>>>>>>> evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je > >>>>>>>>> tam ta > >>>>>>>>> dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že > >>>>>>>>> by to > >>>>>>>>> nešlo > >>>>>>>>> uříznout o trochu níž. Problém je, že už jsme to udělali špatně, > >>>>>>>>> takže > >>>>>>>>> by > >>>>>>>>> to bylo dobré napravit bez toho, abychom museli všechno > >>>>>>>>> předělávat. > >>>>>>>>> > >>>>>>>>> On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec > >>>>>>>>> <utx na penguin.cz> > >>>>>>>>> wrote: > >>>>>>>>> > >>>>>>>>>> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat > >>>>>>>>>> uříznutou > >>>>>>>>>> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. > >>>>>>>>> > >>>>>>>>> > >>>>>>>>> -- > >>>>>>>>> Petr Dlouhý > >>>>>>>>> > >>>>>>>>> _______________________________________________ > >>>>>>>>> Talk-cz mailing list > >>>>>>>>> Talk-cz na openstreetmap.org > >>>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz > >>>>>>>>> > >>>>>>>> > >>>>>>>> _______________________________________________ > >>>>>>>> Talk-cz mailing list > >>>>>>>> Talk-cz na openstreetmap.org > >>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz > >>>>>>> > >>>>>>> > >>>>>>> -- > >>>>>>> Petr Dlouhý > >>>>>>> > >>>>>>> _______________________________________________ > >>>>>>> Talk-cz mailing list > >>>>>>> Talk-cz na openstreetmap.org > >>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz > >>>>>>> > >>>>>> > >>>>>> _______________________________________________ > >>>>>> Talk-cz mailing list > >>>>>> Talk-cz na openstreetmap.org > >>>>>> http://lists.openstreetmap.org/listinfo/talk-cz > >>>>> > >>>>> > >>>>> -- > >>>>> Petr Dlouhý > >>>>> > >>>>> _______________________________________________ > >>>>> Talk-cz mailing list > >>>>> Talk-cz na openstreetmap.org > >>>>> http://lists.openstreetmap.org/listinfo/talk-cz > >>>>> > >>>> > >>> > >> > > > > _______________________________________________ > > Talk-cz mailing list > > Talk-cz na openstreetmap.org > > http://lists.openstreetmap.org/listinfo/talk-cz > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz > > >

Petr Dlouhý petr.dlouhy na email.cz

Ty body, které nemají rozpoznané popisky, jsou myslím příliš u kraje. Tedy nyní tam mám nějaký tvrdý limit podle vzdálenosti bodu od kraje (tuším 120px od pravého okraje, a cca 20 od horního). Na ploše, kde to má rozpoznávat, je třeba se dohodnout. Pokud máš nějaký případ, který není takto blízko kraje, tak mi prosím pošli dlaždici. Přidám tamk takovým bodům zatím popisek [out-of-box] do csv souboru. A ocením i zaslání dlaždice, kde bod nebyl nalezen vůbec. Honza 2010/2/13 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> Jinak ... když si povolíš logování, tak se loguje i grafická > reprezentace toho textu, takže tam uvidíš, co a jak to rozpoznává. > > Honza > > > 2010/2/13 Jan Bilak <jan.bilak.osm na gmail.com>: >> Ahoj, >> ten copyright je vlevo nahoře, ale pak i na souřadnici cca [530,510] px. >> >> Ta detekce bodů ... toho jsem si nevšiml. Jak to kontroluješ? >> >> Check ... to značí opravdu i nepatrný překryv. Pokud si to není jisté, >> tak je tam znak otazník a v hranatých závorkách seznam možností. Ještě >> tam dám jednu kontrolu a mělo byt o být myslím 100% spolehlivé, když >> tam nebude žádný červený bod chybět (tedy je třeba použít možnost a) >> nebo b) vypořádání se s copyrightem). >> >> Ořez před detekcí nedělám ... detekce si sama řídí, kdy skončit. >> >> Check by nemělo být nic, co by bylo třeba ručně kontrolovat - až se >> vyřeší ten copyright a přidám tam tu jednu drobnou kontrolu. Těch >> možností, kdy se tam objeví otazník (není si to jisté) je myslím >> minimum. Zatím se mi to nestalo. >> >> Honza >> >> >> 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: >>> Ahoj, >>> >>> ten copyright je jen úplně nahoře na každé dlaždici, nebo se pletu? Pokud >>> tomu tak je, tak bych volil možnost a), protože je to minimum z velikosti >>> dlaždice, a ty se už stejně stahují s přesahem (kvůli tomu, že se čísla >>> kreslí jen na dlaždici s tečkou). >>> >>> Jinak jsem se koukal na ten skript, a zdá se to velice dobré. Myslím, že >>> by stálo za to to přepočítat, vzhledem k tomu, že je to tak 20x rychlejší, >>> tak to asi nebude problém udělat na jednou počítači. >>> >>> Chyby vidím následující: >>> >>> -Některé adresní body nejsou vůbec detekovány, a u některých je prázdný >>> text (přestože jsou daleko od všeho). >>> -Často se objevuje [CHECK] i u bodů, které byly detekovány správně. Pokud >>> je to v případech, kdy se čísla už skutečně překrývají, tak OK. Jenom se >>> ptám, jestli není možné zvolit agresivnější ořez před detekcí (pozor na >>> jiné posunutí č.e. vs č.p.). >>> -V případech, kdy se objeví [CHECK], tak by asi skript měl stáhnout číslo >>> ve vyšším rozlišení a detekovat to. >>> >>> >>> On Fri, 12 Feb 2010 22:05:40 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >>> wrote: >>> >>>> Zkousel jsem to na jednom kousku (cca 300 dlazdic) z centra Prahy. >>>> Prehryvy tomu prakticky vubec nevadi a detekuje rozpozna to spravne. >>>> Ale co tomu vadi, to je ten copyright. Zatím totiž beru v úvahu pouze >>>> červenou barvu. Jsou 3 možnosti jak to řešit: >>>> >>>> a) stahovat dlaždice s překryvem tak, že se bude rozpoznávat pouze z >>>> těch částí mapy, které copyright není. Výhody: Nejlepší výsledky. >>>> Nevýhody: Nutnost stahovat více dat z WMS. >>>> >>>> b) považovat černou barvu za červenou. Výhody: Nejsou nutné úpravy >>>> downloaderu, u rozpoznávače jen triviální změna 3 konstant. Nevýhody: >>>> Drobné zhoršení rozpoznávání v případě překryvu copyrightu s popiskem >>>> - pokud se to nešikovně trefí, tak bude třeba ruční rozpoznání, ale >>>> nemusí to znamenat nic, i když se to trefí. >>>> >>>> c) Provádět ruční kontrolu všech popisků s překryvem (těch může být >>>> hodně). >>>> >>>> Osobně považuji c) za špatné řešení. A mezi a) a b) nemám vyhrazený >>>> názor. Možnost a) je sice teoreticky nejlepší, ale b) nemusí mít >>>> postřehnutelně horší výsledky. >>>> >>>> Honza >>>> >>>> >>>> >>>> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>>>> Doplnil jsem tam chybějící číslici 4. >>>>> >>>>> Honza >>>>> >>>>> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>>>>> K vyzkoušení: >>>>>> http://jabi.aspone.cz/osm/OcrBeta1.zip >>>>>> >>>>>> Má to stejné ovládání jako původní tile-processor, ale navíc možnost >>>>>> logování: >>>>>> >>>>>> FindAddressPoints.exe -tiles test-dir-with-png-images -output test.csv >>>>>> -log log.txt -all >>>>>> >>>>>> -log log.txt ... pokud se toto uvede, tak program bude logovat >>>>>> nerozpoznané body nebo ty, které byly narušené překryvem. >>>>>> >>>>>> Pokud se uvede navíc -all, tak se budou logovat všechny body. >>>>>> >>>>>> Soubor charDef.txt obsahuje definici znaků nebo posloupnosti znaků. Je >>>>>> to také textový soubor, který když zobrazíte fontem s pevnou šířkou, >>>>>> tak je myslím význam jasný. Chybí tam číslice 4 posunutá dolů (tedy za >>>>>> č.o.), protože jsem na nic při pokusech nenarazil. Soubor musí být při >>>>>> spuštění v aktuálním adresáři. >>>>>> >>>>>> Honza >>>>>> >>>>>> >>>>>> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>>>>>> Na slušné detekci překryvů právě pracuji a myslím, že rozhodně bude >>>>>>> výrazně lepší než byla (to už je myslím teď). Ale stoprocentní >>>>>>> samozřejmě ne - když překryv bude velký, tak to určitě nepůjde. >>>>>>> >>>>>>> Ale jinak si myslím, že generování dlaždic na serveru KN bude nějakou >>>>>>> dobu trvat - a to, ať je na té dlaždici 5 bodů nebo třeba jen jeden. A >>>>>>> také jim to bude zatěžovat servery, když se to přežene s rychlostí >>>>>>> stahování (mnoho vláken apod.). >>>>>>> >>>>>>> Honza >>>>>>> >>>>>>> >>>>>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>>>> Kvůli překryvům - čísla se s rozlišením zmenšují. >>>>>>>> Nevím, jak moc je tvůj algoritmus dokonalý v detekci překrývajících >>>>>>>> se >>>>>>>> číslic, ale nevěřím, že dokážeš spolehlivě poznat, kde číslo skončí. >>>>>>>> Samozřejmě je to otázka nějakého kompromisu, ale většinu času předtím >>>>>>>> zabralo počítání. >>>>>>>> >>>>>>>> Myslím, že ale to dynamické rozlišení, které navrhuješ, nemá moc >>>>>>>> cenu, >>>>>>>> protože ty dlaždice jsou v PNG, takže by bílé plochy neměly zabírat >>>>>>>> příliš >>>>>>>> mnoho datového objemu. To samé platí pro vyšší rozlišení - zpomalení >>>>>>>> může >>>>>>>> nastat spíš tím, že je nutné zpracovat větší množství obrazové >>>>>>>> informace. >>>>>>>> >>>>>>>> On Fri, 12 Feb 2010 15:39:54 +0100, Jan Bilak >>>>>>>> <jan.bilak.osm na gmail.com> >>>>>>>> wrote: >>>>>>>> >>>>>>>>> Ahoj, >>>>>>>>> k čemu větší rozlišení? Spíše jsem uvažoval nad dynamickým >>>>>>>>> rozlišením >>>>>>>>> ... tedy stahovat výřezy nejprve v malém rozlišení a podle toho >>>>>>>>> detekovat oblasti, které obsahují adresní body. A jen tyto úseky >>>>>>>>> stahovat ve vyšším (třeba stávajícím) rozlišení. To by mohlo ušetřit >>>>>>>>> množství stahovaných dat. Přijde mi, že nejpomalejší bude právě >>>>>>>>> stahování dlaždic z WMS, takže obecným zvýšením rozlišení by se čas >>>>>>>>> prodloužil. >>>>>>>>> >>>>>>>>> Mimochodem - nemáte někdo stažené dlaždice z nějaké větší oblasti, >>>>>>>>> které byste mohli někam hodit zazipované, abych to nemusel stahovat >>>>>>>>> z >>>>>>>>> WMS pro testování? >>>>>>>>> >>>>>>>>> Honza >>>>>>>>> >>>>>>>>> >>>>>>>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>>>>>> Ahoj, >>>>>>>>>> >>>>>>>>>> zní to dobře, jestli by to opravdu neznamenalo příliš mnoho času, >>>>>>>>>> tak by >>>>>>>>>> možná stálo za to data kvůli té chybě předělat (pokud navíc zlepší >>>>>>>>>> detekci >>>>>>>>>> u překryvů, nebo díky rychlosti umožní stahovat dlaždice s větším >>>>>>>>>> zoomem, >>>>>>>>>> tak to bude další plus). >>>>>>>>>> >>>>>>>>>> On Fri, 12 Feb 2010 04:25:19 +0100, Jan Bilak >>>>>>>>>> <jan.bilak.osm na gmail.com> >>>>>>>>>> wrote: >>>>>>>>>> >>>>>>>>>>> Ahoj, >>>>>>>>>>> >>>>>>>>>>> pokusná implementace je velmi rychlá a měla by být i spolehlivá. >>>>>>>>>>> >>>>>>>>>>> Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. >>>>>>>>>>> Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas >>>>>>>>>>> zpracování jednoho adresního bodu je 17 ms. To vše v jednom >>>>>>>>>>> vlákně a >>>>>>>>>>> tedy to zatěžuje jen jedno jádro procesoru. >>>>>>>>>>> >>>>>>>>>>> Zítra to snad dodělám do použitelného stavu. >>>>>>>>>>> >>>>>>>>>>> Honza >>>>>>>>>>> >>>>>>>>>>> >>>>>>>>>>> 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >>>>>>>>>>>> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat >>>>>>>>>>>> pouze >>>>>>>>>>>> ta >>>>>>>>>>>> evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je >>>>>>>>>>>> tam ta >>>>>>>>>>>> dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že >>>>>>>>>>>> by to >>>>>>>>>>>> nešlo >>>>>>>>>>>> uříznout o trochu níž. Problém je, že už jsme to udělali špatně, >>>>>>>>>>>> takže >>>>>>>>>>>> by >>>>>>>>>>>> to bylo dobré napravit bez toho, abychom museli všechno >>>>>>>>>>>> předělávat. >>>>>>>>>>>> >>>>>>>>>>>> On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec >>>>>>>>>>>> <utx na penguin.cz> >>>>>>>>>>>> wrote: >>>>>>>>>>>> >>>>>>>>>>>>> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat >>>>>>>>>>>>> uříznutou >>>>>>>>>>>>> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. >>>>>>>>>>>> >>>>>>>>>>>> >>>>>>>>>>>> -- >>>>>>>>>>>> Petr Dlouhý >>>>>>>>>>>> >>>>>>>>>>>> _______________________________________________ >>>>>>>>>>>> Talk-cz mailing list >>>>>>>>>>>> Talk-cz na openstreetmap.org >>>>>>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>>>>>>> >>>>>>>>>>> >>>>>>>>>>> _______________________________________________ >>>>>>>>>>> Talk-cz mailing list >>>>>>>>>>> Talk-cz na openstreetmap.org >>>>>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>>>>> >>>>>>>>>> >>>>>>>>>> -- >>>>>>>>>> Petr Dlouhý >>>>>>>>>> >>>>>>>>>> _______________________________________________ >>>>>>>>>> Talk-cz mailing list >>>>>>>>>> Talk-cz na openstreetmap.org >>>>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>>>>> >>>>>>>>> >>>>>>>>> _______________________________________________ >>>>>>>>> Talk-cz mailing list >>>>>>>>> Talk-cz na openstreetmap.org >>>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>>> >>>>>>>> >>>>>>>> -- >>>>>>>> Petr Dlouhý >>>>>>>> >>>>>>>> _______________________________________________ >>>>>>>> Talk-cz mailing list >>>>>>>> Talk-cz na openstreetmap.org >>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>>>>>> >>>>>>> >>>>>> >>>>> >>>> >>>> _______________________________________________ >>>> Talk-cz mailing list >>>> Talk-cz na openstreetmap.org >>>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >>> >>> -- >>> Petr Dlouhý >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >> >

Ořez by mohl být nižší, ale já to každý sloupec reprezentuji 16-bitovým číslem (16 řádek) a pak s tím dělám různé bitové operace. Takže 15 by se mi nehodilo... Tyhle nápady jsou dobré, ale nejsou třeba. Algoritmus totiž funguje tak, že se snaží najít napřed přesnou shodu. A pokud přesná shoda není, tak najít všechny možnosti, které tam mohou být. Pokud je více možností, co by tam mohlo být, tak to do textu přidá ?. Pokud jedna možnost, tak ji to bere jako správnou. A pokud žádá možnost, tak to končí. Check je jen indikace toho, že tam nebyla přesná shoda. Otazník je indikace toho, že to bylo mnohoznačné. Zatím tam tedy chybí jedna kontrola, která teoreticky může způsobit chybu bez otázníku (jen s checkem). Ale to opravím a pravděpodobnost takové chyby je velmi malá. Testovací data by se mi hodila, pokud máš kam dát nějaký archiv (klidně na nějaký free one-file hosting typu rapidshare - ale účet tam nikde nemám, tak aby to bylo reálné stáhnout zdarma). Honza 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Ahoj, > > teprv teď jsem si všiml toho krásného logu. Ořez by mohl být o 1 pixel > nižší a o něco užší (nevím ale kolikaciferná je nejdelší adresa). > Další nápady na snížení množství [CHECK] jsou: > Pokud adresa začíná na "bez č.p./č.e." tak není nutné dávat [CHECK], ale > stačí oříznout zbytek řetězce (tím se vyřadí tak polovina případů). > Pokud je tam navíc pouze pár bodů nižších než číslice/písmeno, nemohou ji > tvořit, a tudíž není nutné dávat [CHECK], protože se tam nemohl připlést > nějaký další adresný bod, který by musel začínat na č nebo b. > > Pro vypořádání s copyrightem existuje ještě možnost d) - pokud si skript není jist výsledkem, tak si stáhne zazoomované číslo, takže mu muže být copyright jedno. > Spolehlivé to není hlavně v místech, kde je několik adres v jednom shluku (poměrně blízko sebe). > > Kontroluju to tak, že si vygeneruju adresní body pomocí Merge skriptu a > otevřu to v JOSM. > > PS. Jestli pořád sháníš testovací data, můžu ti poslat celou prahu-západ, myslel jsem, že už jsem jí smazal, ale není tomu tak. > >> ------------ Původní zpráva ------------ >> Od: Petr Dlouhý <petr.dlouhy na email.cz> >> Předmět: Re: [Talk-cz] Import adres z katastralni mapy >> Datum: 13.2.2010 00:29:16 >> ---------------------------------------- >> Ahoj, >> >> ten copyright je jen úplně nahoře na každé dlaždici, nebo se pletu? Pokud >> tomu tak je, tak bych volil možnost a), protože je to minimum z velikosti >> dlaždice, a ty se už stejně stahují s přesahem (kvůli tomu, že se čísla >> kreslí jen na dlaždici s tečkou). >> >> Jinak jsem se koukal na ten skript, a zdá se to velice dobré. Myslím, že >> by stálo za to to přepočítat, vzhledem k tomu, že je to tak 20x rychlejší, >> tak to asi nebude problém udělat na jednou počítači. >> >> Chyby vidím následující: >> >> -Některé adresní body nejsou vůbec detekovány, a u některých je prázdný >> text (přestože jsou daleko od všeho). >> -Často se objevuje [CHECK] i u bodů, které byly detekovány správně. Pokud >> je to v případech, kdy se čísla už skutečně překrývají, tak OK. Jenom se >> ptám, jestli není možné zvolit agresivnější ořez před detekcí (pozor na >> jiné posunutí č.e. vs č.p.). >> -V případech, kdy se objeví [CHECK], tak by asi skript měl stáhnout číslo >> ve vyšším rozlišení a detekovat to. >> >> >> On Fri, 12 Feb 2010 22:05:40 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >> wrote: >> >> > Zkousel jsem to na jednom kousku (cca 300 dlazdic) z centra Prahy. >> > Prehryvy tomu prakticky vubec nevadi a detekuje rozpozna to spravne. >> > Ale co tomu vadi, to je ten copyright. Zatím totiž beru v úvahu pouze >> > červenou barvu. Jsou 3 možnosti jak to řešit: >> > >> > a) stahovat dlaždice s překryvem tak, že se bude rozpoznávat pouze z >> > těch částí mapy, které copyright není. Výhody: Nejlepší výsledky. >> > Nevýhody: Nutnost stahovat více dat z WMS. >> > >> > b) považovat černou barvu za červenou. Výhody: Nejsou nutné úpravy >> > downloaderu, u rozpoznávače jen triviální změna 3 konstant. Nevýhody: >> > Drobné zhoršení rozpoznávání v případě překryvu copyrightu s popiskem >> > - pokud se to nešikovně trefí, tak bude třeba ruční rozpoznání, ale >> > nemusí to znamenat nic, i když se to trefí. >> > >> > c) Provádět ruční kontrolu všech popisků s překryvem (těch může být >> > hodně). >> > >> > Osobně považuji c) za špatné řešení. A mezi a) a b) nemám vyhrazený >> > názor. Možnost a) je sice teoreticky nejlepší, ale b) nemusí mít >> > postřehnutelně horší výsledky. >> > >> > Honza >> > >> > >> > >> > 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >> >> Doplnil jsem tam chybějící číslici 4. >> >> >> >> Honza >> >> >> >> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >> >>> K vyzkoušení: >> >>> http://jabi.aspone.cz/osm/OcrBeta1.zip >> >>> >> >>> Má to stejné ovládání jako původní tile-processor, ale navíc možnost >> >>> logování: >> >>> >> >>> FindAddressPoints.exe -tiles test-dir-with-png-images -output test.csv >> >>> -log log.txt -all >> >>> >> >>> -log log.txt ... pokud se toto uvede, tak program bude logovat >> >>> nerozpoznané body nebo ty, které byly narušené překryvem. >> >>> >> >>> Pokud se uvede navíc -all, tak se budou logovat všechny body. >> >>> >> >>> Soubor charDef.txt obsahuje definici znaků nebo posloupnosti znaků. Je >> >>> to také textový soubor, který když zobrazíte fontem s pevnou šířkou, >> >>> tak je myslím význam jasný. Chybí tam číslice 4 posunutá dolů (tedy za >> >>> č.o.), protože jsem na nic při pokusech nenarazil. Soubor musí být při >> >>> spuštění v aktuálním adresáři. >> >>> >> >>> Honza >> >>> >> >>> >> >>> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >> >>>> Na slušné detekci překryvů právě pracuji a myslím, že rozhodně bude >> >>>> výrazně lepší než byla (to už je myslím teď). Ale stoprocentní >> >>>> samozřejmě ne - když překryv bude velký, tak to určitě nepůjde. >> >>>> >> >>>> Ale jinak si myslím, že generování dlaždic na serveru KN bude nějakou >> >>>> dobu trvat - a to, ať je na té dlaždici 5 bodů nebo třeba jen jeden. A >> >>>> také jim to bude zatěžovat servery, když se to přežene s rychlostí >> >>>> stahování (mnoho vláken apod.). >> >>>> >> >>>> Honza >> >>>> >> >>>> >> >>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >> >>>>> Kvůli překryvům - čísla se s rozlišením zmenšují. >> >>>>> Nevím, jak moc je tvůj algoritmus dokonalý v detekci překrývajících >> >>>>> se >> >>>>> číslic, ale nevěřím, že dokážeš spolehlivě poznat, kde číslo skončí. >> >>>>> Samozřejmě je to otázka nějakého kompromisu, ale většinu času předtím >> >>>>> zabralo počítání. >> >>>>> >> >>>>> Myslím, že ale to dynamické rozlišení, které navrhuješ, nemá moc >> >>>>> cenu, >> >>>>> protože ty dlaždice jsou v PNG, takže by bílé plochy neměly zabírat >> >>>>> příliš >> >>>>> mnoho datového objemu. To samé platí pro vyšší rozlišení - zpomalení >> >>>>> může >> >>>>> nastat spíš tím, že je nutné zpracovat větší množství obrazové >> >>>>> informace. >> >>>>> >> >>>>> On Fri, 12 Feb 2010 15:39:54 +0100, Jan Bilak >> >>>>> <jan.bilak.osm na gmail.com> >> >>>>> wrote: >> >>>>> >> >>>>>> Ahoj, >> >>>>>> k čemu větší rozlišení? Spíše jsem uvažoval nad dynamickým >> >>>>>> rozlišením >> >>>>>> ... tedy stahovat výřezy nejprve v malém rozlišení a podle toho >> >>>>>> detekovat oblasti, které obsahují adresní body. A jen tyto úseky >> >>>>>> stahovat ve vyšším (třeba stávajícím) rozlišení. To by mohlo ušetřit >> >>>>>> množství stahovaných dat. Přijde mi, že nejpomalejší bude právě >> >>>>>> stahování dlaždic z WMS, takže obecným zvýšením rozlišení by se čas >> >>>>>> prodloužil. >> >>>>>> >> >>>>>> Mimochodem - nemáte někdo stažené dlaždice z nějaké větší oblasti, >> >>>>>> které byste mohli někam hodit zazipované, abych to nemusel stahovat >> >>>>>> z >> >>>>>> WMS pro testování? >> >>>>>> >> >>>>>> Honza >> >>>>>> >> >>>>>> >> >>>>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >> >>>>>>> Ahoj, >> >>>>>>> >> >>>>>>> zní to dobře, jestli by to opravdu neznamenalo příliš mnoho času, >> >>>>>>> tak by >> >>>>>>> možná stálo za to data kvůli té chybě předělat (pokud navíc zlepší >> >>>>>>> detekci >> >>>>>>> u překryvů, nebo díky rychlosti umožní stahovat dlaždice s větším >> >>>>>>> zoomem, >> >>>>>>> tak to bude další plus). >> >>>>>>> >> >>>>>>> On Fri, 12 Feb 2010 04:25:19 +0100, Jan Bilak >> >>>>>>> <jan.bilak.osm na gmail.com> >> >>>>>>> wrote: >> >>>>>>> >> >>>>>>>> Ahoj, >> >>>>>>>> >> >>>>>>>> pokusná implementace je velmi rychlá a měla by být i spolehlivá. >> >>>>>>>> >> >>>>>>>> Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. >> >>>>>>>> Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas >> >>>>>>>> zpracování jednoho adresního bodu je 17 ms. To vše v jednom >> >>>>>>>> vlákně a >> >>>>>>>> tedy to zatěžuje jen jedno jádro procesoru. >> >>>>>>>> >> >>>>>>>> Zítra to snad dodělám do použitelného stavu. >> >>>>>>>> >> >>>>>>>> Honza >> >>>>>>>> >> >>>>>>>> >> >>>>>>>> 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >> >>>>>>>>> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat >> >>>>>>>>> pouze >> >>>>>>>>> ta >> >>>>>>>>> evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je >> >>>>>>>>> tam ta >> >>>>>>>>> dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že >> >>>>>>>>> by to >> >>>>>>>>> nešlo >> >>>>>>>>> uříznout o trochu níž. Problém je, že už jsme to udělali špatně, >> >>>>>>>>> takže >> >>>>>>>>> by >> >>>>>>>>> to bylo dobré napravit bez toho, abychom museli všechno >> >>>>>>>>> předělávat. >> >>>>>>>>> >> >>>>>>>>> On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec >> >>>>>>>>> <utx na penguin.cz> >> >>>>>>>>> wrote: >> >>>>>>>>> >> >>>>>>>>>> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat >> >>>>>>>>>> uříznutou >> >>>>>>>>>> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. >> >>>>>>>>> >> >>>>>>>>> >> >>>>>>>>> -- >> >>>>>>>>> Petr Dlouhý >> >>>>>>>>> >> >>>>>>>>> _______________________________________________ >> >>>>>>>>> Talk-cz mailing list >> >>>>>>>>> Talk-cz na openstreetmap.org >> >>>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >> >>>>>>>>> >> >>>>>>>> >> >>>>>>>> _______________________________________________ >> >>>>>>>> Talk-cz mailing list >> >>>>>>>> Talk-cz na openstreetmap.org >> >>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >> >>>>>>> >> >>>>>>> >> >>>>>>> -- >> >>>>>>> Petr Dlouhý >> >>>>>>> >> >>>>>>> _______________________________________________ >> >>>>>>> Talk-cz mailing list >> >>>>>>> Talk-cz na openstreetmap.org >> >>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >> >>>>>>> >> >>>>>> >> >>>>>> _______________________________________________ >> >>>>>> Talk-cz mailing list >> >>>>>> Talk-cz na openstreetmap.org >> >>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >> >>>>> >> >>>>> >> >>>>> -- >> >>>>> Petr Dlouhý >> >>>>> >> >>>>> _______________________________________________ >> >>>>> Talk-cz mailing list >> >>>>> Talk-cz na openstreetmap.org >> >>>>> http://lists.openstreetmap.org/listinfo/talk-cz >> >>>>> >> >>>> >> >>> >> >> >> > >> > _______________________________________________ >> > Talk-cz mailing list >> > Talk-cz na openstreetmap.org >> > http://lists.openstreetmap.org/listinfo/talk-cz >> >> >> -- >> Petr Dlouhý >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> >> >> > > Petr Dlouhý > petr.dlouhy na email.cz > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Dal jsem tam betu 2 ... http://jabi.aspone.cz/osm/OcrBeta2.zip Je vícevláknová, trochu přepracovaný výpis do konzole (časový odhad do konce apod.). + zapisuje do csv souboru info o tom, že bod je moc blízko kraje dlaždice. Honza 2010/2/13 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> Ořez by mohl být nižší, ale já to každý sloupec reprezentuji > 16-bitovým číslem (16 řádek) a pak s tím dělám různé bitové operace. > Takže 15 by se mi nehodilo... > > Tyhle nápady jsou dobré, ale nejsou třeba. Algoritmus totiž funguje > tak, že se snaží najít napřed přesnou shodu. A pokud přesná shoda > není, tak najít všechny možnosti, které tam mohou být. Pokud je více > možností, co by tam mohlo být, tak to do textu přidá ?. Pokud jedna > možnost, tak ji to bere jako správnou. A pokud žádá možnost, tak to > končí. Check je jen indikace toho, že tam nebyla přesná shoda. Otazník > je indikace toho, že to bylo mnohoznačné. Zatím tam tedy chybí jedna > kontrola, která teoreticky může způsobit chybu bez otázníku (jen s > checkem). Ale to opravím a pravděpodobnost takové chyby je velmi malá. > > Testovací data by se mi hodila, pokud máš kam dát nějaký archiv > (klidně na nějaký free one-file hosting typu rapidshare - ale účet tam > nikde nemám, tak aby to bylo reálné stáhnout zdarma). > > Honza > > > 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: >> Ahoj, >> >> teprv teď jsem si všiml toho krásného logu. Ořez by mohl být o 1 pixel >> nižší a o něco užší (nevím ale kolikaciferná je nejdelší adresa). >> Další nápady na snížení množství [CHECK] jsou: >> Pokud adresa začíná na "bez č.p./č.e." tak není nutné dávat [CHECK], ale >> stačí oříznout zbytek řetězce (tím se vyřadí tak polovina případů). >> Pokud je tam navíc pouze pár bodů nižších než číslice/písmeno, nemohou ji >> tvořit, a tudíž není nutné dávat [CHECK], protože se tam nemohl připlést >> nějaký další adresný bod, který by musel začínat na č nebo b. >> >> Pro vypořádání s copyrightem existuje ještě možnost d) - pokud si skript není jist výsledkem, tak si stáhne zazoomované číslo, takže mu muže být copyright jedno. >> Spolehlivé to není hlavně v místech, kde je několik adres v jednom shluku (poměrně blízko sebe). >> >> Kontroluju to tak, že si vygeneruju adresní body pomocí Merge skriptu a >> otevřu to v JOSM. >> >> PS. Jestli pořád sháníš testovací data, můžu ti poslat celou prahu-západ, myslel jsem, že už jsem jí smazal, ale není tomu tak. >> >>> ------------ Původní zpráva ------------ >>> Od: Petr Dlouhý <petr.dlouhy na email.cz> >>> Předmět: Re: [Talk-cz] Import adres z katastralni mapy >>> Datum: 13.2.2010 00:29:16 >>> ---------------------------------------- >>> Ahoj, >>> >>> ten copyright je jen úplně nahoře na každé dlaždici, nebo se pletu? Pokud >>> tomu tak je, tak bych volil možnost a), protože je to minimum z velikosti >>> dlaždice, a ty se už stejně stahují s přesahem (kvůli tomu, že se čísla >>> kreslí jen na dlaždici s tečkou). >>> >>> Jinak jsem se koukal na ten skript, a zdá se to velice dobré. Myslím, že >>> by stálo za to to přepočítat, vzhledem k tomu, že je to tak 20x rychlejší, >>> tak to asi nebude problém udělat na jednou počítači. >>> >>> Chyby vidím následující: >>> >>> -Některé adresní body nejsou vůbec detekovány, a u některých je prázdný >>> text (přestože jsou daleko od všeho). >>> -Často se objevuje [CHECK] i u bodů, které byly detekovány správně. Pokud >>> je to v případech, kdy se čísla už skutečně překrývají, tak OK. Jenom se >>> ptám, jestli není možné zvolit agresivnější ořez před detekcí (pozor na >>> jiné posunutí č.e. vs č.p.). >>> -V případech, kdy se objeví [CHECK], tak by asi skript měl stáhnout číslo >>> ve vyšším rozlišení a detekovat to. >>> >>> >>> On Fri, 12 Feb 2010 22:05:40 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >>> wrote: >>> >>> > Zkousel jsem to na jednom kousku (cca 300 dlazdic) z centra Prahy. >>> > Prehryvy tomu prakticky vubec nevadi a detekuje rozpozna to spravne. >>> > Ale co tomu vadi, to je ten copyright. Zatím totiž beru v úvahu pouze >>> > červenou barvu. Jsou 3 možnosti jak to řešit: >>> > >>> > a) stahovat dlaždice s překryvem tak, že se bude rozpoznávat pouze z >>> > těch částí mapy, které copyright není. Výhody: Nejlepší výsledky. >>> > Nevýhody: Nutnost stahovat více dat z WMS. >>> > >>> > b) považovat černou barvu za červenou. Výhody: Nejsou nutné úpravy >>> > downloaderu, u rozpoznávače jen triviální změna 3 konstant. Nevýhody: >>> > Drobné zhoršení rozpoznávání v případě překryvu copyrightu s popiskem >>> > - pokud se to nešikovně trefí, tak bude třeba ruční rozpoznání, ale >>> > nemusí to znamenat nic, i když se to trefí. >>> > >>> > c) Provádět ruční kontrolu všech popisků s překryvem (těch může být >>> > hodně). >>> > >>> > Osobně považuji c) za špatné řešení. A mezi a) a b) nemám vyhrazený >>> > názor. Možnost a) je sice teoreticky nejlepší, ale b) nemusí mít >>> > postřehnutelně horší výsledky. >>> > >>> > Honza >>> > >>> > >>> > >>> > 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>> >> Doplnil jsem tam chybějící číslici 4. >>> >> >>> >> Honza >>> >> >>> >> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>> >>> K vyzkoušení: >>> >>> http://jabi.aspone.cz/osm/OcrBeta1.zip >>> >>> >>> >>> Má to stejné ovládání jako původní tile-processor, ale navíc možnost >>> >>> logování: >>> >>> >>> >>> FindAddressPoints.exe -tiles test-dir-with-png-images -output test.csv >>> >>> -log log.txt -all >>> >>> >>> >>> -log log.txt ... pokud se toto uvede, tak program bude logovat >>> >>> nerozpoznané body nebo ty, které byly narušené překryvem. >>> >>> >>> >>> Pokud se uvede navíc -all, tak se budou logovat všechny body. >>> >>> >>> >>> Soubor charDef.txt obsahuje definici znaků nebo posloupnosti znaků. Je >>> >>> to také textový soubor, který když zobrazíte fontem s pevnou šířkou, >>> >>> tak je myslím význam jasný. Chybí tam číslice 4 posunutá dolů (tedy za >>> >>> č.o.), protože jsem na nic při pokusech nenarazil. Soubor musí být při >>> >>> spuštění v aktuálním adresáři. >>> >>> >>> >>> Honza >>> >>> >>> >>> >>> >>> 2010/2/12 Jan Bilak <jan.bilak.osm na gmail.com>: >>> >>>> Na slušné detekci překryvů právě pracuji a myslím, že rozhodně bude >>> >>>> výrazně lepší než byla (to už je myslím teď). Ale stoprocentní >>> >>>> samozřejmě ne - když překryv bude velký, tak to určitě nepůjde. >>> >>>> >>> >>>> Ale jinak si myslím, že generování dlaždic na serveru KN bude nějakou >>> >>>> dobu trvat - a to, ať je na té dlaždici 5 bodů nebo třeba jen jeden. A >>> >>>> také jim to bude zatěžovat servery, když se to přežene s rychlostí >>> >>>> stahování (mnoho vláken apod.). >>> >>>> >>> >>>> Honza >>> >>>> >>> >>>> >>> >>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>> >>>>> Kvůli překryvům - čísla se s rozlišením zmenšují. >>> >>>>> Nevím, jak moc je tvůj algoritmus dokonalý v detekci překrývajících >>> >>>>> se >>> >>>>> číslic, ale nevěřím, že dokážeš spolehlivě poznat, kde číslo skončí. >>> >>>>> Samozřejmě je to otázka nějakého kompromisu, ale většinu času předtím >>> >>>>> zabralo počítání. >>> >>>>> >>> >>>>> Myslím, že ale to dynamické rozlišení, které navrhuješ, nemá moc >>> >>>>> cenu, >>> >>>>> protože ty dlaždice jsou v PNG, takže by bílé plochy neměly zabírat >>> >>>>> příliš >>> >>>>> mnoho datového objemu. To samé platí pro vyšší rozlišení - zpomalení >>> >>>>> může >>> >>>>> nastat spíš tím, že je nutné zpracovat větší množství obrazové >>> >>>>> informace. >>> >>>>> >>> >>>>> On Fri, 12 Feb 2010 15:39:54 +0100, Jan Bilak >>> >>>>> <jan.bilak.osm na gmail.com> >>> >>>>> wrote: >>> >>>>> >>> >>>>>> Ahoj, >>> >>>>>> k čemu větší rozlišení? Spíše jsem uvažoval nad dynamickým >>> >>>>>> rozlišením >>> >>>>>> ... tedy stahovat výřezy nejprve v malém rozlišení a podle toho >>> >>>>>> detekovat oblasti, které obsahují adresní body. A jen tyto úseky >>> >>>>>> stahovat ve vyšším (třeba stávajícím) rozlišení. To by mohlo ušetřit >>> >>>>>> množství stahovaných dat. Přijde mi, že nejpomalejší bude právě >>> >>>>>> stahování dlaždic z WMS, takže obecným zvýšením rozlišení by se čas >>> >>>>>> prodloužil. >>> >>>>>> >>> >>>>>> Mimochodem - nemáte někdo stažené dlaždice z nějaké větší oblasti, >>> >>>>>> které byste mohli někam hodit zazipované, abych to nemusel stahovat >>> >>>>>> z >>> >>>>>> WMS pro testování? >>> >>>>>> >>> >>>>>> Honza >>> >>>>>> >>> >>>>>> >>> >>>>>> 2010/2/12 Petr Dlouhý <petr.dlouhy na email.cz>: >>> >>>>>>> Ahoj, >>> >>>>>>> >>> >>>>>>> zní to dobře, jestli by to opravdu neznamenalo příliš mnoho času, >>> >>>>>>> tak by >>> >>>>>>> možná stálo za to data kvůli té chybě předělat (pokud navíc zlepší >>> >>>>>>> detekci >>> >>>>>>> u překryvů, nebo díky rychlosti umožní stahovat dlaždice s větším >>> >>>>>>> zoomem, >>> >>>>>>> tak to bude další plus). >>> >>>>>>> >>> >>>>>>> On Fri, 12 Feb 2010 04:25:19 +0100, Jan Bilak >>> >>>>>>> <jan.bilak.osm na gmail.com> >>> >>>>>>> wrote: >>> >>>>>>> >>> >>>>>>>> Ahoj, >>> >>>>>>>> >>> >>>>>>>> pokusná implementace je velmi rychlá a měla by být i spolehlivá. >>> >>>>>>>> >>> >>>>>>>> Zkoušel jsem to na 18 výřezech 4000x4000 px. Celkový čas 7.2 s. >>> >>>>>>>> Průměrný čas zpracování jednoho souboru je 405 ms, průměrný čas >>> >>>>>>>> zpracování jednoho adresního bodu je 17 ms. To vše v jednom >>> >>>>>>>> vlákně a >>> >>>>>>>> tedy to zatěžuje jen jedno jádro procesoru. >>> >>>>>>>> >>> >>>>>>>> Zítra to snad dodělám do použitelného stavu. >>> >>>>>>>> >>> >>>>>>>> Honza >>> >>>>>>>> >>> >>>>>>>> >>> >>>>>>>> 2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>: >>> >>>>>>>>> Ne, o to nejde. Ty čísla jsou už rozpoznaná, takže stačí předělat >>> >>>>>>>>> pouze >>> >>>>>>>>> ta >>> >>>>>>>>> evidenční čísla (ty jsou posunutá trochu níž od tečky, takže je >>> >>>>>>>>> tam ta >>> >>>>>>>>> dvojka uřízlá), ve kterých je sedmička. Není problém v tom, že >>> >>>>>>>>> by to >>> >>>>>>>>> nešlo >>> >>>>>>>>> uříznout o trochu níž. Problém je, že už jsme to udělali špatně, >>> >>>>>>>>> takže >>> >>>>>>>>> by >>> >>>>>>>>> to bylo dobré napravit bez toho, abychom museli všechno >>> >>>>>>>>> předělávat. >>> >>>>>>>>> >>> >>>>>>>>> On Thu, 11 Feb 2010 20:30:56 +0100, Stanislav Brabec >>> >>>>>>>>> <utx na penguin.cz> >>> >>>>>>>>> wrote: >>> >>>>>>>>> >>> >>>>>>>>>> Aha, tak to jsme si nerozuměli. Nejde naučit ho poznávat >>> >>>>>>>>>> uříznutou >>> >>>>>>>>>> dvojku? Pokud to ovšem nezvýší riziko chyby jinde. >>> >>>>>>>>> >>> >>>>>>>>> >>> >>>>>>>>> -- >>> >>>>>>>>> Petr Dlouhý >>> >>>>>>>>> >>> >>>>>>>>> _______________________________________________ >>> >>>>>>>>> Talk-cz mailing list >>> >>>>>>>>> Talk-cz na openstreetmap.org >>> >>>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >>>>>>>>> >>> >>>>>>>> >>> >>>>>>>> _______________________________________________ >>> >>>>>>>> Talk-cz mailing list >>> >>>>>>>> Talk-cz na openstreetmap.org >>> >>>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >>>>>>> >>> >>>>>>> >>> >>>>>>> -- >>> >>>>>>> Petr Dlouhý >>> >>>>>>> >>> >>>>>>> _______________________________________________ >>> >>>>>>> Talk-cz mailing list >>> >>>>>>> Talk-cz na openstreetmap.org >>> >>>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >>>>>>> >>> >>>>>> >>> >>>>>> _______________________________________________ >>> >>>>>> Talk-cz mailing list >>> >>>>>> Talk-cz na openstreetmap.org >>> >>>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >>>>> >>> >>>>> >>> >>>>> -- >>> >>>>> Petr Dlouhý >>> >>>>> >>> >>>>> _______________________________________________ >>> >>>>> Talk-cz mailing list >>> >>>>> Talk-cz na openstreetmap.org >>> >>>>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >>>>> >>> >>>> >>> >>> >>> >> >>> > >>> > _______________________________________________ >>> > Talk-cz mailing list >>> > Talk-cz na openstreetmap.org >>> > http://lists.openstreetmap.org/listinfo/talk-cz >>> >>> >>> -- >>> Petr Dlouhý >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >>> >>> >> >> Petr Dlouhý >> petr.dlouhy na email.cz >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> >

Ahoj, teprv teď jsem si všiml toho krásného logu. Ořez by mohl být o 1 pixel nižší a o něco užší (nevím ale kolikaciferná je nejdelší adresa). Další nápady na snížení množství [CHECK] jsou: Pokud adresa začíná na "bez č.p./č.e." tak není nutné dávat [CHECK], ale stačí oříznout zbytek řetězce (tím se vyřadí tak polovina případů). Pokud je tam navíc pouze pár bodů nižších než číslice/písmeno, nemohou ji tvořit, a tudíž není nutné dávat [CHECK], protože se tam nemohl připlést nějaký další adresný bod, který by musel začínat na č nebo b. Kontroluju to tak, že si vygeneruju adresní body pomocí Merge skriptu a otevřu to v JOSM. PS. Jestli pořád sháníš testovací data, můžu ti poslat celou prahu-západ, myslel jsem, že už jsem jí smazal, ale není tomu tak. On Sat, 13 Feb 2010 00:28:20 +0100, Petr Dlouhý <petr.dlouhy na email.cz> wrote: zobrazit citaci

> -Často se objevuje [CHECK] i u bodů, které byly detekovány správně. Pokud > je to v případech, kdy se čísla už skutečně překrývají, tak OK. Jenom se > ptám, jestli není možné zvolit agresivnější ořez před detekcí (pozor na

-- Petr Dlouhý

Aha, tak to jsem předtím nepochopil. V tom případě se ale u některých "bez č.p./č.e." detekují nějaké mezery nebo jiný bordel za nimi a možná jsem viděl i případ, kdy se nějaké číslo prodloužilo o číslice, které tam neměly být (pokusím se to najít). Dlaždice je na [1], je tam víc takových bodů, co se nedetekovali. Testovací data se pokusím nahrát, je toho kolem 200MB. [1] http://www.flyshare.cz/stahni/46186/14.3362_50.1291_14.3412_50.1341-budovy.png On Sat, 13 Feb 2010 01:10:29 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Ořez by mohl být nižší, ale já to každý sloupec reprezentuji > 16-bitovým číslem (16 řádek) a pak s tím dělám různé bitové operace. > Takže 15 by se mi nehodilo... > Tyhle nápady jsou dobré, ale nejsou třeba. Algoritmus totiž funguje > tak, že se snaží najít napřed přesnou shodu. A pokud přesná shoda > není, tak najít všechny možnosti, které tam mohou být. Pokud je více > možností, co by tam mohlo být, tak to do textu přidá ?. Pokud jedna > možnost, tak ji to bere jako správnou. A pokud žádá možnost, tak to > končí. Check je jen indikace toho, že tam nebyla přesná shoda. Otazník > je indikace toho, že to bylo mnohoznačné. Zatím tam tedy chybí jedna > kontrola, která teoreticky může způsobit chybu bez otázníku (jen s > checkem). Ale to opravím a pravděpodobnost takové chyby je velmi malá. > Testovací data by se mi hodila, pokud máš kam dát nějaký archiv > (klidně na nějaký free one-file hosting typu rapidshare - ale účet tam > nikde nemám, tak aby to bylo reálné stáhnout zdarma). > Honza

-- Petr Dlouhý

Ano, to prodloužení o něco bude řešit ta kontrola (už je celkem jedno, zda prodloužení čísla nebo popisu "bez č.p./č.e.". Tedy alespoň jsem o tom přesvědčen. Do vypořádání se s copyrightem a přidání té kontroly to není zcela spolehlivé. Může to jak zkrátit číslo, tak prodloužit - teoreticky i možná změnit. Díky za příklad i data. Honza 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Aha, tak to jsem předtím nepochopil. V tom případě se ale u některých "bez > č.p./č.e." detekují nějaké mezery nebo jiný bordel za nimi a možná jsem > viděl i případ, kdy se nějaké číslo prodloužilo o číslice, které tam > neměly být (pokusím se to najít). > > Dlaždice je na [1], je tam víc takových bodů, co se nedetekovali. > Testovací data se pokusím nahrát, je toho kolem 200MB. > > [1] > http://www.flyshare.cz/stahni/46186/14.3362_50.1291_14.3412_50.1341-budovy.png > > On Sat, 13 Feb 2010 01:10:29 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > >> Ořez by mohl být nižší, ale já to každý sloupec reprezentuji >> 16-bitovým číslem (16 řádek) a pak s tím dělám různé bitové operace. >> Takže 15 by se mi nehodilo... >> Tyhle nápady jsou dobré, ale nejsou třeba. Algoritmus totiž funguje >> tak, že se snaží najít napřed přesnou shodu. A pokud přesná shoda >> není, tak najít všechny možnosti, které tam mohou být. Pokud je více >> možností, co by tam mohlo být, tak to do textu přidá ?. Pokud jedna >> možnost, tak ji to bere jako správnou. A pokud žádá možnost, tak to >> končí. Check je jen indikace toho, že tam nebyla přesná shoda. Otazník >> je indikace toho, že to bylo mnohoznačné. Zatím tam tedy chybí jedna >> kontrola, která teoreticky může způsobit chybu bez otázníku (jen s >> checkem). Ale to opravím a pravděpodobnost takové chyby je velmi malá. >> Testovací data by se mi hodila, pokud máš kam dát nějaký archiv >> (klidně na nějaký free one-file hosting typu rapidshare - ale účet tam >> nikde nemám, tak aby to bylo reálné stáhnout zdarma). >> Honza > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Zkoušel jsem tu dlaždici http://www.flyshare.cz/stahni/46186/14.3362_50.1291_14.3412_50.1341-budovy.png a nenašel jsem žádný bod, který by to nedetekovalo. Nechal jsem si udělat modrou tečku do původní bitmapy na každý detekovaný bod ... a ruční kontrolou byly všechny omodřené a žádný červený nezbyl. Prosím o jeden případ bodu (číslo popisné, souřadnici v pixelech nebo tak něco), který se ti nedetekoval. Do csv mi to napsalo 186 řádek. Tedy to našlo 186 bodů. Tobě také? Honza 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Aha, tak to jsem předtím nepochopil. V tom případě se ale u některých "bez > č.p./č.e." detekují nějaké mezery nebo jiný bordel za nimi a možná jsem > viděl i případ, kdy se nějaké číslo prodloužilo o číslice, které tam > neměly být (pokusím se to najít). > > Dlaždice je na [1], je tam víc takových bodů, co se nedetekovali. > Testovací data se pokusím nahrát, je toho kolem 200MB. > > [1] > http://www.flyshare.cz/stahni/46186/14.3362_50.1291_14.3412_50.1341-budovy.png > > On Sat, 13 Feb 2010 01:10:29 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > >> Ořez by mohl být nižší, ale já to každý sloupec reprezentuji >> 16-bitovým číslem (16 řádek) a pak s tím dělám různé bitové operace. >> Takže 15 by se mi nehodilo... >> Tyhle nápady jsou dobré, ale nejsou třeba. Algoritmus totiž funguje >> tak, že se snaží najít napřed přesnou shodu. A pokud přesná shoda >> není, tak najít všechny možnosti, které tam mohou být. Pokud je více >> možností, co by tam mohlo být, tak to do textu přidá ?. Pokud jedna >> možnost, tak ji to bere jako správnou. A pokud žádá možnost, tak to >> končí. Check je jen indikace toho, že tam nebyla přesná shoda. Otazník >> je indikace toho, že to bylo mnohoznačné. Zatím tam tedy chybí jedna >> kontrola, která teoreticky může způsobit chybu bez otázníku (jen s >> checkem). Ale to opravím a pravděpodobnost takové chyby je velmi malá. >> Testovací data by se mi hodila, pokud máš kam dát nějaký archiv >> (klidně na nějaký free one-file hosting typu rapidshare - ale účet tam >> nikde nemám, tak aby to bylo reálné stáhnout zdarma). >> Honza > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Ahoj, našel jsem případ, kdy se slila dvě čísla dohromady (testováno v betě 1) - je to na dlaždici [1], číslo 2341. Nevidím důvod, proč by se vlastně měly ta čísla prodlužovat nebo zkracovat o další číslice - pokud se tam připlete další adresní bod ve stejném místě, mělo by se tam připlést i "č" nebo "b", takže by se neměl při Merge vůbec přiřadit -> jde to opravit ručně (a stačí tedy minimalizovat počet případů na únosnou mez). Zkracovat by se snad nemělo to číslo nikdy (pokud skončíme včas před pravým okrajem), pokud tam bude velký zmatek, tak se ve výsledku může objevit nanejvýš "?". Změnit snad také ne. Posílám testovací data (měl by to být celý okres Praha-západ) na [2]. Zkoušel jsem betu 2, ale má problém s pamětí - když to generuju na velké oblasti, tak po nějaké době spadne na zaplnění paměti. Beta 1 byla v pořádku. [1] http://www.flyshare.cz/stahni/46190/14.2327_50.0796_14.2377_50.0846-budovy.png [2] http://www.flyshare.cz/stahni/46188/pz.tar.bz2 On Sat, 13 Feb 2010 01:32:41 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Ano, to prodloužení o něco bude řešit ta kontrola (už je celkem jedno, > zda prodloužení čísla nebo popisu "bez č.p./č.e.". Tedy alespoň jsem o > tom přesvědčen. Do vypořádání se s copyrightem a přidání té kontroly > to není zcela spolehlivé. Může to jak zkrátit číslo, tak prodloužit - > teoreticky i možná změnit. > Díky za příklad i data. > Honza

-- Petr Dlouhý

Ahoj, 186 souhlasí, ty chybějící body jsou vždy "bez č.p./č.e.". Chybí například bod pod č.p. 1 a 121 na souřadnicích 50,13254; 14,33821. On Sat, 13 Feb 2010 01:58:07 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Zkoušel jsem tu dlaždici > http://www.flyshare.cz/stahni/46186/14.3362_50.1291_14.3412_50.1341-budovy.png > a nenašel jsem žádný bod, který by to nedetekovalo. Nechal jsem si > udělat modrou tečku do původní bitmapy na každý detekovaný bod ... a > ruční kontrolou byly všechny omodřené a žádný červený nezbyl. > Prosím o jeden případ bodu (číslo popisné, souřadnici v pixelech nebo > tak něco), který se ti nedetekoval. > Do csv mi to napsalo 186 řádek. Tedy to našlo 186 bodů. Tobě také? > Honza

-- Petr Dlouhý

Ahoj, díky, kouknu se na to, kde je problém. Honza 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Ahoj, > > 186 souhlasí, ty chybějící body jsou vždy "bez č.p./č.e.". Chybí například > bod pod č.p. 1 a 121 na souřadnicích 50,13254; 14,33821. > > On Sat, 13 Feb 2010 01:58:07 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > >> Zkoušel jsem tu dlaždici >> http://www.flyshare.cz/stahni/46186/14.3362_50.1291_14.3412_50.1341-budovy.png >> a nenašel jsem žádný bod, který by to nedetekovalo. Nechal jsem si >> udělat modrou tečku do původní bitmapy na každý detekovaný bod ... a >> ruční kontrolou byly všechny omodřené a žádný červený nezbyl. >> Prosím o jeden případ bodu (číslo popisné, souřadnici v pixelech nebo >> tak něco), který se ti nedetekoval. >> Do csv mi to napsalo 186 řádek. Tedy to našlo 186 bodů. Tobě také? >> Honza > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Omlouvám se. To není chyba - Merge nevygeneruje pro "bez č.p./č.e." žádný bod, takže je všechno v pořádku. zobrazit citaci

> ------------ Původní zpráva ------------ > Od: Petr Dlouhý <petr.dlouhy na email.cz> > Předmět: Re: [Talk-cz] Import adres z katastralni mapy > Datum: 13.2.2010 03:02:22 > ---------------------------------------- > Ahoj, > > 186 souhlasí, ty chybějící body jsou vždy "bez č.p./č.e.". Chybí například > bod pod č.p. 1 a 121 na souřadnicích 50,13254; 14,33821. > > On Sat, 13 Feb 2010 01:58:07 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: >

OK, nic se nestalo. Hlavně, že se to vyjasnilo. Honza 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Omlouvám se. To není chyba - Merge nevygeneruje pro "bez č.p./č.e." žádný bod, takže je všechno v pořádku. > > >> ------------ Původní zpráva ------------ >> Od: Petr Dlouhý <petr.dlouhy na email.cz> >> Předmět: Re: [Talk-cz] Import adres z katastralni mapy >> Datum: 13.2.2010 03:02:22 >> ---------------------------------------- >> Ahoj, >> >> 186 souhlasí, ty chybějící body jsou vždy "bez č.p./č.e.". Chybí například >> bod pod č.p. 1 a 121 na souřadnicích 50,13254; 14,33821. >> >> On Sat, 13 Feb 2010 01:58:07 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >> wrote: >> > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Jedno upozornění - ta data jsem stahoval na třikrát, a potom to sesypal do jednoho adresáře (v domnění, že se překrývající dlaždice požerou, což se ale nestalo protože nejsou zaokrouhlovány stejně). V adresáři jsou tedy v překrývajících oblastech shodné dlaždice akorát s posunem. Pokud bys chtěl jednotlivé dlaždice rozdělit do původních adresářů, tak na [1] jsou seznamy souborů z jednotlivých původních adresářů. [1] http://www.flyshare.cz/stahni/46192/pz.tar.gz On Sat, 13 Feb 2010 02:07:28 +0100, Petr Dlouhý <petr.dlouhy na email.cz> wrote: zobrazit citaci

> Posílám testovací data (měl by to být celý okres Praha-západ) na [2].

-- Petr Dlouhý

Ahoj. Dal jsem tam betu 3 ... http://jabi.aspone.cz/osm/OcrBeta3.zip Pridava drive zminovanou podminku, ktera umoznuje detekovat, zda jde o jednoznacne rozpoznani nebo je treba rucni kontrola. Dale meni stavy rozpoznani: [CHECK] ... je treba rucni kontrola [OVERLAP] ... byl tam prekryv, ale melo by to byt jednoznacne (spise pro debug ucely a overeni programu) Doslo i ke zmene parametru programu: Command line options are: -tiles [..] (*) Path to downloaded tiles -output [..] (*) Output filename -log [..] Log filename -all Log all -overlap Log overlap -threads [..] Thread count (*) Required. Defaultni logovani pri uvedeni souboru logu je takove, ze se loguji jen CHECK body. Lze zapnout i overlap body nebo vsechny. Na Monu je asi problem s vicevlaknovym provozem (asi je treba jeste navic neco zamykat nebo tak neco), tak pribyl argument pro urceni poctu vlaken. Pri problemech nastavte na hodnotu 1. A dale cernou barvu povazuji za cervenou. Pokud s tim budou problemy, lze zvolit variantu s orezem a vetsim prekryvem nebo dynamicke stahovani zazoomovane oblasti (pracnejsi). Honza 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Jedno upozornění - ta data jsem stahoval na třikrát, a potom to sesypal do > jednoho adresáře (v domnění, že se překrývající dlaždice požerou, což se > ale nestalo protože nejsou zaokrouhlovány stejně). V adresáři jsou tedy v > překrývajících oblastech shodné dlaždice akorát s posunem. > > Pokud bys chtěl jednotlivé dlaždice rozdělit do původních adresářů, tak na > [1] jsou seznamy souborů z jednotlivých původních adresářů. > > [1] http://www.flyshare.cz/stahni/46192/pz.tar.gz > > On Sat, 13 Feb 2010 02:07:28 +0100, Petr Dlouhý <petr.dlouhy na email.cz> > wrote: > >> Posílám testovací data (měl by to být celý okres Praha-západ) na [2]. > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Ještě jsem tam hodil malinko opravenou betu3 (na stejné místo) - oprava "padání". Honza 2010/2/13 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> Ahoj. > > Dal jsem tam betu 3 ... http://jabi.aspone.cz/osm/OcrBeta3.zip > > Pridava drive zminovanou podminku, ktera umoznuje detekovat, zda jde o > jednoznacne rozpoznani nebo je treba rucni kontrola. > Dale meni stavy rozpoznani: > [CHECK] ... je treba rucni kontrola > [OVERLAP] ... byl tam prekryv, ale melo by to byt jednoznacne (spise > pro debug ucely a overeni programu) > > Doslo i ke zmene parametru programu: > > Command line options are: > -tiles [..] (*) Path to downloaded tiles > -output [..] (*) Output filename > -log [..] Log filename > -all Log all > -overlap Log overlap > -threads [..] Thread count > (*) Required. > > Defaultni logovani pri uvedeni souboru logu je takove, ze se loguji > jen CHECK body. Lze zapnout i overlap body nebo vsechny. > Na Monu je asi problem s vicevlaknovym provozem (asi je treba jeste > navic neco zamykat nebo tak neco), tak pribyl argument pro urceni > poctu vlaken. Pri problemech nastavte na hodnotu 1. > > A dale cernou barvu povazuji za cervenou. Pokud s tim budou problemy, > lze zvolit variantu s orezem a vetsim prekryvem nebo dynamicke > stahovani zazoomovane oblasti (pracnejsi). > > Honza > > > > 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: >> Jedno upozornění - ta data jsem stahoval na třikrát, a potom to sesypal do >> jednoho adresáře (v domnění, že se překrývající dlaždice požerou, což se >> ale nestalo protože nejsou zaokrouhlovány stejně). V adresáři jsou tedy v >> překrývajících oblastech shodné dlaždice akorát s posunem. >> >> Pokud bys chtěl jednotlivé dlaždice rozdělit do původních adresářů, tak na >> [1] jsou seznamy souborů z jednotlivých původních adresářů. >> >> [1] http://www.flyshare.cz/stahni/46192/pz.tar.gz >> >> On Sat, 13 Feb 2010 02:07:28 +0100, Petr Dlouhý <petr.dlouhy na email.cz> >> wrote: >> >>> Posílám testovací data (měl by to být celý okres Praha-západ) na [2]. >> >> >> -- >> Petr Dlouhý >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> >

Ahoj, je tam stále ten problém s pamětí. Když jsem zkoušel adresář pz1, tak to po nějaké době začne náhle konzumovat velké množství paměti (zabere mi to cca 1,7 GB paměti + 0,5 GB swapu). Není to způsobené programem samotným (dlouhou dobu se paměť téměř nezabírá), ale ani jednotlivou dlaždicí (během finále se stále ještě dlaždice mění). On Sat, 13 Feb 2010 18:10:37 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Ještě jsem tam hodil malinko opravenou betu3 (na stejné místo) - > oprava "padání". > Honza

-- Petr Dlouhý

Ahoj, mne se stalo něco podobného, když jsem tam nechal v adresáři PNGčko, které jsem generoval z původních PNG tak, že jsem tam doplňoval modré tečky (kvůli hledání toho chybějícího bodu, který nakonec nechyběl). Ale to mi spíše začalo strašně rychle plnit log. Právě to zkouším na těch tvých datech Prahy ... ještě nejsem u konce. Pravda je, že mám 4 GB RAM, takže 2,3 GB by mi systém možná přežil, kdyby odswapoval všechno ostatní.... zkusím sledovat paměť. Lukáš tam volal explicitně Garbage Collector tuším po zpracování každé dlaždice, zkusím to tam případně vrátit - třeba pro to měl dobrý důvod (já to odstranil jako zbytečně zdržující). Jinak výsledky jsou podle mne velmi pěkné ... asi 9 bodů k ruční kontrole z cca 3000 dlaždic a nějakých 50000 bodů. A to je v Praze, kde jsou překryvy častější než na venkově. Honza 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Ahoj, > > je tam stále ten problém s pamětí. Když jsem zkoušel adresář pz1, tak to > po nějaké době začne náhle konzumovat velké množství paměti (zabere mi to > cca 1,7 GB paměti + 0,5 GB swapu). Není to způsobené programem samotným > (dlouhou dobu se paměť téměř nezabírá), ale ani jednotlivou dlaždicí > (během finále se stále ještě dlaždice mění). > > On Sat, 13 Feb 2010 18:10:37 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > >> Ještě jsem tam hodil malinko opravenou betu3 (na stejné místo) - >> oprava "padání". >> Honza > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Já myslím, že by sežral klidně i 4 GB - on prostě najednou začne žrát na každou dlaždici třeba 100 MB navíc (před tím ale 10 minut počítal v pořádku). Samozřejmě, že když všechno sežere, tak ho shodím, nebo spadne sám. On Sat, 13 Feb 2010 18:54:12 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Právě to zkouším na těch tvých datech Prahy ... ještě nejsem u konce. > Pravda je, že mám 4 GB RAM, takže 2,3 GB by mi systém možná přežil, > kdyby odswapoval všechno ostatní.... zkusím sledovat paměť. Lukáš tam > volal explicitně Garbage Collector tuším po zpracování každé dlaždice, > zkusím to tam případně vrátit - třeba pro to měl dobrý důvod (já to > odstranil jako zbytečně zdržující).

-- Petr Dlouhý

Dal jsem tam novou verzi beta3 (na stejné místo). Má navíc parametr -gc, kterým lze zařídit zavolání Garbace Collectoru po zpracování každé dlaždice. Tím se výrazně sníží paměťové nároky, ale za cenu nějakého snížení rychlosti. Zkus to prosím. Mne to ve Windows žere bez -gc spičkově tak 650 MB, s -gc tak 250 MB. To při použití dvou vláken. Jinak jsem zatím po zpracování dalších dlaždic z Prahy problém nenarazil. Honza 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Ahoj, > > je tam stále ten problém s pamětí. Když jsem zkoušel adresář pz1, tak to > po nějaké době začne náhle konzumovat velké množství paměti (zabere mi to > cca 1,7 GB paměti + 0,5 GB swapu). Není to způsobené programem samotným > (dlouhou dobu se paměť téměř nezabírá), ale ani jednotlivou dlaždicí > (během finále se stále ještě dlaždice mění). > > On Sat, 13 Feb 2010 18:10:37 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > >> Ještě jsem tam hodil malinko opravenou betu3 (na stejné místo) - >> oprava "padání". >> Honza > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Projel jsem všechny dlaždice, které jsi mi poslal. Na problém jsem nenarazil. Možné je to specifické chování Mona - já to dělám pod .NETem (třeba vím, že pod Monem mi aplikace vždycky padala, když jsem přistupoval ke konzoli z více vláken, zato .NET to automaticky synchronizoval apod.). Nevím - těžko se ladí něco, co se mi neprojevuje. Zdrojáky jsou tady: http://jabi.aspone.cz/osm/FindAddressPoints-beta3-src.zip Pokud by se problém nepodařilo odstranit, tak je možné to dělat pod Windows. Zase tak dlouho to myslím netrvá, aby byla třeba dělat akce na způsob SETI na home. Honza 2010/2/13 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> Dal jsem tam novou verzi beta3 (na stejné místo). Má navíc parametr > -gc, kterým lze zařídit zavolání Garbace Collectoru po zpracování > každé dlaždice. Tím se výrazně sníží paměťové nároky, ale za cenu > nějakého snížení rychlosti. > > Zkus to prosím. > > Mne to ve Windows žere bez -gc spičkově tak 650 MB, s -gc tak 250 MB. > To při použití dvou vláken. Jinak jsem zatím po zpracování dalších > dlaždic z Prahy problém nenarazil. > > Honza > > > > 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: >> Ahoj, >> >> je tam stále ten problém s pamětí. Když jsem zkoušel adresář pz1, tak to >> po nějaké době začne náhle konzumovat velké množství paměti (zabere mi to >> cca 1,7 GB paměti + 0,5 GB swapu). Není to způsobené programem samotným >> (dlouhou dobu se paměť téměř nezabírá), ale ani jednotlivou dlaždicí >> (během finále se stále ještě dlaždice mění). >> >> On Sat, 13 Feb 2010 18:10:37 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >> wrote: >> >>> Ještě jsem tam hodil malinko opravenou betu3 (na stejné místo) - >>> oprava "padání". >>> Honza >> >> >> -- >> Petr Dlouhý >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> >

Tady jsou výsledná *.csv a logy z tvých dat Prahy: http://www.flyshare.cz/stahni/46207/praha.zip Zpracovával jsem to po 5 částech - jsou očíslovány stejně *.csv a logy (stejná čísla patří k sobě). Honza 2010/2/13 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> Projel jsem všechny dlaždice, které jsi mi poslal. Na problém jsem > nenarazil. Možné je to specifické chování Mona - já to dělám pod > .NETem (třeba vím, že pod Monem mi aplikace vždycky padala, když jsem > přistupoval ke konzoli z více vláken, zato .NET to automaticky > synchronizoval apod.). Nevím - těžko se ladí něco, co se mi > neprojevuje. > > Zdrojáky jsou tady: > http://jabi.aspone.cz/osm/FindAddressPoints-beta3-src.zip > > Pokud by se problém nepodařilo odstranit, tak je možné to dělat pod > Windows. Zase tak dlouho to myslím netrvá, aby byla třeba dělat akce > na způsob SETI na home. > > Honza > > > 2010/2/13 Jan Bilak <jan.bilak.osm na gmail.com>: >> Dal jsem tam novou verzi beta3 (na stejné místo). Má navíc parametr >> -gc, kterým lze zařídit zavolání Garbace Collectoru po zpracování >> každé dlaždice. Tím se výrazně sníží paměťové nároky, ale za cenu >> nějakého snížení rychlosti. >> >> Zkus to prosím. >> >> Mne to ve Windows žere bez -gc spičkově tak 650 MB, s -gc tak 250 MB. >> To při použití dvou vláken. Jinak jsem zatím po zpracování dalších >> dlaždic z Prahy problém nenarazil. >> >> Honza >> >> >> >> 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: >>> Ahoj, >>> >>> je tam stále ten problém s pamětí. Když jsem zkoušel adresář pz1, tak to >>> po nějaké době začne náhle konzumovat velké množství paměti (zabere mi to >>> cca 1,7 GB paměti + 0,5 GB swapu). Není to způsobené programem samotným >>> (dlouhou dobu se paměť téměř nezabírá), ale ani jednotlivou dlaždicí >>> (během finále se stále ještě dlaždice mění). >>> >>> On Sat, 13 Feb 2010 18:10:37 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >>> wrote: >>> >>>> Ještě jsem tam hodil malinko opravenou betu3 (na stejné místo) - >>>> oprava "padání". >>>> Honza >>> >>> >>> -- >>> Petr Dlouhý >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >> >

Ahoj, mas k tomu jeste nejake zasadni postrehy (co je treba upravit)? Tedy krome toho, ze ti to zacne plnit pamet, protoze to se mi nepodarilo nasimulovat a ani nemam zadny napad, cim by to mohlo byt. Honza 2010/2/13 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> Tady jsou výsledná *.csv a logy z tvých dat Prahy: > http://www.flyshare.cz/stahni/46207/praha.zip > > Zpracovával jsem to po 5 částech - jsou očíslovány stejně *.csv a logy > (stejná čísla patří k sobě). > > Honza > > > > 2010/2/13 Jan Bilak <jan.bilak.osm na gmail.com>: >> Projel jsem všechny dlaždice, které jsi mi poslal. Na problém jsem >> nenarazil. Možné je to specifické chování Mona - já to dělám pod >> .NETem (třeba vím, že pod Monem mi aplikace vždycky padala, když jsem >> přistupoval ke konzoli z více vláken, zato .NET to automaticky >> synchronizoval apod.). Nevím - těžko se ladí něco, co se mi >> neprojevuje. >> >> Zdrojáky jsou tady: >> http://jabi.aspone.cz/osm/FindAddressPoints-beta3-src.zip >> >> Pokud by se problém nepodařilo odstranit, tak je možné to dělat pod >> Windows. Zase tak dlouho to myslím netrvá, aby byla třeba dělat akce >> na způsob SETI na home. >> >> Honza >> >> >> 2010/2/13 Jan Bilak <jan.bilak.osm na gmail.com>: >>> Dal jsem tam novou verzi beta3 (na stejné místo). Má navíc parametr >>> -gc, kterým lze zařídit zavolání Garbace Collectoru po zpracování >>> každé dlaždice. Tím se výrazně sníží paměťové nároky, ale za cenu >>> nějakého snížení rychlosti. >>> >>> Zkus to prosím. >>> >>> Mne to ve Windows žere bez -gc spičkově tak 650 MB, s -gc tak 250 MB. >>> To při použití dvou vláken. Jinak jsem zatím po zpracování dalších >>> dlaždic z Prahy problém nenarazil. >>> >>> Honza >>> >>> >>> >>> 2010/2/13 Petr Dlouhý <petr.dlouhy na email.cz>: >>>> Ahoj, >>>> >>>> je tam stále ten problém s pamětí. Když jsem zkoušel adresář pz1, tak to >>>> po nějaké době začne náhle konzumovat velké množství paměti (zabere mi to >>>> cca 1,7 GB paměti + 0,5 GB swapu). Není to způsobené programem samotným >>>> (dlouhou dobu se paměť téměř nezabírá), ale ani jednotlivou dlaždicí >>>> (během finále se stále ještě dlaždice mění). >>>> >>>> On Sat, 13 Feb 2010 18:10:37 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >>>> wrote: >>>> >>>>> Ještě jsem tam hodil malinko opravenou betu3 (na stejné místo) - >>>>> oprava "padání". >>>>> Honza >>>> >>>> >>>> -- >>>> Petr Dlouhý >>>> >>>> _______________________________________________ >>>> Talk-cz mailing list >>>> Talk-cz na openstreetmap.org >>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>> >>> >> >

Ahoj, zatím jsem se na to zběžně podíval. Jediná chyba, kterou jsem našel je, že se několikrát detekovalo [OVERLAP] a řada mezer bez jakéhokoliv textu. Uzlů s [CHECK][OVERLAP] jsem našel na třetině okresu 8, a to ještě ve všech případech kromě jednoho byl řetězec správně (kromě mezer na konci). Jinak s tím garbage collectorem to funguje, nezkoušel jsem kolik to zpomaluje, ale jestli myslíš že se to projeví, tak by ho možná šlo volat jen jednou za 100 dlaždic (nebo něco takového). Asi je v Monu nějaká chyba a GC najednou přestane automaticky fungovat. On Sun, 14 Feb 2010 18:40:26 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Ahoj, > mas k tomu jeste nejake zasadni postrehy (co je treba upravit)? Tedy > krome toho, ze ti to zacne plnit pamet, protoze to se mi nepodarilo > nasimulovat a ani nemam zadny napad, cim by to mohlo byt. > Honza

-- Petr Dlouhý

Ahoj, pokud máš někde po ruce csv výpis (kde jsou souřadnice těch chyb s mezerami), tam mi jej prosím pošli. Kouknul bych se, proč to nastává a co se s tím dá dělat. Může to způsobovat i nějaké méně viditelné chyby. U těch dat Prahy, které jsi mne poslal, se toto nestalo. S tím GC to volat třeba po 100 mapkách asi nemá smysl, protože každá bitmapa v paměti zabere asi 50 MB (4000x4000 px a v RGB 3 byte na pixel) a k tomu ještě další pomocné struktury ... celé se to musí násobit počtem vláken ... tedy alokuje se tam velké množství paměti. Ale ten rozdíl časů nemusí být velký, protože i při standardním chování se musí GC volat celkem často. Honza 2010/2/14 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Ahoj, > > zatím jsem se na to zběžně podíval. Jediná chyba, kterou jsem našel je, že > se několikrát detekovalo [OVERLAP] a řada mezer bez jakéhokoliv textu. > Uzlů s [CHECK][OVERLAP] jsem našel na třetině okresu 8, a to ještě ve > všech případech kromě jednoho byl řetězec správně (kromě mezer na konci). > > Jinak s tím garbage collectorem to funguje, nezkoušel jsem kolik to > zpomaluje, ale jestli myslíš že se to projeví, tak by ho možná šlo volat > jen jednou za 100 dlaždic (nebo něco takového). Asi je v Monu nějaká chyba > a GC najednou přestane automaticky fungovat. > > On Sun, 14 Feb 2010 18:40:26 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > >> Ahoj, >> mas k tomu jeste nejake zasadni postrehy (co je treba upravit)? Tedy >> krome toho, ze ti to zacne plnit pamet, protoze to se mi nepodarilo >> nasimulovat a ani nemam zadny napad, cim by to mohlo byt. >> Honza > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Ahoj, právě že to nastává u těch dat z Prahy-západ (generoval jsem to ale sám), například: 50.1673801,14.3893938,[OVERLAP] 50.1025125,14.4268763,[OVERLAP] 50.1025113,14.4268763,[OVERLAP] 50.0950088,14.3479638,[OVERLAP] 50.0950088,14.3479650,[OVERLAP] S tím GC není problém, že by vůbec nefungoval - problém je s tím, že najednou přestane fungovat (po delší době bezproblémového výpočtu). Souhlasím ale, že zapnutí GC asi nemá velký vliv na výkon, takže to nemusíš řešit. On Sun, 14 Feb 2010 23:30:56 +0100, Jan Bilak <jan.bilak.osm na gmail.com> wrote: zobrazit citaci

> Ahoj, > pokud máš někde po ruce csv výpis (kde jsou souřadnice těch chyb s > mezerami), tam mi jej prosím pošli. Kouknul bych se, proč to nastává a > co se s tím dá dělat. Může to způsobovat i nějaké méně viditelné > chyby. U těch dat Prahy, které jsi mne poslal, se toto nestalo. > S tím GC to volat třeba po 100 mapkách asi nemá smysl, protože každá > bitmapa v paměti zabere asi 50 MB (4000x4000 px a v RGB 3 byte na > pixel) a k tomu ještě další pomocné struktury ... celé se to musí > násobit počtem vláken ... tedy alokuje se tam velké množství paměti. > Ale ten rozdíl časů nemusí být velký, protože i při standardním > chování se musí GC volat celkem často.

-- Petr Dlouhý

Máš pravdu, hledal jsem to nějak špatně - mám to v logách... Omlouvám se. Honza 2010/2/14 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Ahoj, > > právě že to nastává u těch dat z Prahy-západ (generoval jsem to ale sám), > například: > > 50.1673801,14.3893938,[OVERLAP] > 50.1025125,14.4268763,[OVERLAP] > 50.1025113,14.4268763,[OVERLAP] > 50.0950088,14.3479638,[OVERLAP] > 50.0950088,14.3479650,[OVERLAP] > > S tím GC není problém, že by vůbec nefungoval - problém je s tím, že > najednou přestane fungovat (po delší době bezproblémového výpočtu). > Souhlasím ale, že zapnutí GC asi nemá velký vliv na výkon, takže to > nemusíš řešit. > > On Sun, 14 Feb 2010 23:30:56 +0100, Jan Bilak <jan.bilak.osm na gmail.com> > wrote: > >> Ahoj, >> pokud máš někde po ruce csv výpis (kde jsou souřadnice těch chyb s >> mezerami), tam mi jej prosím pošli. Kouknul bych se, proč to nastává a >> co se s tím dá dělat. Může to způsobovat i nějaké méně viditelné >> chyby. U těch dat Prahy, které jsi mne poslal, se toto nestalo. >> S tím GC to volat třeba po 100 mapkách asi nemá smysl, protože každá >> bitmapa v paměti zabere asi 50 MB (4000x4000 px a v RGB 3 byte na >> pixel) a k tomu ještě další pomocné struktury ... celé se to musí >> násobit počtem vláken ... tedy alokuje se tam velké množství paměti. >> Ale ten rozdíl časů nemusí být velký, protože i při standardním >> chování se musí GC volat celkem často. > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

Ahoj. Jedná se o špatně detekované body. Tedy ona detekovaná tečka daného rozměru vznikla slitím popisků nebo se tečka zvětšila, protože se slila s popiskem. Tedy takovéto body nejsou ve skutečnosti adresní body. Nová verze beta 4 s drobnými úpravami: a) takovéto body označuje [CHECK][OVERLAP][NOT POINT] (kvůli možnosti kontroly, pokud se potvrdí správná funkce programu, tak je může program klidně zcela vynechávat) b) spouští vlákna s menší prioritou, aby program mohl běžet na pozadí, aniž by to výrazně zpomalovalo ostatní programy c) vynechává prázdné dlaždice 4000x4000 ještě před rozbalením bitmapy v paměti (kontroluje velikost a CRC32 souboru) d) odděluje možnosti v případě nejednoznačnosti svislítkem, tedy místo ?[č.p.bez č.p./č.e.] je ?[č.p.|bez č.p./č.e.] e) v logu formátuje souřadnice (lon, lat) stejně jako v csv kvůli snadném dohledávání http://jabi.aspone.cz/osm/OcrBeta4.zip Honza 2010/2/14 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> Máš pravdu, hledal jsem to nějak špatně - mám to v logách... Omlouvám se. > > Honza > > > 2010/2/14 Petr Dlouhý <petr.dlouhy na email.cz>: >> Ahoj, >> >> právě že to nastává u těch dat z Prahy-západ (generoval jsem to ale sám), >> například: >> >> 50.1673801,14.3893938,[OVERLAP] >> 50.1025125,14.4268763,[OVERLAP] >> 50.1025113,14.4268763,[OVERLAP] >> 50.0950088,14.3479638,[OVERLAP] >> 50.0950088,14.3479650,[OVERLAP] >> >> S tím GC není problém, že by vůbec nefungoval - problém je s tím, že >> najednou přestane fungovat (po delší době bezproblémového výpočtu). >> Souhlasím ale, že zapnutí GC asi nemá velký vliv na výkon, takže to >> nemusíš řešit. >> >> On Sun, 14 Feb 2010 23:30:56 +0100, Jan Bilak <jan.bilak.osm na gmail.com> >> wrote: >> >>> Ahoj, >>> pokud máš někde po ruce csv výpis (kde jsou souřadnice těch chyb s >>> mezerami), tam mi jej prosím pošli. Kouknul bych se, proč to nastává a >>> co se s tím dá dělat. Může to způsobovat i nějaké méně viditelné >>> chyby. U těch dat Prahy, které jsi mne poslal, se toto nestalo. >>> S tím GC to volat třeba po 100 mapkách asi nemá smysl, protože každá >>> bitmapa v paměti zabere asi 50 MB (4000x4000 px a v RGB 3 byte na >>> pixel) a k tomu ještě další pomocné struktury ... celé se to musí >>> násobit počtem vláken ... tedy alokuje se tam velké množství paměti. >>> Ale ten rozdíl časů nemusí být velký, protože i při standardním >>> chování se musí GC volat celkem často. >> >> >> -- >> Petr Dlouhý >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> >

Ahoj, ja byl ted tyden pryc, proto jsem se do diskuze a reseni problemu nezapojil. Pokud spravne chapu situaci, tak problem je u c.e., ve kterych je cislice 2 se obcas stava a obcas se stava, ze se rozpozna jako 7. Jak jsem z diskuze pochopil, tak Honza Bilak napsal programek, ktery vezme celou dlazdici a provede OCR jinym zpusobem. Ja mam pripravene skripty na docisteni vysledku (slouceni dat z dlazdic, vymazani duplicit zpusobenych prekryvem dlazdic, vyfiltorvani bodu ktere neodpovidaji vzoru c.p., c.e., bez cp./c.e a jejich stazeni ve vyssim rozliseni a znovuprovedeni OCR - vyreseni prokryvajicich se napisu) Vysledky po stazeni detailu a znovuprovedeni OCR jsou celkem dobre. Na datech, co byla spocitana minuly tyden (cca 2/3 republiky) je po znovuprovedeni OCR jen 1050 adresnich bodu, ktere neodpovidaji zadanemu vzoru. Myslim, ze by bylo zbytecne zpracovavat celou CR znovu. Z dat si muzu vytahnout c.e., ktera obsahuji cislici 7, stahnout si detail ve vyssim rozliceni a ten misto terreractem zpracovat algoritmem od Honzy. -- Lukas

Ahoj, algoritmus po Honzových úpravách pracuje výrazně rychleji a dokáže detekovat překrývající se čísla s téměř 100% úspěšností (na rozsáhlém území jsou to jednotky chyb). Vzhledem k tomu, že je to možné zpracovat za několik dnů na jednom PC, tak bych řekl, že se to předělat vyplatí. On Mon, 15 Feb 2010 09:44:58 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: zobrazit citaci

> Ahoj, > > ja byl ted tyden pryc, proto jsem se do diskuze a reseni problemu > nezapojil. > > Pokud spravne chapu situaci, tak problem je u c.e., ve kterych je > cislice 2 se obcas stava a obcas se stava, ze se rozpozna jako 7. Jak > jsem z diskuze pochopil, tak Honza Bilak napsal programek, ktery vezme > celou dlazdici a provede OCR jinym zpusobem. > > Ja mam pripravene skripty na docisteni vysledku (slouceni dat z > dlazdic, vymazani duplicit zpusobenych prekryvem dlazdic, vyfiltorvani > bodu ktere neodpovidaji vzoru c.p., c.e., bez cp./c.e a jejich stazeni > ve vyssim rozliseni a znovuprovedeni OCR - vyreseni prokryvajicich se > napisu) > > Vysledky po stazeni detailu a znovuprovedeni OCR jsou celkem dobre. Na > datech, co byla spocitana minuly tyden (cca 2/3 republiky) je po > znovuprovedeni OCR jen 1050 adresnich bodu, ktere neodpovidaji > zadanemu vzoru. > > Myslim, ze by bylo zbytecne zpracovavat celou CR znovu. Z dat si muzu > vytahnout c.e., ktera obsahuji cislici 7, stahnout si detail ve vyssim > rozliceni a ten misto terreractem zpracovat algoritmem od Honzy. > -- > Lukas > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz

-- Petr Dlouhý

Ahoj, nezkousel jsem porovnavat vysledky z tesseractu a meho rozpoznavani vzoru, ale myslim, ze by to slo snadno. Staci nejaka data, ktera byla zpracovana tesseractem, zpracovat take timto. Oba csv soubory seradit a pouzit nejaky klasicky diff. Obecne mam obavu, ze tesseract se muze splest a rozpoznat cislo spatne, i kdyz vysledek rozpoznani odpovida vzoru. Zato muj OCR na miru detektuje pripady, kdy si neni jisty, a loguje je, aby je bylo mozne rucne zkontrolovat. Pritom je jich dostatecne maly pocet na to, aby rucni kontrola byla proveditelna. Pokud v programu neni chyba (coz nevylucuji), tak by program nemel popisek rozpoznat spatne, aniz by jej oznacil, ze si neni jisty. To byl hlavni cil, proc jsem OCR delal - zajisteni spolehlivosti. Zvyseni rychlosti bylo druhorade, i kdyz je to prijemne. Honza 2010/2/15 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Ahoj, > > algoritmus po Honzových úpravách pracuje výrazně rychleji a dokáže > detekovat překrývající se čísla s téměř 100% úspěšností (na rozsáhlém > území jsou to jednotky chyb). Vzhledem k tomu, že je to možné zpracovat za > několik dnů na jednom PC, tak bych řekl, že se to předělat vyplatí. > > On Mon, 15 Feb 2010 09:44:58 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote: > >> Ahoj, >> >> ja byl ted tyden pryc, proto jsem se do diskuze a reseni problemu >> nezapojil. >> >> Pokud spravne chapu situaci, tak problem je u c.e., ve kterych je >> cislice 2 se obcas stava a obcas se stava, ze se rozpozna jako 7. Jak >> jsem z diskuze pochopil, tak Honza Bilak napsal programek, ktery vezme >> celou dlazdici a provede OCR jinym zpusobem. >> >> Ja mam pripravene skripty na docisteni vysledku (slouceni dat z >> dlazdic, vymazani duplicit zpusobenych prekryvem dlazdic, vyfiltorvani >> bodu ktere neodpovidaji vzoru c.p., c.e., bez cp./c.e a jejich stazeni >> ve vyssim rozliseni a znovuprovedeni OCR - vyreseni prokryvajicich se >> napisu) >> >> Vysledky po stazeni detailu a znovuprovedeni OCR jsou celkem dobre. Na >> datech, co byla spocitana minuly tyden (cca 2/3 republiky) je po >> znovuprovedeni OCR jen 1050 adresnich bodu, ktere neodpovidaji >> zadanemu vzoru. >> >> Myslim, ze by bylo zbytecne zpracovavat celou CR znovu. Z dat si muzu >> vytahnout c.e., ktera obsahuji cislici 7, stahnout si detail ve vyssim >> rozliceni a ten misto terreractem zpracovat algoritmem od Honzy. >> -- >> Lukas >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz > > > -- > Petr Dlouhý > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

zobrazit citaci

> Obecne mam obavu, ze tesseract se muze splest a rozpoznat cislo > spatne, i kdyz vysledek rozpoznani odpovida vzoru. Zato muj OCR na > miru detektuje pripady, kdy si neni jisty, a loguje je, aby je bylo > mozne rucne zkontrolovat. Pritom je jich dostatecne maly pocet na to, > aby rucni kontrola byla proveditelna. Pokud v programu neni chyba (coz > nevylucuji), tak by program nemel popisek rozpoznat spatne, aniz by > jej oznacil, ze si neni jisty.

Tak ja jsem zkusil porovnat vysledky puvodniho a tveho programu. Puvodni program skutecne dela chyby u budov s c.e., mimo zminovaneho problemu 2/7 jeste obcas dochazi k zamene 6/8. U budov s c.p. jsou ve vetsine pripadu stejne. Narazil jsem na par rozdilu, ktere tvuj program oznacuje jako [CHECK]. Takze, i kdyz uz je vse spocitane, tak asi mate pravdu, ze by stalo za to rozpoznani udelat znovu. Mrzi me to, netusil jsem ze tesseract si s tim neporadi a pri testovani jsem si tohohle problemu nevsimnul. BTW, muzes nekam dat zdrojaky, docela by me zajimalo, jak tvuj program pracuje. -- Lukas

Princip práce Honzova programu se dá jednoduše poznat z logových souborů. Zdrojáky by asi bylo nejlepší nahrát na <http://svn.openstreetmap.org/applications/utils/>, abychom se s nimi při příštím importu zase setkali, a aby se jimi mohli inspirovat i ostatní. zobrazit citaci

> ------------ Původní zpráva ------------ > Od: Lukas Kabrt <lukas na kabrt.cz> > Předmět: Re: [Talk-cz] Import adres z katastralni mapy > Datum: 17.2.2010 15:38:57 > ----------------------------------------

zobrazit citaci

> BTW, muzes nekam dat zdrojaky, docela by me zajimalo, jak tvuj program pracuje. > > -- > Lukas > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz > > >

Petr Dlouhý petr.dlouhy na email.cz

Ahoj, odkaz na zdrojáky jsem do této konference už zasílal (na betu 3) - o pár příspěvků výše jej najdeš. Beta 4 upravovala jen drobnosti. Ještě zdrojáky trochu upravím (po formální stránce - refaktoring, komentáře, ...) ... a pak, když vymyslíte vhodné místo na SVN, tak tam nahraju. Obecně si ale myslím, že je vhodné dělat tyto utility jako class library (v případě .NETu) s nějakým rozumným interfacem, aby je bylo možné začlěňovat do celku. Tedy místo dlouhého postupu, co spouštět v jakém pořadí, tak pak mít utilitku s příjemným rozhraním (ať již konzolovým nebo GUI), která tohle všechno zařídí. A přitom jednotlivé části řešené jako vyměnitelné a nahraditelné jinou implementací. Jinak mám velké pochybnosti o tom, že se budou dostatečně často data aktualizovat. Už to nebude mít takový ten "wow" efekt, kdy na mapách přibude mnoho dat a tak se do toho nikomu nebude moc chtít, když to bude složité. Honza 2010/2/17 Petr Dlouhý <petr.dlouhy na email.cz>: zobrazit citaci

> Princip práce Honzova programu se dá jednoduše poznat z logových souborů. > > Zdrojáky by asi bylo nejlepší nahrát na <http://svn.openstreetmap.org/applications/utils/>, abychom se s nimi při příštím importu zase setkali, a aby se jimi mohli inspirovat i ostatní. > > >> ------------ Původní zpráva ------------ >> Od: Lukas Kabrt <lukas na kabrt.cz> >> Předmět: Re: [Talk-cz] Import adres z katastralni mapy >> Datum: 17.2.2010 15:38:57 >> ---------------------------------------- > >> BTW, muzes nekam dat zdrojaky, docela by me zajimalo, jak tvuj program pracuje. >> >> -- >> Lukas >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> >> >> > > Petr Dlouhý > petr.dlouhy na email.cz > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

A mimochodem nejde o můj program ... je to upravený ten tvůj. Honza 2010/2/17 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> Ahoj, > > odkaz na zdrojáky jsem do této konference už zasílal (na betu 3) - o > pár příspěvků výše jej najdeš. Beta 4 upravovala jen drobnosti. Ještě > zdrojáky trochu upravím (po formální stránce - refaktoring, komentáře, > ...) ... a pak, když vymyslíte vhodné místo na SVN, tak tam nahraju. > > Obecně si ale myslím, že je vhodné dělat tyto utility jako class > library (v případě .NETu) s nějakým rozumným interfacem, aby je bylo > možné začlěňovat do celku. Tedy místo dlouhého postupu, co spouštět v > jakém pořadí, tak pak mít utilitku s příjemným rozhraním (ať již > konzolovým nebo GUI), která tohle všechno zařídí. A přitom jednotlivé > části řešené jako vyměnitelné a nahraditelné jinou implementací. > > Jinak mám velké pochybnosti o tom, že se budou dostatečně často data > aktualizovat. Už to nebude mít takový ten "wow" efekt, kdy na mapách > přibude mnoho dat a tak se do toho nikomu nebude moc chtít, když to > bude složité. > > Honza > > > 2010/2/17 Petr Dlouhý <petr.dlouhy na email.cz>: >> Princip práce Honzova programu se dá jednoduše poznat z logových souborů. >> >> Zdrojáky by asi bylo nejlepší nahrát na <http://svn.openstreetmap.org/applications/utils/>, abychom se s nimi při příštím importu zase setkali, a aby se jimi mohli inspirovat i ostatní. >> >> >>> ------------ Původní zpráva ------------ >>> Od: Lukas Kabrt <lukas na kabrt.cz> >>> Předmět: Re: [Talk-cz] Import adres z katastralni mapy >>> Datum: 17.2.2010 15:38:57 >>> ---------------------------------------- >> >>> BTW, muzes nekam dat zdrojaky, docela by me zajimalo, jak tvuj program pracuje. >>> >>> -- >>> Lukas >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >>> >>> >> >> Petr Dlouhý >> petr.dlouhy na email.cz >> >> _______________________________________________ >> Talk-cz mailing list >> Talk-cz na openstreetmap.org >> http://lists.openstreetmap.org/listinfo/talk-cz >> >

Než to nějak upravím ... tak zatím ještě přikládám beta4 zdrojáky pro zájemce: http://jabi.aspone.cz/osm/FindAddressPoints-beta4-src.zip Honza 2010/2/17 Jan Bilak <jan.bilak.osm na gmail.com>: zobrazit citaci

> A mimochodem nejde o můj program ... je to upravený ten tvůj. > > Honza > > > 2010/2/17 Jan Bilak <jan.bilak.osm na gmail.com>: >> Ahoj, >> >> odkaz na zdrojáky jsem do této konference už zasílal (na betu 3) - o >> pár příspěvků výše jej najdeš. Beta 4 upravovala jen drobnosti. Ještě >> zdrojáky trochu upravím (po formální stránce - refaktoring, komentáře, >> ...) ... a pak, když vymyslíte vhodné místo na SVN, tak tam nahraju. >> >> Obecně si ale myslím, že je vhodné dělat tyto utility jako class >> library (v případě .NETu) s nějakým rozumným interfacem, aby je bylo >> možné začlěňovat do celku. Tedy místo dlouhého postupu, co spouštět v >> jakém pořadí, tak pak mít utilitku s příjemným rozhraním (ať již >> konzolovým nebo GUI), která tohle všechno zařídí. A přitom jednotlivé >> části řešené jako vyměnitelné a nahraditelné jinou implementací. >> >> Jinak mám velké pochybnosti o tom, že se budou dostatečně často data >> aktualizovat. Už to nebude mít takový ten "wow" efekt, kdy na mapách >> přibude mnoho dat a tak se do toho nikomu nebude moc chtít, když to >> bude složité. >> >> Honza >> >> >> 2010/2/17 Petr Dlouhý <petr.dlouhy na email.cz>: >>> Princip práce Honzova programu se dá jednoduše poznat z logových souborů. >>> >>> Zdrojáky by asi bylo nejlepší nahrát na <http://svn.openstreetmap.org/applications/utils/>, abychom se s nimi při příštím importu zase setkali, a aby se jimi mohli inspirovat i ostatní. >>> >>> >>>> ------------ Původní zpráva ------------ >>>> Od: Lukas Kabrt <lukas na kabrt.cz> >>>> Předmět: Re: [Talk-cz] Import adres z katastralni mapy >>>> Datum: 17.2.2010 15:38:57 >>>> ---------------------------------------- >>> >>>> BTW, muzes nekam dat zdrojaky, docela by me zajimalo, jak tvuj program pracuje. >>>> >>>> -- >>>> Lukas >>>> >>>> _______________________________________________ >>>> Talk-cz mailing list >>>> Talk-cz na openstreetmap.org >>>> http://lists.openstreetmap.org/listinfo/talk-cz >>>> >>>> >>>> >>> >>> Petr Dlouhý >>> petr.dlouhy na email.cz >>> >>> _______________________________________________ >>> Talk-cz mailing list >>> Talk-cz na openstreetmap.org >>> http://lists.openstreetmap.org/listinfo/talk-cz >>> >> >

Ahoj, par informací, co je nového ohledně importu adres. Znovu jsem provedl OCR s vylepšeným programem. Výsledek je na [1] Vylepšil jsem program merge-cuzk-db [2] - lepší detekce problémů (duplicity) - možnost zpracování více *.map souborů najednou - rychlejší zpracování osm a xml souborů (bez problémů lze používat soubor s hranicemi k.ú. pro celou ČR) - změna označení nekonzistentních dat (tag note místo tagu fixme) - podle toho co jsem koukal, tak fixme se používá pro závažnější pronlémy Na wiki [3] je pár bodů k nové verzi programu. Postupně tam budu přidávat odkazy na zip soubory s daty pro jednotlivé okresy (archiv obsahuje map soubory, soubor s polohami budov a výsledkem ocr, osm soubory pro obce, kde je předpoklad, že map soubor je správný). V současné době jsou na wiki odkazy na prvních 5 souborů. Pokud se někdo pustíte do importu, tak prosím data aspoň zběžně zkontrolujte - jestli jsem neudělal nějakou chyby, které jsem si nevšimnul. Víc očí, víc vidí :-) [1] lkabrt.aspone.cz/osm/cz.zip [2] http://osm.kabrt.cz/home/adresy.zip?attredirects=0&d=1 [3] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR#P.C5.99ehled_import.C5.AF -- Lukas

Chtěl jsem se na to podívat, ale chce to po mě .NET Framework 4.0.3... Nějak si nejsem jistý, kterou z těch mnoha verzí co MS nabízí mám nainstalovat a po předchoízch zkušenostech, kdy mi instalace .NET 3.5 rozhasila některé věci se mi do toho ani moc nechce. Můžeš dát podrobnější návod, případně link na správnou verzi? J&D 2010/2/23 Lukas Kabrt <lukas na kabrt.cz>: zobrazit citaci

> Ahoj, > > par informací, co je nového ohledně importu adres. > > Znovu jsem provedl OCR s vylepšeným programem. Výsledek je na [1] > > Vylepšil jsem program merge-cuzk-db [2] > - lepší detekce problémů (duplicity) > - možnost zpracování více *.map souborů najednou > - rychlejší zpracování osm a xml souborů (bez problémů lze používat > soubor s hranicemi k.ú. pro celou ČR) > > - změna označení nekonzistentních dat (tag note místo tagu fixme) - > podle toho co jsem koukal, tak fixme se používá pro závažnější > pronlémy > > Na wiki [3] je pár bodů k nové verzi programu. Postupně tam budu > přidávat odkazy na zip soubory s daty pro jednotlivé okresy (archiv > obsahuje map soubory, soubor s polohami budov a výsledkem ocr, osm > soubory pro obce, kde je předpoklad, že map soubor je správný). V > současné době jsou na wiki odkazy na prvních 5 souborů. > > Pokud se někdo pustíte do importu, tak prosím data aspoň zběžně > zkontrolujte - jestli jsem neudělal nějakou chyby, které jsem si > nevšimnul. Víc očí, víc vidí :-) > > [1] lkabrt.aspone.cz/osm/cz.zip > [2] http://osm.kabrt.cz/home/adresy.zip?attredirects=0&d=1 > [3] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR#P.C5.99ehled_import.C5.AF > -- > Lukas > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

-- -- Ing. Jan Dudík

2010/2/23 Jan Dudík <jan.dudik na gmail.com>: zobrazit citaci

> Chtěl jsem se na to podívat, ale chce to po mě .NET Framework 4.0.3... > Nějak si nejsem jistý, kterou z těch mnoha verzí co MS nabízí mám > nainstalovat a po předchoízch zkušenostech, kdy mi instalace .NET 3.5 > rozhasila některé věci se mi do toho ani moc nechce. > Můžeš dát podrobnější návod, případně link na správnou verzi?

.NET Framework 4.0 bych určitě běžným uživatelům nedoporučoval instalovat, zatím to není finální verze a zaděláte si na možné problémy, až budete instalovat ostrou verzi (mluvím z vlastní zkušenosti s aktualizací z Beta 1 na Beta 2…). -- Petr Kadlec / Mormegil

Dne 23. února 2010 9:56 Petr Kadlec <petr.kadlec na gmail.com> napsal(a): zobrazit citaci

> 2010/2/23 Jan Dudík <jan.dudik na gmail.com>: >> Chtěl jsem se na to podívat, ale chce to po mě .NET Framework 4.0.3... >> Nějak si nejsem jistý, kterou z těch mnoha verzí co MS nabízí mám >> nainstalovat a po předchoízch zkušenostech, kdy mi instalace .NET 3.5 >> rozhasila některé věci se mi do toho ani moc nechce. >> Můžeš dát podrobnější návod, případně link na správnou verzi? > > .NET Framework 4.0 bych určitě běžným uživatelům nedoporučoval > instalovat, zatím to není finální verze a zaděláte si na možné > problémy, až budete instalovat ostrou verzi (mluvím z vlastní > zkušenosti s aktualizací z Beta 1 na Beta 2…). > > -- Petr Kadlec / Mormegil

Tekže dotaz zní, zda lze tuto práci udělat i jinak, s dostupnými prostředky (JOSM, Java, NET <4) J&D

zobrazit citaci

> Chtěl jsem se na to podívat, ale chce to po mě .NET Framework 4.0.3... > Nějak si nejsem jistý, kterou z těch mnoha verzí co MS nabízí mám > nainstalovat a po předchoízch zkušenostech, kdy mi instalace .NET 3.5 > rozhasila některé věci se mi do toho ani moc nechce. > Můžeš dát podrobnější návod, případně link na správnou verzi?

Za .NET framework 4 se omlouvám, používám Beta verzi nového Visual Studia a ta má defaultně nastavené použití .NET frameworku 4, nějak jsem si to neuvědomil. Tady [1] program zkompilován pro verzi 3.5. [1] http://sites.google.com/a/kabrt.cz/osm/home/adresy.zip?attredirects=0&d=1 -- Lukas

Ještě jeden dotaz: Ve staženém souboru (Beroun) už jsou všechny výstupy udělané, proč je tedy třeba zprovozňovat program? tam, kde jsou konflikty mi program spadne. BTW, co ten import ktastrálních území? soubor existuje, proč není zároveň nahrán? J&D 2010/2/23 Lukas Kabrt <lukas na kabrt.cz>: zobrazit citaci

>> Chtěl jsem se na to podívat, ale chce to po mě .NET Framework 4.0.3... >> Nějak si nejsem jistý, kterou z těch mnoha verzí co MS nabízí mám >> nainstalovat a po předchoízch zkušenostech, kdy mi instalace .NET 3.5 >> rozhasila některé věci se mi do toho ani moc nechce. >> Můžeš dát podrobnější návod, případně link na správnou verzi? > > Za .NET framework 4 se omlouvám, používám Beta verzi nového Visual > Studia a ta má defaultně nastavené použití .NET frameworku 4, nějak > jsem si to neuvědomil. > > Tady [1] program zkompilován pro verzi 3.5. > > [1] http://sites.google.com/a/kabrt.cz/osm/home/adresy.zip?attredirects=0&d=1 > -- > Lukas > > _______________________________________________ > Talk-cz mailing list > Talk-cz na openstreetmap.org > http://lists.openstreetmap.org/listinfo/talk-cz >

-- -- Ing. Jan Dudík

zobrazit citaci

> Ve staženém souboru (Beroun) už jsou všechny výstupy udělané, proč je > tedy třeba zprovozňovat program?

Výstupy jsou udělané pro města, kde se podařil automaticky vytvořit *.map soubor. U dalších (název souboru začíná podtržítkem) je nějaká nejasnost v *.map souboru. Je potřeba map soubor upravit a vygenerovat osm soubory - proto je potřeba zprovoznit program. zobrazit citaci

> tam, kde jsou konflikty mi program spadne.

Můžu se zeptat co vypíše za chybu? (spustit přes příkazový řádek, pak zůstane chyba na obrazovace) zobrazit citaci

> BTW, co ten import ktastrálních území? soubor existuje, proč není > zároveň nahrán?

Nahrán není, protože to ještě nikdo neudělal :-) A nahrávat ho současně s adresami mi nepřijde jako šťastný nápad - je nutné vyřešit konflikty s existujícími daty, napojení na existující relace apod. -- Lukas