4. Защо отворени формати?
• отворени и безплатни библиотеки за програмно четене
• инструменти за визуализация
• отворени данни => отворени формати
5. Затворени и машинно-нечетими формати
• doc/docx
• xls/xlsx
• pdf
• (всички могат да бъдат машинно-четими, но инструментите за това
платени/неподдържани/не работят)
6. Методи на експорт на отворени данни
• ръчен
• файлове (csv)
• полуавтоматичен
• файлове (csv)
• клиентско приложение
• автоматичен
• уеб-интерфейс на информационната система (xml, json)
7. Кои данни
• всички :)
• без заглавия и междинни редове
• значещи извън контекста
• (напр. от вътрешни идентификатори няма голям смисъл)
• без лични данни
• анонимизиране на ЕГН-та и имена на физически лица
• ...освен ако в закон не е предвидено друго (ЗТР)
• Данните няма нужда да са 100% коректни, за да ги отворим
9. CSV
• не е официален стандарт
• стойностите (колоните) са разделени със запетаи
• един заглавен ред
• стойностите са в кавички
• кавичките в стойностите се отбелязват с две кавички
"1", "улица ""Неофит Рилски"" 4", "990024321", "12.12.2010"
10. CSV съвети
• XLS -> CSV
• Ексел е счупен
• semicolon-separated, зависи от локалните настройки
• не работи с UTF-8
• нови редове
• онлайн инструмент за конвертиране
• ръчно премахване на нови редове
• Notepad++ replace
Проверка на encoding (Notepad++)
LibreOffice / OpenOffice
11. Първа нормална форма
“всички данни на един ред”
вместо
Име Фамилия ЕГН Покупка (лв.)
Петър Иванов 7812129523 701.02
Христо Петров 6410195245 850.00
Петър Иванов 7812129523 117.60
Име Фамилия ЕГН Номер
Петър Иванов 7812129523 1
Христо Петров 6410195245 2
Клиент Покупка
1 701.02
2 850.00
1 117.60
12. Денормализация
• вкарване на прости номенклатури в масива
• напр. “тип на възложителя” (община, областна администрация, агенция, министерство)
• свързване на два масива (поръчка и организация) в един
• получава се повторение на данни
• няколко реда за една и съща организация
• повторение на текста на номенклатурата, вместо просто на номер
13. SQL съвети
• sql -> csv
• като резултат от заявката (ако базата данни го поддържа)
• чрез инструментът (графичен интерфейс) за достъп до базата данни
• csv е за предпочитане
• sql dump може да се ползва само от програмисти
• csv може да се ползва от всеки
• sql dump е подходящ при много сложна структура на базата данни и
липса на възможност за денормализация
14. Съвети за портала
• добавяне на организация
• добавяне на масив от данни
• ако файловете са твърде големи се архивират и се качват с тип “zip”
• периодично качване чрез заместване на съществуващия ресурс
• лиценз: creative commons
15. Съвети за критерии към АИС
• отворените данни са критерий за допустимост по ОПДУ (и ЗЕУ)
• идентифициране на това кои данни подлежат на отваряне
• колкото повече, толкова повече
• данни в (почти) реално време
• API (програмни интерфейси)
• json, geojson, xml
• по възможност презиползване на информационните обекти от регистрите за
оперативна съвместимост
• кеширане
16. Бъдещо развитие
• по-малко ръчна работа
• инструменти за автоматично качване
• csv - настройване на път към XLS
• sql - настройване на заявка и данни за достъп до база
• подобряване интерфейса на портала
• с реализирани/надграждане на АИС-и: автопилот
• сертификати за “отвореност”?
• по идея на OKFN