SlideShare une entreprise Scribd logo
1  sur  18
Отворени данни
на практика
Божидар Божанов
съветник към кабинета на вицепремиера
Защо отворени данни?
• прозрачност
• гражданите вече са платили за тези данни
• бизнес ползи
• анализи и прогнози
Машинно-четими формати
• CSV
• XML
• RDF
• JSON
• GeoJSON
• SQL (dump)
• ...
Защо отворени формати?
• отворени и безплатни библиотеки за програмно четене
• инструменти за визуализация
• отворени данни => отворени формати
Затворени и машинно-нечетими формати
• doc/docx
• xls/xlsx
• pdf
• (всички могат да бъдат машинно-четими, но инструментите за това
платени/неподдържани/не работят)
Методи на експорт на отворени данни
• ръчен
• файлове (csv)
• полуавтоматичен
• файлове (csv)
• клиентско приложение
• автоматичен
• уеб-интерфейс на информационната система (xml, json)
Кои данни
• всички :)
• без заглавия и междинни редове
• значещи извън контекста
• (напр. от вътрешни идентификатори няма голям смисъл)
• без лични данни
• анонимизиране на ЕГН-та и имена на физически лица
• ...освен ако в закон не е предвидено друго (ЗТР)
• Данните няма нужда да са 100% коректни, за да ги отворим
Лоши примери
CSV
• не е официален стандарт
• стойностите (колоните) са разделени със запетаи
• един заглавен ред
• стойностите са в кавички
• кавичките в стойностите се отбелязват с две кавички
"1", "улица ""Неофит Рилски"" 4", "990024321", "12.12.2010"
CSV съвети
• XLS -> CSV
• Ексел е счупен
• semicolon-separated, зависи от локалните настройки
• не работи с UTF-8
• нови редове
• онлайн инструмент за конвертиране
• ръчно премахване на нови редове
• Notepad++ replace
Проверка на encoding (Notepad++)
LibreOffice / OpenOffice
Първа нормална форма
“всички данни на един ред”
вместо
Име Фамилия ЕГН Покупка (лв.)
Петър Иванов 7812129523 701.02
Христо Петров 6410195245 850.00
Петър Иванов 7812129523 117.60
Име Фамилия ЕГН Номер
Петър Иванов 7812129523 1
Христо Петров 6410195245 2
Клиент Покупка
1 701.02
2 850.00
1 117.60
Денормализация
• вкарване на прости номенклатури в масива
• напр. “тип на възложителя” (община, областна администрация, агенция, министерство)
• свързване на два масива (поръчка и организация) в един
• получава се повторение на данни
• няколко реда за една и съща организация
• повторение на текста на номенклатурата, вместо просто на номер
SQL съвети
• sql -> csv
• като резултат от заявката (ако базата данни го поддържа)
• чрез инструментът (графичен интерфейс) за достъп до базата данни
• csv е за предпочитане
• sql dump може да се ползва само от програмисти
• csv може да се ползва от всеки
• sql dump е подходящ при много сложна структура на базата данни и
липса на възможност за денормализация
Съвети за портала
• добавяне на организация
• добавяне на масив от данни
• ако файловете са твърде големи се архивират и се качват с тип “zip”
• периодично качване чрез заместване на съществуващия ресурс
• лиценз: creative commons
Съвети за критерии към АИС
• отворените данни са критерий за допустимост по ОПДУ (и ЗЕУ)
• идентифициране на това кои данни подлежат на отваряне
• колкото повече, толкова повече
• данни в (почти) реално време
• API (програмни интерфейси)
• json, geojson, xml
• по възможност презиползване на информационните обекти от регистрите за
оперативна съвместимост
• кеширане
Бъдещо развитие
• по-малко ръчна работа
• инструменти за автоматично качване
• csv - настройване на път към XLS
• sql - настройване на заявка и данни за достъп до база
• подобряване интерфейса на портала
• с реализирани/надграждане на АИС-и: автопилот
• сертификати за “отвореност”?
• по идея на OKFN
Визуализации
• графики в ексел
• пивоти
• програмиране - javascript, jQuery, https://developers.google.com/chart/
• https://infogr.am/
• https://cartodb.com/
• http://www.qlik.com/
Благодаря
b.bozhanov@government.bg

Contenu connexe

Plus de Bozhidar Bozhanov

Антикорупционен софтуер
Антикорупционен софтуерАнтикорупционен софтуер
Антикорупционен софтуерBozhidar Bozhanov
 
Elasticsearch - Scalability and Multitenancy
Elasticsearch - Scalability and MultitenancyElasticsearch - Scalability and Multitenancy
Elasticsearch - Scalability and MultitenancyBozhidar Bozhanov
 
Encryption in the enterprise
Encryption in the enterpriseEncryption in the enterprise
Encryption in the enterpriseBozhidar Bozhanov
 
Blockchain overview - types, use-cases, security and usabilty
Blockchain overview - types, use-cases, security and usabiltyBlockchain overview - types, use-cases, security and usabilty
Blockchain overview - types, use-cases, security and usabiltyBozhidar Bozhanov
 
Електронна държава
Електронна държаваЕлектронна държава
Електронна държаваBozhidar Bozhanov
 
Blockchain - what is it good for?
Blockchain - what is it good for?Blockchain - what is it good for?
Blockchain - what is it good for?Bozhidar Bozhanov
 
Algorithmic and technological transparency
Algorithmic and technological transparencyAlgorithmic and technological transparency
Algorithmic and technological transparencyBozhidar Bozhanov
 
Alternatives for copyright protection online
Alternatives for copyright protection onlineAlternatives for copyright protection online
Alternatives for copyright protection onlineBozhidar Bozhanov
 
Политики, основани на данни
Политики, основани на данниПолитики, основани на данни
Политики, основани на данниBozhidar Bozhanov
 
Отворено законодателство
Отворено законодателствоОтворено законодателство
Отворено законодателствоBozhidar Bozhanov
 
Electronic governance steps in the right direction?
Electronic governance   steps in the right direction?Electronic governance   steps in the right direction?
Electronic governance steps in the right direction?Bozhidar Bozhanov
 
Сигурност на електронното управление
Сигурност на електронното управлениеСигурност на електронното управление
Сигурност на електронното управлениеBozhidar Bozhanov
 
Биометрична идентификация
Биометрична идентификацияБиометрична идентификация
Биометрична идентификацияBozhidar Bozhanov
 
Регулации и технологии
Регулации и технологииРегулации и технологии
Регулации и технологииBozhidar Bozhanov
 

Plus de Bozhidar Bozhanov (20)

Антикорупционен софтуер
Антикорупционен софтуерАнтикорупционен софтуер
Антикорупционен софтуер
 
Nothing is secure.pdf
Nothing is secure.pdfNothing is secure.pdf
Nothing is secure.pdf
 
Elasticsearch - Scalability and Multitenancy
Elasticsearch - Scalability and MultitenancyElasticsearch - Scalability and Multitenancy
Elasticsearch - Scalability and Multitenancy
 
Encryption in the enterprise
Encryption in the enterpriseEncryption in the enterprise
Encryption in the enterprise
 
Blockchain overview - types, use-cases, security and usabilty
Blockchain overview - types, use-cases, security and usabiltyBlockchain overview - types, use-cases, security and usabilty
Blockchain overview - types, use-cases, security and usabilty
 
Електронна държава
Електронна държаваЕлектронна държава
Електронна държава
 
Blockchain - what is it good for?
Blockchain - what is it good for?Blockchain - what is it good for?
Blockchain - what is it good for?
 
Algorithmic and technological transparency
Algorithmic and technological transparencyAlgorithmic and technological transparency
Algorithmic and technological transparency
 
Scaling horizontally on AWS
Scaling horizontally on AWSScaling horizontally on AWS
Scaling horizontally on AWS
 
Alternatives for copyright protection online
Alternatives for copyright protection onlineAlternatives for copyright protection online
Alternatives for copyright protection online
 
GDPR for developers
GDPR for developersGDPR for developers
GDPR for developers
 
Политики, основани на данни
Политики, основани на данниПолитики, основани на данни
Политики, основани на данни
 
Отворено законодателство
Отворено законодателствоОтворено законодателство
Отворено законодателство
 
Overview of Message Queues
Overview of Message QueuesOverview of Message Queues
Overview of Message Queues
 
Electronic governance steps in the right direction?
Electronic governance   steps in the right direction?Electronic governance   steps in the right direction?
Electronic governance steps in the right direction?
 
Сигурност на електронното управление
Сигурност на електронното управлениеСигурност на електронното управление
Сигурност на електронното управление
 
Opensource government
Opensource governmentOpensource government
Opensource government
 
Биометрична идентификация
Биометрична идентификацияБиометрична идентификация
Биометрична идентификация
 
Biometric identification
Biometric identificationBiometric identification
Biometric identification
 
Регулации и технологии
Регулации и технологииРегулации и технологии
Регулации и технологии
 

Отворени данни на практика

  • 1. Отворени данни на практика Божидар Божанов съветник към кабинета на вицепремиера
  • 2. Защо отворени данни? • прозрачност • гражданите вече са платили за тези данни • бизнес ползи • анализи и прогнози
  • 3. Машинно-четими формати • CSV • XML • RDF • JSON • GeoJSON • SQL (dump) • ...
  • 4. Защо отворени формати? • отворени и безплатни библиотеки за програмно четене • инструменти за визуализация • отворени данни => отворени формати
  • 5. Затворени и машинно-нечетими формати • doc/docx • xls/xlsx • pdf • (всички могат да бъдат машинно-четими, но инструментите за това платени/неподдържани/не работят)
  • 6. Методи на експорт на отворени данни • ръчен • файлове (csv) • полуавтоматичен • файлове (csv) • клиентско приложение • автоматичен • уеб-интерфейс на информационната система (xml, json)
  • 7. Кои данни • всички :) • без заглавия и междинни редове • значещи извън контекста • (напр. от вътрешни идентификатори няма голям смисъл) • без лични данни • анонимизиране на ЕГН-та и имена на физически лица • ...освен ако в закон не е предвидено друго (ЗТР) • Данните няма нужда да са 100% коректни, за да ги отворим
  • 9. CSV • не е официален стандарт • стойностите (колоните) са разделени със запетаи • един заглавен ред • стойностите са в кавички • кавичките в стойностите се отбелязват с две кавички "1", "улица ""Неофит Рилски"" 4", "990024321", "12.12.2010"
  • 10. CSV съвети • XLS -> CSV • Ексел е счупен • semicolon-separated, зависи от локалните настройки • не работи с UTF-8 • нови редове • онлайн инструмент за конвертиране • ръчно премахване на нови редове • Notepad++ replace Проверка на encoding (Notepad++) LibreOffice / OpenOffice
  • 11. Първа нормална форма “всички данни на един ред” вместо Име Фамилия ЕГН Покупка (лв.) Петър Иванов 7812129523 701.02 Христо Петров 6410195245 850.00 Петър Иванов 7812129523 117.60 Име Фамилия ЕГН Номер Петър Иванов 7812129523 1 Христо Петров 6410195245 2 Клиент Покупка 1 701.02 2 850.00 1 117.60
  • 12. Денормализация • вкарване на прости номенклатури в масива • напр. “тип на възложителя” (община, областна администрация, агенция, министерство) • свързване на два масива (поръчка и организация) в един • получава се повторение на данни • няколко реда за една и съща организация • повторение на текста на номенклатурата, вместо просто на номер
  • 13. SQL съвети • sql -> csv • като резултат от заявката (ако базата данни го поддържа) • чрез инструментът (графичен интерфейс) за достъп до базата данни • csv е за предпочитане • sql dump може да се ползва само от програмисти • csv може да се ползва от всеки • sql dump е подходящ при много сложна структура на базата данни и липса на възможност за денормализация
  • 14. Съвети за портала • добавяне на организация • добавяне на масив от данни • ако файловете са твърде големи се архивират и се качват с тип “zip” • периодично качване чрез заместване на съществуващия ресурс • лиценз: creative commons
  • 15. Съвети за критерии към АИС • отворените данни са критерий за допустимост по ОПДУ (и ЗЕУ) • идентифициране на това кои данни подлежат на отваряне • колкото повече, толкова повече • данни в (почти) реално време • API (програмни интерфейси) • json, geojson, xml • по възможност презиползване на информационните обекти от регистрите за оперативна съвместимост • кеширане
  • 16. Бъдещо развитие • по-малко ръчна работа • инструменти за автоматично качване • csv - настройване на път към XLS • sql - настройване на заявка и данни за достъп до база • подобряване интерфейса на портала • с реализирани/надграждане на АИС-и: автопилот • сертификати за “отвореност”? • по идея на OKFN
  • 17. Визуализации • графики в ексел • пивоти • програмиране - javascript, jQuery, https://developers.google.com/chart/ • https://infogr.am/ • https://cartodb.com/ • http://www.qlik.com/