Страница 1 из 4

Реестр Россвязи

СообщениеДобавлено: 10 сен 2015, 12:39
TVMaker
Конечно, не совсем бизнес, просто не знаю, куда ещё с такой просьбой. Господа! Никто не поделится не совсем свежими базами Россвязи? А то формат сентябрьского обновления требует серьезной перестройки софта, на что сейчас не хватает времени, да и Бог знает, что будет в октябре - вдруг всё назад вернут. С благодарностью приму 4 html файла на мыло tvmstern-гав-гав-gmail.com

Re: Реестр Россвязи

СообщениеДобавлено: 10 сен 2015, 12:50
zzuz
И чем же поменялся формат в http://www.rossvyaz.ru/docs/articles/DEF-9x.html ?

Re: Реестр Россвязи

СообщениеДобавлено: 10 сен 2015, 13:06
TVMaker
В мобильниках не поменялся, скорее всего. А вот из ABC исчез субъект федерации.

Re: Реестр Россвязи

СообщениеДобавлено: 10 сен 2015, 13:21
awsswa
Было
code_abcdef,code_from,code_to,code_volume,operator,city,region

Стало
code_abcdef,code_from,code_to,code_volume,operator,city

Хотя они последнее поле и обозвали регионом, реально там города
и бумажка с соседнего форума актуальность не потеряла

#!/bin/bash


#Заливка http://www.rossvyaz.ru/docs/num/DEF-9x.html

DOWNFILE='http://www.rossvyaz.ru/docs/articles/ABC-3x.html';
TMPDIR='/tmp';
DB_USER='Юзер';
DB_PASSWORD='Парооь';
DATABASE_NAME='Имя базы';
DB_TABLE_NAME='Имя таблицы';

wget -c -q -O - $DOWNFILE | grep "^<tr>" | sed -e 's/<\/td>//g' -e 's/<tr>//g' -e 's/<\/tr>//g' -e 's/[\t]//g' -e 's/^<td>//g' -e 's/<td>/;/g' -e 's/|/;/g' | iconv -c -f WINDOWS-1251 -t UTF8 > $TMPDIR/$DB_TABLE_NAME

mysqlimport --user=$DB_USER --password=$DB_PASSWORD --columns "code_abcdef,code_from,code_to,code_volume,operator,city" --local --fields-terminated-by=";" --lines-terminated-by="\\n" $DATABASE_NAME $TMPDIR/$DB_TABLE_NAME

Re: Реестр Россвязи

СообщениеДобавлено: 10 сен 2015, 13:28
Pechen
народ, там же готовый csv прям в базу просится и закидывается меньше 5ти секунд, зачем парсить html?

Re: Реестр Россвязи

СообщениеДобавлено: 11 сен 2015, 08:48
virus_net
А как вы смотрите на идею создания online сервиса для получения данных реестра и плана нумерации ? Чтобы не быть завязанным на изменения в отдаче реестра Россвязи.
Подумываю над созданием такого сервиса в дополнение к frod.
Данные можно будет тягать через API, формат вывода можно сделать xml/json/plain text.

Re: Реестр Россвязи

СообщениеДобавлено: 11 сен 2015, 13:23
TVMaker
Проще Россвязи по балде настучать, чтоб кривые базы не выкладывала. А, отвечая на вопрос, зачем парсить html, скажу, что csv начали выкладывать относительно недавно, не факт, что правильно. Лично я в июльской базе пару моментов нашел, где кавычка из html версии превратилась в жуткий &quot версии csv.

Re: Реестр Россвязи

СообщениеДобавлено: 11 сен 2015, 13:53
Glukinho
Бесит, что там субъекты называются вразнобой (где-то "Новосибирск", где-то "город Новосибирск") и с разным "масштабом" (то есть по городам, районам, областям - а не как-то одинаково).

Re: Реестр Россвязи

СообщениеДобавлено: 11 сен 2015, 15:37
sergeysi
CSV было уже как минимум года два назад. В SQL Server импортируется просто, в MySQL наверно тоже.

Насчёт сервиса не знаю. На мой взгляд было бы полезнее, если бы кто-то на регулярной основе делился БДПН с простыми смертными.

Re: Реестр Россвязи

СообщениеДобавлено: 12 сен 2015, 20:35
TVMaker
Вот как раз город Новосибирск превратить в Новосибирск довольно просто на этапе парсинга с помощью регулярного выражения: s/город\s+//g ;) А раз всё равно парсить - то без разницы что - html или csv :D