Неправильные буквы, неправильные годы

Добавление новых сайтов в Movienizer. Индивидуальная настройка программы.
Post Reply
TerribleFloater
Superstar
Posts: 1931
Joined: Thu Feb 28, 2008 4:20 pm

Неправильные буквы, неправильные годы

Post by TerribleFloater » Mon Jan 13, 2014 6:53 pm

Скачано 201-м скриптом в программу 7.0:
Image Image
Хочу: чёрные списки, пол людей, пользовательские поля изданий.
Кинопоиск: Image ПлюсКинопоиск: Image

User avatar
adislav
Supporting actor
Posts: 87
Joined: Sun Dec 22, 2013 6:45 pm
Location: Киев, Москва, Адлер
Contact:

Re: Неправильные буквы, неправильные годы

Post by adislav » Mon Jan 13, 2014 8:20 pm

неправильный год - подтверждаю, пока не исправлено (правлю руками)
а вот в плане неправильных имен должен несогласиться - я за последний месяц с кинопоиска спарсил в общей сложности пару сотен тысяч фильмов\актеров (не все "выжили", несколько раз убивал базу по разным причинам)...
так вот, мною не было замечено (за исключением исправленного именно в 201м скрипте косяка с упрощением юникода) НИ ОДНОГО случая, когда мувинайзер портил имена, если они правильно прописаны на кинопоиске....
и в случае с Птицами (проверял), и в куче других вариантов (когда не лень было зайти по ссылке на сайт и свериться) ВСЕГДА присутствовал изначально неправильно прописанный вариант имени\названия на самом кинопоиске...
более того, некоторые фильмы, подобным образом исковерканные, я пытался найти на IMDB - в тех случаях, когда я проверял (возможно, не во всех) - там та же картина :lol:
так что , камрады, давайте будем объективны: мувинайзер не идеален, но тут он ни при чем :D

User avatar
maniac
Developer
Posts: 4407
Joined: Wed Jan 23, 2008 11:06 am
Location: La Prairie, Canada
Contact:

Re: Неправильные буквы, неправильные годы

Post by maniac » Mon Jan 13, 2014 8:25 pm

На Кинопоиске криво: http://www.kinopoisk.ru/film/94151/cast/
Причем на некоторых фильмах заметил, что было раньше нормально.
Похоже, что они на юникод пытаются перейти и пока неуспешно.
ImageImage

User avatar
adislav
Supporting actor
Posts: 87
Joined: Sun Dec 22, 2013 6:45 pm
Location: Киев, Москва, Адлер
Contact:

Re: Неправильные буквы, неправильные годы

Post by adislav » Mon Jan 13, 2014 8:28 pm

есть подозрение, что они на каком-то этапе пытались вести наполнение базы с помощью АММ - слишком "знакомый почерк" :D
=
хотя есть еще одна версия....
я не сильный знаток в php, но когда активно занимался админскими делами на неск форумах на булке иногда заказывал\правил скрипты...
так вот...
смутно помню, что в некоторых случаях когда текст несколько раз проходит через джаву или аякс возникают совершенно изюмительные результаты :lol:
а кинопоиск просто перенасыщен скриптами - отсюда возможные проблемы с отображением
=
кстати...
большинство имен\названий имею всего одну\две исковерканные буквы...
при этом, насколько помню, замена происходит не случайным образом, а ее можно прописать в таблице и попытаться сделать частичную обратную "конвертацию"...
Last edited by adislav on Mon Jan 13, 2014 8:36 pm, edited 1 time in total.

TerribleFloater
Superstar
Posts: 1931
Joined: Thu Feb 28, 2008 4:20 pm

Re: Неправильные буквы, неправильные годы

Post by TerribleFloater » Mon Jan 13, 2014 8:36 pm

"Имена" и "роли" -- не одно и то же :-)
Но конкретно сейчас, я согласен, с этим фильмом вина на кинопоиске: там сейчас именно так, с кракозябрами. Хотя ещё недавно, когда я закачивал инфу в первый раз, было иначе: http://web.archive.org/web/201307181945 ... 4151/cast/. Почему и я запомнил именно этот фильм, собственно. И поленился проверить, как оно на кинопоиске обстоит в данный момент. Каюсь.
ОК, проверю на фильме, где и сейчас на кинопоиске инфа с умляутами.
Хочу: чёрные списки, пол людей, пользовательские поля изданий.
Кинопоиск: Image ПлюсКинопоиск: Image

TerribleFloater
Superstar
Posts: 1931
Joined: Thu Feb 28, 2008 4:20 pm

Re: Неправильные буквы, неправильные годы

Post by TerribleFloater » Tue Jan 14, 2014 5:36 am

TerribleFloater wrote:ОК, проверю на фильме, где и сейчас на кинопоиске инфа с умляутами.
Проверил на фильме "Лимонадный Джо". Все умляуты на месте. Претензию снимаю, приношу самые глубокие извинения, посыпаю голову пеплом, был нетрезв, больше не повторится.
Но зато ( :D ) нашёл новый странный баг. Есть такой фильм "Десятидюймовый герой", очень всем рекомендую. В разделе "Знаете ли Вы, что..." перечислены надписи на футболках одного из героев. Так вот, в мувинайзер грузится только первая из них.
Хочу: чёрные списки, пол людей, пользовательские поля изданий.
Кинопоиск: Image ПлюсКинопоиск: Image

User avatar
adislav
Supporting actor
Posts: 87
Joined: Sun Dec 22, 2013 6:45 pm
Location: Киев, Москва, Адлер
Contact:

Re: Неправильные буквы, неправильные годы

Post by adislav » Tue Jan 14, 2014 9:19 am

не совсем "правильная" тема, но сегодня обнаружились очередные баги на самом сайте кинопоиска...
"многие" уже в курсе, что качаю я оттуда пакетом и потому редко имею возможность анализировать скачанное
но сегодня взгляд случайно зацепился за несколько несуразностей и выяснилось, что на кинопоиске сейчас куча неправдоподобной информации
напр, в немецких сериалах Место преступления (1970) и Телефон полиции - 101 (1971) в качестве актеров указаны грузин Мераб Нинидзе, вряд ли там снимавшийся в 3-4 летнем возрасте и Чулпан Хаматова, родившаяся в 1975(!) году
композитор Алексей Айги, родившийся в 1971, по версии кинопоиска сочинял музыку для фильма Счастье (1934)
и тд и тп
есть подозрение, что таких случаев не просто много, а катастрофически много, так как это похоже не на банальную ошибку\опечатку, а на серьезный сбой базы, приведший впоследствии к каше в айди фильмов или персон...
то есть получается, что пару лет назад на кинопоиске были читабельные имена\роли\названия (об этом говорили чуть ранее в этом же топике, а я не поленился сходить на вебархив и убедиться), затем они почему-то превратились в кракозябры, теперь проблема с соответствием персон фильмам...
самое обидное, что многое исправить нереально, так как до недавнего времени кинопоиск был чуть ли не единственным источником достаточно достоверной инфомации по фильмам для русскоязычного пользователя...
во только насколько эта информация осталось достоверной? :shock:

User avatar
adislav
Supporting actor
Posts: 87
Joined: Sun Dec 22, 2013 6:45 pm
Location: Киев, Москва, Адлер
Contact:

Re: Неправильные буквы, неправильные годы

Post by adislav » Tue Apr 14, 2015 11:49 am

совершенно случайно занырнул в эту древнюю тему и возник вопрос\идея:
а насколько реально для случаев, описанных в этом топике, натравливать парсер не на кинопоиск с умляутами, а на страницу вебархива, где пока еще лежит корректная информация?
по идее, скрипту, если он не обращается напрямую к апи сайта, а парсит именно страницы, должно быть пофиг, откуда парсить
да и сам адрес страницы генерировать элементарно просто - он будет лишь отличаться частью адреса

TerribleFloater
Superstar
Posts: 1931
Joined: Thu Feb 28, 2008 4:20 pm

Re: Неправильные буквы, неправильные годы

Post by TerribleFloater » Tue Apr 14, 2015 4:28 pm

adislav wrote:на страницу вебархива, где пока еще лежит корректная информация?
Зацените корректность информации :-)
http://web.archive.org/web/200902100925 ... ilm/43922/
Хочу: чёрные списки, пол людей, пользовательские поля изданий.
Кинопоиск: Image ПлюсКинопоиск: Image

User avatar
adislav
Supporting actor
Posts: 87
Joined: Sun Dec 22, 2013 6:45 pm
Location: Киев, Москва, Адлер
Contact:

Re: Неправильные буквы, неправильные годы

Post by adislav » Tue Apr 14, 2015 4:35 pm

Зацените корректность информации :-)
ну, я имел в виду не период, когда российский кинематограф еше транслировался с imdb транслитом, а в основном те фильмы или люди, имена и названия которых пишутся с использованием диакритических символов и многие из которых на сегодняшний день исковерканы везде(
при этом на вебархиве есть страницы с корректным написанием
потому возможность использования подобного парсинга из вебархива НЕКОТОРОЙ информации в РУЧНОМ режиме могла бы оказаться нелишней

Post Reply