Pages:
Author

Topic: Парсинг форума - page 2. (Read 1097 times)

kzv
legendary
Activity: 1722
Merit: 1285
OpenTrade - Open Source Cryptocurrency Exchange
June 28, 2018, 12:17:36 AM
#25
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь
Доброго времени суток! А как надо ставить вопрос? И чем плох nodejs с модулем puppetteer? Если Вы в этом разбираетесь может просветите?


Не обращайте внимания это бот-флудер. Его высер подойдет к любой теме с вопросом.
Кстати, можете заработать мерит от модератора если будете искать таких долбоебов и репортить на них.
newbie
Activity: 70
Merit: 0
June 27, 2018, 07:10:31 PM
#24
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь
Доброго времени суток! А как надо ставить вопрос? И чем плох nodejs с модулем puppetteer? Если Вы в этом разбираетесь может просветите?
newbie
Activity: 3
Merit: 0
June 27, 2018, 04:30:05 PM
#23
Всем спасибо за советы. В итоге написал парсер на VBA Excel, неделя на изучение, 3 недели на написание кода. Самый большой плюс VBA Excel это не нужно заморачиваться с базами данных, когда нужно что то быстро написать на "коленке" и структурировать информацию, тем более что Excel хорошо знаю, но не был знаком с VBA. Парсинг немного тормознутый, но недавно узнал что есть поддержка selenium. Для более серьезного парсинга, надо будет изучать что то посерьезней.
Изучай C#, сможешь парсить всё что угодно, там куча библиотек, часто нужны управляемые браузеры, чтобы кликнуть куда-то, чтобы popup открылся, или прокрутить вниз, чтобы страничка прогрузилась, там можно подключить несколько управляемых браузеров (тот же селениум есть на C#, мозилла, хромиум, он же хром, стандартный IE - на нём вообще свой рабочий браузер можно за 2 минуты наваять - я это на ютубе увидел, с тех пор дружу с C#, хотя я на GeckoFX лучше за 5 минут сделаю), конечно ещё лучше C или C++, это прям вообще круто, но мне вот лень их изучать, я C# знаю, там плюшек много слишком.
newbie
Activity: 26
Merit: 0
June 23, 2018, 06:07:03 PM
#22
Всем спасибо за советы. В итоге написал парсер на VBA Excel, неделя на изучение, 3 недели на написание кода. Самый большой плюс VBA Excel это не нужно заморачиваться с базами данных, когда нужно что то быстро написать на "коленке" и структурировать информацию, тем более что Excel хорошо знаю, но не был знаком с VBA. Парсинг немного тормознутый, но недавно узнал что есть поддержка selenium. Для более серьезного парсинга, надо будет изучать что то посерьезней.
kzv
legendary
Activity: 1722
Merit: 1285
OpenTrade - Open Source Cryptocurrency Exchange
June 19, 2018, 10:51:23 PM
#21
Клауд это маркетинговое говно для веб школоты.
Все что делает клауд это запускает при первом заходе простейший яваскрипт с таймером. Типо проверка, что заходит браузер, а не робот лол. Все остальные вызовы проходят через чутка допиленный нгинкс.
member
Activity: 980
Merit: 48
June 19, 2018, 08:41:17 PM
#20
Я не уверен что Cloudflare даст просто так парсить большие объемы

А кто запрещает вам использовать прокси сервера и эмуляторы браузера с поддержками кук?
Xtc
legendary
Activity: 1973
Merit: 1028
;u
June 19, 2018, 04:00:19 PM
#19
Я не уверен что Cloudflare даст просто так парсить большие объемы
kzv
legendary
Activity: 1722
Merit: 1285
OpenTrade - Open Source Cryptocurrency Exchange
June 18, 2018, 03:30:48 PM
#18
Расскажите писал кто нибудь ботов для парсинга?
И если писали то на чем писали JavaScript?


А второе сообщение в топике прочитать не але?
jr. member
Activity: 152
Merit: 1
June 18, 2018, 05:47:24 AM
#17
Расскажите писал кто нибудь ботов для парсинга?
И если писали то на чем писали JavaScript?
newbie
Activity: 79
Merit: 0
June 17, 2018, 02:23:23 AM
#16
php или python. Вообще python для такой работы лучше всех подходит, но php легче в освоении
Питон легче в освоении на порядок Smiley.

Мой набор для парсинга на никсах:python beautifulsoap, wget, curl, grep. Можно вообще без питона, только баш и последние три программы.
newbie
Activity: 219
Merit: 0
June 14, 2018, 07:47:16 AM
#15
php или python. Вообще python для такой работы лучше всех подходит, но php легче в освоении
jr. member
Activity: 175
Merit: 1
June 11, 2018, 09:02:27 AM
#14
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь

Как-то делал сложный парсинг, это скан форума, с перекидыванием сообщений в другой форум, с сохранением бб тэгов и имен пользователей (префикс к именам добавлял). Более того, парсер отслеживал и свежие сообщения, и их тоже перекидывал.
Если задаться целью, можно спарсить и этот форум, в другой форум, будет полная копия. (это конечно сложно, но возможно)

Code:
загоняем в гугл - php query парсинг
Если с пхп знаком, научиться делать парсинг сайтов с несложной разметкой можно за один день.

Так же писал сканер книг, помнится было книг на жестком диске где-то на пол терабайта, сканер должен был по некоторым признакам найти автора книги, название книги, и обложку если есть, ну и если попался дубль, убрать его. Разметка была не одинаковой, была масса адаптаций сканера.

Парсить можно всё, включая сайты где автоподгрузка через аякс(например твиттер) запросы или "вебсокеты" (например вконтакте).
Тоже через пыху парсил. Работаю в конторе, которая парсит с ~6000 сайтов интернет-магазинов товары для последующей выгрузки в соц сети типа вк, ок и в файлы эксель, цсв
jr. member
Activity: 168
Merit: 1
ImmVRse | Disrupting the VR industry
June 10, 2018, 06:16:49 PM
#13
python фреймворки scrapy, grab. Но если вам просто мониторить пару веток то достаточно воспользоваться готовыми сервисами

Много слышал положительного о Питоне, не никогда не смотрел. Вот сейчас стоит делема JavaScript или Python ) Скорее всего JavaScript т.к. puppetteer заточен на управление браузером, соответственно можно автоматизировать кое-какие вещи, не знаю может ли Питон делать это так же хорошо.

Если нужна автоматизация, то для питона, да в принципе и для йавы есть selenium, недавно наткнулся, библиотека для тестеров, но возможна реализация автоматизации. Подскажите, если еще есть такого же рода библиотеки под пайтон, которыми удобнее пользоваться.
sr. member
Activity: 613
Merit: 256
June 07, 2018, 02:54:33 PM
#12
Может у кого есть опыт парсинга подобно этому форуму,  ибо сам форум далеко не совершенен для отслеживания нужной информации. Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.
Парсить можно на любом языке, но выбирать лучше тот язык который используется в проекте чтобы сделать парсер модулем проекта. Если нужно для веб проекта то скорее всего вам больше подойдет PHP или Java.
member
Activity: 980
Merit: 48
June 07, 2018, 11:24:02 AM
#11
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь

Как-то делал сложный парсинг, это скан форума, с перекидыванием сообщений в другой форум, с сохранением бб тэгов и имен пользователей (префикс к именам добавлял). Более того, парсер отслеживал и свежие сообщения, и их тоже перекидывал.
Если задаться целью, можно спарсить и этот форум, в другой форум, будет полная копия. (это конечно сложно, но возможно)

Code:
загоняем в гугл - php query парсинг
Если с пхп знаком, научиться делать парсинг сайтов с несложной разметкой можно за один день.

Так же писал сканер книг, помнится было книг на жестком диске где-то на пол терабайта, сканер должен был по некоторым признакам найти автора книги, название книги, и обложку если есть, ну и если попался дубль, убрать его. Разметка была не одинаковой, была масса адаптаций сканера.

Парсить можно всё, включая сайты где автоподгрузка через аякс(например твиттер) запросы или "вебсокеты" (например вконтакте).
legendary
Activity: 1134
Merit: 1002
June 06, 2018, 10:34:31 PM
#10
Если нужно по мелочи сделать - сделаю. Опыт в парсинге огромен.
newbie
Activity: 87
Merit: 0
June 06, 2018, 11:31:16 AM
#9
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь
member
Activity: 980
Merit: 48
May 30, 2018, 01:23:47 AM
#8
Много слышал положительного о Питоне, не никогда не смотрел. Вот сейчас стоит делема JavaScript или Python ) Скорее всего JavaScript т.к. puppetteer заточен на управление браузером, соответственно можно автоматизировать кое-какие вещи, не знаю может ли Питон делать это так же хорошо.

Что бы парсить форум, ни управление браузером, ни сам браузер не нужен...
newbie
Activity: 26
Merit: 0
May 30, 2018, 01:12:31 AM
#7
python фреймворки scrapy, grab. Но если вам просто мониторить пару веток то достаточно воспользоваться готовыми сервисами

Много слышал положительного о Питоне, не никогда не смотрел. Вот сейчас стоит делема JavaScript или Python ) Скорее всего JavaScript т.к. puppetteer заточен на управление браузером, соответственно можно автоматизировать кое-какие вещи, не знаю может ли Питон делать это так же хорошо.
newbie
Activity: 26
Merit: 0
May 30, 2018, 12:32:58 AM
#6
Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.

Любой, какой вы знаете. Ну и изучение языка программирования занимает некоторое время (от нескольких месяцев, лет, вся жизнь), возможно проще заказать парсер...

У меня для поверхностного изучения языка, чтобы уже начать писать что-то полезное, обычно уходит около месяца. Лучше подучу язык, сам напишу, тем более что возможно придется что-то постоянно дописывать, плюс получу полезный навык.
Pages:
Jump to: