Author

Topic: Парсинг форума (Read 1097 times)

sr. member
Activity: 631
Merit: 260
November 27, 2019, 10:28:46 PM
#45
У одного легендарного ака с англ ветки видел в подписи разработанное неофициальное API форума с помощью которого можно получить различную инфу ники, айдшники, подпись да и вообще всю полную инфу по профилю единсвтенное, что написано оно на С# было поэтому не знаю на сколько будет удобно с ним работать
Наверное вы про это: https://bitcointalksearch.org/topic/unofficial-bitcoin-talk-forums-api-154131
Очень оно старое. Точно не помню что там у меня было, но мне оно не подошло, пришлось писать свое приложение. Я делала парсинг последних созданных тем в разных ветках, в первую очередь для ветки Альткоины, что бы не пропустить новую монету для майнинга. А то там каждый день по 15-20 новых тем(иной раз и больше) создавалось и их быстро "угоняли" на следующие страницы, где они терялись и всплывали лишь тогда, когда монету уже поздно было майнить )
full member
Activity: 1246
Merit: 138
Hodl DeepOnion
November 26, 2019, 09:28:36 AM
#44
У одного легендарного ака с англ ветки видел в подписи разработанное неофициальное API форума с помощью которого можно получить различную инфу ники, айдшники, подпись да и вообще всю полную инфу по профилю единсвтенное, что написано оно на С# было поэтому не знаю на сколько будет удобно с ним работать
А чем С# неудобен  Huh Если только не консольное приложение - тогда просто неудобно.
А так просто парсятся страницы на любом языке программирования. Ничего сложного.
sr. member
Activity: 378
Merit: 252
November 26, 2019, 12:25:51 AM
#43
У одного легендарного ака с англ ветки видел в подписи разработанное неофициальное API форума с помощью которого можно получить различную инфу ники, айдшники, подпись да и вообще всю полную инфу по профилю единсвтенное, что написано оно на С# было поэтому не знаю на сколько будет удобно с ним работать
sr. member
Activity: 631
Merit: 260
November 25, 2019, 09:29:13 AM
#42
Может кому-нибудь нужно приложение парсинга сайта или сайтов - обращайтесь. Готова написать за небольшую сумму, ибо только получаю навыки и опыт в программировании.
Пишу на Джаве.
Также пишу несложные приложения на Андроид.
legendary
Activity: 2275
Merit: 1180
AI Atelier
September 18, 2019, 01:58:51 AM
#41
С парсерами и постерами вы ошиблись форумом, юзайте более профильный форум с готовыми решениями https://zennolab.com

За "зенку" надо платить,... Есть бесплатный софт с таким же функционалом, называется BrowserAutomationStudio. Вот их форум: https://community.bablosoft.com/category/7/browserautomationstudio

jr. member
Activity: 71
Merit: 3
September 16, 2019, 10:22:33 PM
#40
С парсерами и постерами вы ошиблись форумом, юзайте более профильный форум с готовыми решениями https://zennolab.com
sr. member
Activity: 377
Merit: 282
Finis coronat opus
September 16, 2019, 01:54:23 PM
#39
..... проблема в том, что через мейл нужно и страницу с мылом держать открытой, обновлять ее постоянно,....

И эта задачка тоже легко решается,... Существует много расширений для браузеров, которые мониторят почту.  Я, к примеру, пользуюсь "Checker Plus for Gmail", но есть и другие...


Расширениям не очень доверяю, кто его знает что туда записали девы. Проще написать свой небольшой скрипт, загрузить на свой сервер и быть спокойным.
legendary
Activity: 2275
Merit: 1180
AI Atelier
August 05, 2019, 02:10:40 AM
#38
..... проблема в том, что через мейл нужно и страницу с мылом держать открытой, обновлять ее постоянно,....

И эта задачка тоже легко решается,... Существует много расширений для браузеров, которые мониторят почту.  Я, к примеру, пользуюсь "Checker Plus for Gmail", но есть и другие...
sr. member
Activity: 377
Merit: 282
Finis coronat opus
July 31, 2019, 01:04:02 AM
#37
Делать парсер новых тем на БТТ нет необходимости. Достаточно оформить подписку и сообщения о новых темах будут автоматом отправляться на вашу почту.
В правом вернем углу есть строчка команд " new topic  |  post new poll  |  mark read  |  notify " Достаточно нажать на " notify " и Вы в курсе всех новых тем.

Благодарю за помощь, но проблема в том, что через мейл нужно и страницу с мылом держать открытой, обновлять ее постоянно, да и телефона хорошего для оповещения тогда не имел. А бот раз два, и прислал уведомление на компьютер. И быстродействие у него повыше, я ведь пробовал и ваш вариант.
legendary
Activity: 2275
Merit: 1180
AI Atelier
July 26, 2019, 12:58:15 PM
#36
....

Я давно еще писал парсер новых тем, по баунти. Я писал на Шарпе, проблем не возникало. Серверную часть делал на Питоне.

Форум довольно простой, думаю любой язык подойдет.

Делать парсер новых тем на БТТ нет необходимости. Достаточно оформить подписку и сообщения о новых темах будут автоматом отправляться на вашу почту.
В правом вернем углу есть строчка команд " new topic  |  post new poll  |  mark read  |  notify " Достаточно нажать на " notify " и Вы в курсе всех новых тем.
sr. member
Activity: 377
Merit: 282
Finis coronat opus
July 26, 2019, 06:15:03 AM
#35
Может у кого есть опыт парсинга подобно этому форуму,  ибо сам форум далеко не совершенен для отслеживания нужной информации. Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.

Я давно еще писал парсер новых тем, по баунти. Я писал на Шарпе, проблем не возникало. Серверную часть делал на Питоне.

Форум довольно простой, думаю любой язык подойдет.
newbie
Activity: 1
Merit: 0
July 24, 2019, 05:29:00 PM
#34
Если нужно по мелочи сделать - сделаю. Опыт в парсинге огромен.

Ищем народ на парсинг различных источников, оплата сдельная, либо возможно постоянная.
[email protected]
member
Activity: 278
Merit: 15
August 07, 2018, 07:02:20 AM
#33
Что он сделает? Пиши свои идеи.

Давно хочу приложение на мобайл с форумом. Адаптивное. Например. Или отслеживание постов, набирающих тренд. 
member
Activity: 980
Merit: 48
August 06, 2018, 11:57:04 PM
#32
Чувак, если ты это сделаешь, то дай знать. Я тоже такой хочу - есть парочка идей.

Что он сделает? Пиши свои идеи.
member
Activity: 278
Merit: 15
August 06, 2018, 07:20:33 AM
#31
У меня для поверхностного изучения языка, чтобы уже начать писать что-то полезное, обычно уходит около месяца. Лучше подучу язык, сам напишу, тем более что возможно придется что-то постоянно дописывать, плюс получу полезный навык.

Чувак, если ты это сделаешь, то дай знать. Я тоже такой хочу - есть парочка идей.
member
Activity: 980
Merit: 48
July 11, 2018, 05:51:49 AM
#30
Тоже через пыху парсил. Работаю в конторе, которая парсит с ~6000 сайтов интернет-магазинов товары для последующей выгрузки в соц сети типа вк, ок и в файлы эксель, цсв
а зачем чужие товары с чужих магазинов выкладывать в свой ВК ?

В линках на товар, если есть рефки, разница между диллером и тобой идет тебе в карман.
И порой чистая прибыль может составлять миллионы рублей за месяц.
sr. member
Activity: 613
Merit: 256
July 09, 2018, 08:57:35 AM
#29
Всем спасибо за советы. В итоге написал парсер на VBA Excel, неделя на изучение, 3 недели на написание кода. Самый большой плюс VBA Excel это не нужно заморачиваться с базами данных, когда нужно что то быстро написать на "коленке" и структурировать информацию, тем более что Excel хорошо знаю, но не был знаком с VBA. Парсинг немного тормознутый, но недавно узнал что есть поддержка selenium. Для более серьезного парсинга, надо будет изучать что то посерьезней.
IMHO, в общем случае более целесообразно парсить и сохранять в базу данных, а не в Excel.
newbie
Activity: 46
Merit: 0
July 09, 2018, 02:25:28 AM
#28
Тоже через пыху парсил. Работаю в конторе, которая парсит с ~6000 сайтов интернет-магазинов товары для последующей выгрузки в соц сети типа вк, ок и в файлы эксель, цсв

а зачем чужие товары с чужих магазинов выкладывать в свой ВК ?
sr. member
Activity: 1316
Merit: 420
KTO EC/\U HUKTO?
June 29, 2018, 12:41:35 PM
#27
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь
Доброго времени суток! А как надо ставить вопрос? И чем плох nodejs с модулем puppetteer? Если Вы в этом разбираетесь может просветите?


Не обращайте внимания это бот-флудер. Его высер подойдет к любой теме с вопросом.
Кстати, можете заработать мерит от модератора если будете искать таких долбоебов и репортить на них.

Чё-то мне нихуа не накидывают мерита. Cool
member
Activity: 107
Merit: 10
June 29, 2018, 11:58:50 AM
#26
Как уже выше ответили парсить можно чем угодно, главное регулярки или удобные фреймворки.
Node.js мне например нравится тем, что он асинхронен. Парсить в несколько потоков как по мне удобнее указывая concurrency у промисов нежели руками создавать потоки в синхронных языках.
kzv
legendary
Activity: 1722
Merit: 1285
OpenTrade - Open Source Cryptocurrency Exchange
June 28, 2018, 12:17:36 AM
#25
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь
Доброго времени суток! А как надо ставить вопрос? И чем плох nodejs с модулем puppetteer? Если Вы в этом разбираетесь может просветите?


Не обращайте внимания это бот-флудер. Его высер подойдет к любой теме с вопросом.
Кстати, можете заработать мерит от модератора если будете искать таких долбоебов и репортить на них.
newbie
Activity: 70
Merit: 0
June 27, 2018, 07:10:31 PM
#24
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь
Доброго времени суток! А как надо ставить вопрос? И чем плох nodejs с модулем puppetteer? Если Вы в этом разбираетесь может просветите?
newbie
Activity: 3
Merit: 0
June 27, 2018, 04:30:05 PM
#23
Всем спасибо за советы. В итоге написал парсер на VBA Excel, неделя на изучение, 3 недели на написание кода. Самый большой плюс VBA Excel это не нужно заморачиваться с базами данных, когда нужно что то быстро написать на "коленке" и структурировать информацию, тем более что Excel хорошо знаю, но не был знаком с VBA. Парсинг немного тормознутый, но недавно узнал что есть поддержка selenium. Для более серьезного парсинга, надо будет изучать что то посерьезней.
Изучай C#, сможешь парсить всё что угодно, там куча библиотек, часто нужны управляемые браузеры, чтобы кликнуть куда-то, чтобы popup открылся, или прокрутить вниз, чтобы страничка прогрузилась, там можно подключить несколько управляемых браузеров (тот же селениум есть на C#, мозилла, хромиум, он же хром, стандартный IE - на нём вообще свой рабочий браузер можно за 2 минуты наваять - я это на ютубе увидел, с тех пор дружу с C#, хотя я на GeckoFX лучше за 5 минут сделаю), конечно ещё лучше C или C++, это прям вообще круто, но мне вот лень их изучать, я C# знаю, там плюшек много слишком.
newbie
Activity: 26
Merit: 0
June 23, 2018, 06:07:03 PM
#22
Всем спасибо за советы. В итоге написал парсер на VBA Excel, неделя на изучение, 3 недели на написание кода. Самый большой плюс VBA Excel это не нужно заморачиваться с базами данных, когда нужно что то быстро написать на "коленке" и структурировать информацию, тем более что Excel хорошо знаю, но не был знаком с VBA. Парсинг немного тормознутый, но недавно узнал что есть поддержка selenium. Для более серьезного парсинга, надо будет изучать что то посерьезней.
kzv
legendary
Activity: 1722
Merit: 1285
OpenTrade - Open Source Cryptocurrency Exchange
June 19, 2018, 10:51:23 PM
#21
Клауд это маркетинговое говно для веб школоты.
Все что делает клауд это запускает при первом заходе простейший яваскрипт с таймером. Типо проверка, что заходит браузер, а не робот лол. Все остальные вызовы проходят через чутка допиленный нгинкс.
member
Activity: 980
Merit: 48
June 19, 2018, 08:41:17 PM
#20
Я не уверен что Cloudflare даст просто так парсить большие объемы

А кто запрещает вам использовать прокси сервера и эмуляторы браузера с поддержками кук?
Xtc
legendary
Activity: 1973
Merit: 1028
;u
June 19, 2018, 04:00:19 PM
#19
Я не уверен что Cloudflare даст просто так парсить большие объемы
kzv
legendary
Activity: 1722
Merit: 1285
OpenTrade - Open Source Cryptocurrency Exchange
June 18, 2018, 03:30:48 PM
#18
Расскажите писал кто нибудь ботов для парсинга?
И если писали то на чем писали JavaScript?


А второе сообщение в топике прочитать не але?
jr. member
Activity: 152
Merit: 1
June 18, 2018, 05:47:24 AM
#17
Расскажите писал кто нибудь ботов для парсинга?
И если писали то на чем писали JavaScript?
newbie
Activity: 79
Merit: 0
June 17, 2018, 02:23:23 AM
#16
php или python. Вообще python для такой работы лучше всех подходит, но php легче в освоении
Питон легче в освоении на порядок Smiley.

Мой набор для парсинга на никсах:python beautifulsoap, wget, curl, grep. Можно вообще без питона, только баш и последние три программы.
newbie
Activity: 219
Merit: 0
June 14, 2018, 07:47:16 AM
#15
php или python. Вообще python для такой работы лучше всех подходит, но php легче в освоении
jr. member
Activity: 175
Merit: 1
June 11, 2018, 09:02:27 AM
#14
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь

Как-то делал сложный парсинг, это скан форума, с перекидыванием сообщений в другой форум, с сохранением бб тэгов и имен пользователей (префикс к именам добавлял). Более того, парсер отслеживал и свежие сообщения, и их тоже перекидывал.
Если задаться целью, можно спарсить и этот форум, в другой форум, будет полная копия. (это конечно сложно, но возможно)

Code:
загоняем в гугл - php query парсинг
Если с пхп знаком, научиться делать парсинг сайтов с несложной разметкой можно за один день.

Так же писал сканер книг, помнится было книг на жестком диске где-то на пол терабайта, сканер должен был по некоторым признакам найти автора книги, название книги, и обложку если есть, ну и если попался дубль, убрать его. Разметка была не одинаковой, была масса адаптаций сканера.

Парсить можно всё, включая сайты где автоподгрузка через аякс(например твиттер) запросы или "вебсокеты" (например вконтакте).
Тоже через пыху парсил. Работаю в конторе, которая парсит с ~6000 сайтов интернет-магазинов товары для последующей выгрузки в соц сети типа вк, ок и в файлы эксель, цсв
jr. member
Activity: 168
Merit: 1
ImmVRse | Disrupting the VR industry
June 10, 2018, 06:16:49 PM
#13
python фреймворки scrapy, grab. Но если вам просто мониторить пару веток то достаточно воспользоваться готовыми сервисами

Много слышал положительного о Питоне, не никогда не смотрел. Вот сейчас стоит делема JavaScript или Python ) Скорее всего JavaScript т.к. puppetteer заточен на управление браузером, соответственно можно автоматизировать кое-какие вещи, не знаю может ли Питон делать это так же хорошо.

Если нужна автоматизация, то для питона, да в принципе и для йавы есть selenium, недавно наткнулся, библиотека для тестеров, но возможна реализация автоматизации. Подскажите, если еще есть такого же рода библиотеки под пайтон, которыми удобнее пользоваться.
sr. member
Activity: 613
Merit: 256
June 07, 2018, 02:54:33 PM
#12
Может у кого есть опыт парсинга подобно этому форуму,  ибо сам форум далеко не совершенен для отслеживания нужной информации. Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.
Парсить можно на любом языке, но выбирать лучше тот язык который используется в проекте чтобы сделать парсер модулем проекта. Если нужно для веб проекта то скорее всего вам больше подойдет PHP или Java.
member
Activity: 980
Merit: 48
June 07, 2018, 11:24:02 AM
#11
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь

Как-то делал сложный парсинг, это скан форума, с перекидыванием сообщений в другой форум, с сохранением бб тэгов и имен пользователей (префикс к именам добавлял). Более того, парсер отслеживал и свежие сообщения, и их тоже перекидывал.
Если задаться целью, можно спарсить и этот форум, в другой форум, будет полная копия. (это конечно сложно, но возможно)

Code:
загоняем в гугл - php query парсинг
Если с пхп знаком, научиться делать парсинг сайтов с несложной разметкой можно за один день.

Так же писал сканер книг, помнится было книг на жестком диске где-то на пол терабайта, сканер должен был по некоторым признакам найти автора книги, название книги, и обложку если есть, ну и если попался дубль, убрать его. Разметка была не одинаковой, была масса адаптаций сканера.

Парсить можно всё, включая сайты где автоподгрузка через аякс(например твиттер) запросы или "вебсокеты" (например вконтакте).
legendary
Activity: 1134
Merit: 1002
June 06, 2018, 10:34:31 PM
#10
Если нужно по мелочи сделать - сделаю. Опыт в парсинге огромен.
newbie
Activity: 87
Merit: 0
June 06, 2018, 11:31:16 AM
#9
Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь
member
Activity: 980
Merit: 48
May 30, 2018, 01:23:47 AM
#8
Много слышал положительного о Питоне, не никогда не смотрел. Вот сейчас стоит делема JavaScript или Python ) Скорее всего JavaScript т.к. puppetteer заточен на управление браузером, соответственно можно автоматизировать кое-какие вещи, не знаю может ли Питон делать это так же хорошо.

Что бы парсить форум, ни управление браузером, ни сам браузер не нужен...
newbie
Activity: 26
Merit: 0
May 30, 2018, 01:12:31 AM
#7
python фреймворки scrapy, grab. Но если вам просто мониторить пару веток то достаточно воспользоваться готовыми сервисами

Много слышал положительного о Питоне, не никогда не смотрел. Вот сейчас стоит делема JavaScript или Python ) Скорее всего JavaScript т.к. puppetteer заточен на управление браузером, соответственно можно автоматизировать кое-какие вещи, не знаю может ли Питон делать это так же хорошо.
newbie
Activity: 26
Merit: 0
May 30, 2018, 12:32:58 AM
#6
Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.

Любой, какой вы знаете. Ну и изучение языка программирования занимает некоторое время (от нескольких месяцев, лет, вся жизнь), возможно проще заказать парсер...

У меня для поверхностного изучения языка, чтобы уже начать писать что-то полезное, обычно уходит около месяца. Лучше подучу язык, сам напишу, тем более что возможно придется что-то постоянно дописывать, плюс получу полезный навык.
newbie
Activity: 26
Merit: 0
May 30, 2018, 12:21:11 AM
#5
Удобнее всего nodejs с модулем puppetteer.

Спасибо за наводку, поверхностно посмотрел, хорошая вещь. Но для начала надо подучить JavaScript, потом NodeJS и только потом puppetteer. Что ж, будем учить)
newbie
Activity: 84
Merit: 0
May 29, 2018, 07:41:04 AM
#4
python фреймворки scrapy, grab. Но если вам просто мониторить пару веток то достаточно воспользоваться готовыми сервисами
member
Activity: 980
Merit: 48
May 29, 2018, 12:02:12 AM
#3
Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.

Любой, какой вы знаете. Ну и изучение языка программирования занимает некоторое время (от нескольких месяцев, лет, вся жизнь), возможно проще заказать парсер...
jr. member
Activity: 54
Merit: 1
May 28, 2018, 04:41:45 PM
#2
Удобнее всего nodejs с модулем puppetteer.
newbie
Activity: 26
Merit: 0
May 28, 2018, 03:46:25 PM
#1
Может у кого есть опыт парсинга подобно этому форуму,  ибо сам форум далеко не совершенен для отслеживания нужной информации. Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.
Jump to: