Intro
00:00:00Генри Нг, ведущий программы Ethical Data Explained, представляет себя и своего гостя Ондру Урбана из Apify. Ондра делится своим волнением по поводу того, что впервые участвует в подкасте.
Introducing Ondra and his backstory
00:00:55Путь Ондры от юриста до инженера-программиста Ондра начал свою карьеру юристом, но счел эту работу неудовлетворительной и решил заняться управлением проектами. Однако ему не хватало необходимых навыков, и в итоге он начал изучать программирование, в которое влюбился. Проучившись год, он устроился на работу инженером-программистом.
Присоединяюсь к Apify и становлюсь исполнительным директором Поработав над различными проектами в качестве разработчика, Ондра присоединился к Apify, где его юридическое образование убедило их нанять его. Он быстро поднялся по служебной лестнице и стал отвечать за их SDK, прежде чем в конечном итоге стать исполнительным директором компании.
Unlocking the potential of bottlenecks and issues
00:07:13Рассказчик наслаждается поиском слабых мест и узких местечек в системах, предпочитая отладку сборке. Они находят удовлетворение в том, что глубоко погружаются в проблемы, смотрят на них с разных сторон и испытывают прилив адреналина, когда наконец решают их.
Finding and identifying weak spots in systems
00:09:34Как единственный разработчик Apify, слабыми местами в системе были в основном проблемы, созданные мной самим. Однако по мере того, как моя карьера продвигалась к руководящим должностям, я обнаружил, что общение и командная работа стали более важными слабостями, которые необходимо устранять внутри команд. В настоящее время самыми большими узкими местами часто являются проблемы с коммуникацией между несколькими командами, работающими над проектами вместе.
Why Ondra chose Apify
00:12:51Изначально Ондру привлекла Apify из-за позитивного настроя основателей во время собеседования и их общего стремления сосредоточиться на доставке и делать свою работу наилучшим образом. Культура компании, которая поддерживалась с первых дней ее существования в небольшом коворкинге, высоко ценится сотрудниками и способствует их лояльности.
Making Apify more programmable and accessible and using data for good
00:14:56Apify стремится сделать Веб более программируемым и доступным, предоставляя программный доступ к огромному объему данных в Интернете, позволяя пользователям обрабатывать их и извлекать из них полезную информацию. Они используют подход контролируемого хаоса, чтобы бросить вызов социальным нормам и стигматизации в сфере технологий.
Maintaining ethical standards in data and data collection
00:16:50Apify подходит к поддержанию этических стандартов на своей платформе, опираясь на концепцию безопасной гавани, где они не несут ответственности за действия пользователей, если только они не были осведомлены о них заранее. Они стремятся быть полезными и поддерживающими при рассмотрении жалоб или опасений по поводу неэтичного использования, поскольку понимают важность создания хорошей репутации в области очистки веб-страниц и извлечения данных. Кроме того, при работе с клиентами напрямую Apify проводит строгий юридический анализ и анализ проектов, чтобы обеспечить соблюдение правил, касающихся персональных данных и авторских прав.
Scraping for good (ThornXApify use case)
00:20:03Рассказчик обсуждает важность этичного использования веб-скрапинга и освещает конкретный пример использования, когда они собирают данные с сайтов для взрослых, чтобы помочь бороться с торговлей детьми, что приводит к выявлению тысяч жертв. Они подчеркивают положительное воздействие, которое может оказать соскабливание полотна при ответственном использовании.
Working with Boston College (use case)
00:22:31К компании обратился исследователь из Бостонского колледжа с просьбой помочь в исследовательском проекте по налогу на недвижимость в Массачусетсе. Сотрудничество прошло успешно, поскольку не существовало федеральных законов, запрещающих сканирование веб-страниц, и проект предполагал использование общедоступных данных в рамках закона.
Discussing the HiQ v LinkedIn case
00:25:14Последствия дела HiQ против LinkedIn Дело устанавливает, что сбор общедоступных данных, скорее всего, не карается уголовным наказанием, но компании должны быть осторожны в отношении своих контрактных соглашений и того, как они могут обеспечить их соблюдение. Использование поддельных аккаунтов при очистке представляет собой нарушение контракта.
Решение суда о соскабливании веб-страниц Хотя суд подтвердил, что удаление общедоступных данных вряд ли приведет к нарушению Закона о компьютерном мошенничестве и злоупотреблениях (CFAA), он не объявил удаление веб-данных полностью законным. Решение было направлено на обеспечение соблюдения соглашений об условиях использования между HiQ и LinkedIn, в которых указывалось, что ущерб может быть заявлен, если он будет доказан. Однако некоторые надеялись на более широкое постановление, защищающее право на сбор общедоступных данных на основе принципов свободы слова.
Upcoming trends and innovations
00:31:52Ожидается, что искусственный интеллект будет играть большую роль в очистке веб-страниц, но ему еще рано полностью заменять программистов. Хотя искусственный интеллект может обрабатывать большие объемы данных, его точность может быть недостаточной для всех вариантов использования. Вместо того чтобы фокусироваться на искусственном интеллекте, компания стремится уделять приоритетное внимание опыту разработчиков, предоставляя простые в использовании инструменты для создания скребков.
Ondra’s hopes for the future of AI
00:34:36Ондра видит большое будущее для искусственного интеллекта в ремонте сломанных скребков и улучшении их качества. Он представляет себе искусственный интеллект, который может автоматически исправлять сам себя на основе исторических данных от изготовленных на заказ скребков, сокращая время и энергию, затрачиваемые на техническое обслуживание. Ондра в восторге от такой возможности и приветствует любые партнерские отношения или сотрудничество в этой области.
Who in the world of data Ondra would take for lunch
00:37:07Ондра хотел бы пригласить Эдварда Чена, судью по делу HiQ/LinkedIn, на обед, чтобы обсудить его соображения по поводу сбора общедоступных данных и монополии на них крупных платформ. Ondra особенно интересно услышать о том, что эти платформы не должны иметь возможности выбирать, кто может получить доступ к общедоступным данным, как только они будут объявлены таковыми.
Ondra’s piece of software he couldn’t live without
00:38:28Ондра считает, что GitHub - это единственное программное обеспечение, без которого он не смог бы жить. Он хвалит его великолепный дизайн, подход и функциональность. Несмотря на первоначальные опасения по поводу приобретения Microsoft GitHub, Ондра считает, что на самом деле они улучшили его еще больше.
Using data to solve a real-world problem
00:39:40Рассказчик делится примером использования веб-скрапинга, чтобы помочь своей девушке купить платье, которого не было на складе, демонстрируя, как данные можно использовать в повседневных ситуациях. Они также обсуждают потенциал создания продаваемых инструментов и упоминают существующий инструмент под названием Content Checker в Apify store. Глава завершается словами благодарности за предоставленную возможность принять участие в подкасте.