13 мая, 19:17

Инструменты научного поиска: где получать достоверные данные и как в этом помогут нейросети

Методичка по работе с научными данными: где, что и как.

Алексей Кулаков, JetStyle

Автор: Алексей Кулаков, директор агентства JetStyle. Текст стилизован нейросетью Claude.

В феврале 2025-го OpenAI выпустил Deep Research. И эта штука сразу стала моей любимой игрушкой. Почему? Внезапно оказалось, что практически всё, что мне интересно, можно очень быстро изучить на любом уровне глубины, причём с нормальной проверкой подлинности.

Это как если бы у меня появилась своя кафедра с толковыми аспирантами, и им можно выдавать сколько угодно заданий (я заплатил за pro-тариф конские 200 баксов в месяц). И они каждое задание делают если не с первого, так с третьего захода (промта). Только не за семестр, а за 15 минут. А мне интересно дофига всего: этический консенсус в психотерапии, модели политических и экономических факторов мировых рынков, типизация игроков в разных играх, искусственные языки, реальная эффективность практик селф-менеджмента, цены на издание настолок — это лишь часть того, что я исследовал недавно. Меня просто затянуло. Так я не залипал с апреля 2022-го, когда опробовал Миджорней. Очень, очень интересно и очень, очень улучшает предсказательную силу в практических задачах.

Потенциально. Оказалось, что «нельзя просто так взять и провести исследование» с помощью чего угодно, если ты не понимаешь, как они вообще работают. Я про это что-то понимаю — просто потому что работаю трекером, и какой-то опыт полевых и кабинетных исследований у меня есть. Но только в конкретном домене: исследование потребительского рынка для задач развития бизнеса. И тут я понял, что мне нужны инструменты быстрой оценки качества результатов ресёрча — от того, как я ограничиваю область поиска и формат результата, зависит очень многое. И лучшая школа этого всего — научные исследования.

А я по образованию промышленный дизайнер, и что такое DOI узнал только пару месяцев назад.

Короче, мне приспичило ворваться с двух ног в научный поиск. Точнее — сорвать его низко висящие плоды. Поговорил с друзьями-учёными (Сергеем Ждановым, Ильей Захаровым и Иваном Котоминым), и они помогли составить методичку, которой я и пользуюсь. Мой тезис в том, что теперь это настолько доступно, что требуется каждому: руководителю, продакту, инженеру, да и просто любопытному человеку.

Итак, если вы тоже хотите обратиться к научным знаниям, вот алгоритм действий.

Где найти статьи с данными приличного качества

1. Научные базы данных и поисковики

Google Scholar.
Semantic Scholar.
PubMed (для биомедицинских исследований).
Web of Science.
Scopus.
Connected Papers (для анализа связей между статьями).
CORE (крупный агрегатор открытого доступа).

Ими могут пользоваться все. Здесь собраны научные публикации и препринты.

2. Научные журналы

Один из самых простых и надёжных способов сужения — искать по архивам, специфичным для предметной области. Поэтому полезно держать под рукой названия журналов с хорошей репутацией.

Общие: Nature и Science, Proceedings of the National Academy of Sciences (PNAS).
Медицина: The Lancet, New England Journal of Medicine.
Биология и генетика: Cell, Nature Genetics.
Физика: Physical Review Letters (PRL), Nature Physics.
Математика: Annals of Mathematics, Inventiones Mathematicae.
Информатика и ИИ: Communications of the ACM (CACM), IEEE TPAMI.
Экономика: American Economic Review (AER), The Quarterly Journal of Economics (QJE).
Бизнес и менеджмент: Harvard Business Review (HBR)*, Academy of Management Journal (AMJ).
Инженерия: IEEE Transactions on Industrial Electronics, IEEE Transactions on Robotics.

*Harvard Business Review — не строго научный журнал, а просто издание с высокой репутацией. Публикует как практические материалы, так и результаты научных исследований в более доступном формате.

3. Вспомогательные инструменты

Sci-Hub (для доступа к платным статьям)**

Elicit.org (для извлечения данных из PDF).

Connected Papers (уже упоминали — помогает понять связи между работами).

Deep Research от OpenAI (для первичного анализа).

ResearchGate (для поиска статей и общения с авторами).

Google Dataset Search (для поиска наборов данных).

**Sci-Hub предоставляет свободный доступ к научным статьям. Часто игнорирует авторское право. Легальные альтернативы включают университетские библиотеки, запрос статьи у автора через ResearchGate или использование открытых репозиториев, таких как arXiv и bioRxiv.

Мой алгоритм поиска

Первичный обзор области. Тут можно активно использовать нейронки, которые умеют в deep research — режим, в котором ИИ ищет источники во внешнем вебе (пока не может сделать обобщение под заданный критерий). На мой взгляд, здесь по-прежнему лучший ChatGPT, хотя у Perplexity, DeepSeek и Grok есть похожие функции.

Вот эта кнопочка!

В Google Scholar используйте фильтр «Review Articles». Эти решения отлично подходят для первичного сканирования области и выявления ключевых терминов. На выходе вы получите понимание того, какие науки занимаются вопросом, какие в них научные школы, и какое облако ключевых слов вы будете использовать.

Определите период исследований. Он разный для разных областей (от пары лет для ИИ до нескольких десятилетий для гуманитарных дисциплин), но начинать почти всегда стоит с публикаций за последние 5–10 лет.

Найдите 5–10 ключевых авторов в интересной вам сфере, поищите обзорные статьи (review articles) и метаанализы. Это даст вам общее представление.

Особое внимание уделяйте журналам серии «Trends in…« — по сути, это метаобзоры от авторитетных учёных, которые уже сделали за вас работу по систематизации актуального в их области.

Учтите, что Deep Research и другие инструменты ИИ не всегда дают актуальную информацию и могут содержать ошибки, особенно по самым свежим исследованиям. Всегда перепроверяйте ключевые выводы.

Оцените источники с точки зрения качества и репутации. Хорошие научные журналы следят за качеством материалов, проверяют факты, рецензируют и стараются не публиковать сомнительный контент.

Качество журналов измеряется квартилями (Q) — они присваиваются изданию на основе цитируемости статей в других научных публикациях за определённый период. Это так называемый показатель влияния (Impact Factor или CiteScore). Лучше выбирать статьи из журналов Q1-Q2, предпочтительно Q1. Nature, Science, The Lancet — это всё Q1.

Если ваш предмет исследования не наука, а что-то другое (бизнес, технологии для бизнеса, мода), одной науки может не хватить. В этом случае нельзя полностью опереться на аппарат цитирования, но принцип тот же: сделайте предисследование (я для этого предпочитаю Claude), чтобы понять, как устроен сбор фактов в этой области, какие есть источники данных, какие существуют школы их описания и критерии отсечения фактов.

Ещё более грустный факт — если ваш предмет интереса относится к плохо описанному знанию, нейросетки вас не спасут. Чтобы синтезировать достоверные выводы из системы источников, эта система должна существовать в реальности. Если данные фрагментарны, нет понятных авторитетов, нет ресурсов, систематизирующих знания — ИИ этого за человечество не сделает. Он, конечно, может всё эмулировать, но для настоящего исследования это бесполезно.

Оцените цитируемость выбранной статьи с учётом года публикации.

Посмотрите количество цитирований. Оно тоже будет разным и зависит от интенсивности исследований и года публикации. Чтобы понять, какой уровень «достаточно хороший» — попросите deep research или perplexity составить табличку с обзором уровня цитируемости статей в этой области по годам.

Проверьте, не была ли статья отозвана. Такое случается.

Посмотрите, как именно цитируется статья (критически или поддерживающе).

Обратите внимание, кто ссылается — другие заметные учёные или студенты.

Если автор много цитирует сам себя — это должно снизить ваше доверие к его материалам.

Начинайте читать: абстракт → графические материалы → интродакшн → дискашн → методы → результаты.

Не обязательно читать всю статью. И уж точно не нужно читать все статьи.

Научные статьи имеют одинаковую строгую структуру. Можно работать не со всем текстом, а с логическими блоками.

Сначала читайте абстракт — краткое содержание → потом смотрите графические материалы → затем полезно изучить введение (интродакшн), если не очень хорошо знакомы с темой → после этого загляните в дискашн — там результаты изложены человеческим языком, указаны выводы, интерпретации, противоречия, ограничения.

Перестать читать можно сразу, как только поняли, что статья не подходит!

Если хотите по-настоящему погрузиться и провести углублённый анализ, можете не просто прочитать абстракт и дискашн, но и изучить методологию исследования, оценить его дизайн, критически проанализировать выводы и их обоснованность.

Методы полезны, но чтобы их понимать, нужно ориентироваться в предметной области.

Результаты читайте, если хотите глубже изучить то, что изложено в дискашне.

При чтении обратите внимание на ограничения исследования (раздел «Limitations»), размер выборки и статистическую значимость. Это поможет критически оценить текст.

Проверяйте не только p-value (статистическую значимость), но и размер эффекта — p < 0.05 говорит лишь о том, что результат вряд ли случаен, но не о том, насколько он значим практически.

Можно использовать Connected Papers для понимания связей с другими работами, проверить источники финансирования (особенно важно, например, в фарме). Но это уже для продвинутых пользователей.

Структурируйте и систематизируйте набранные статьи. Ведите учёт ключевых слов для поиска, сохраняйте DOI важных статей (идентификатор, который есть у каждой научной работы). Группируйте статьи по научным школам, отмечайте противоречия — в них часто самое интересное.

Где тут место роботам?

В смысле — что из этого за вас сделает ИИ, а что придётся делать самостоятельно? Вот наглядное сравнение:

	Первичный анализ	Валидация выводов	Углубление анализа	Финальная оценка и выбор направлений
ИИ	Использование ChatGPT/Deep Research для первичного поиска ключевых терминов, Google Scholar, Web of Science, Connected Papers	Оценка цитируемости, проверка источников финансирования, анализ критических отзывов с использованием Scopus и Web of Science	Проверка методологии, анализ дизайна исследования, использование метаанализов с помощью Elicit.org	Группировка данных, выявление трендов, анализ альтернативных гипотез с использование Tableau, Power BI, R, Python Pandas
Человек	Интерпретация первичных данных, выявление ключевых авторов, уточнение понятий и терминологии	Критическая оценка источников, изучение дискуссий вокруг статьи, проверка альтернативных точек зрения	Углублённый анализ аргументов, изучение методологии исследования, перекрестное сравнение с другими исследованиями	Финальная оценка, определение следующих шагов, разработка выводов, экспертная консультация

Ещё несколько ловушек от учёных, на которые стоит обратить внимание

Научные школы в разных областях могут противоречить друг другу. В экономике, например, Нобелевскую премию могут дать за противоположные выводы. Кроме того, научное знание очень фрагментировано — одни и те же явления исследуются в разных науках и часто не связаны между собой. Тот же искусственный интеллект изучают и нейронауки, и компьютерные науки. И смотрят на это совершенно по-разному. Поэтому одной статьёй не обойтись — читайте много по одной теме из разных областей.

В гуманитарных науках важнее понимать научные школы и их подходы, чем в точных науках.

Существует разрыв между академическими исследованиями и практическим применением. Если в статьях пишут о возможных применениях, совершенно нет гарантии, что кто-то тестировал это в реальном бизнесе. Более того, практический опыт и выводы из него в индустрии могут сильно отличаться от академических.

Отсутствие современных исследований по теме может быть значимым сигналом. Если вопросом в научном мире никто не интересуется, почти наверняка это значит, что он не имеет большого потенциала. Это не обязательно верно для гуманитарных наук, где между исследованиями одного явления может пройти 50–100 лет.

Важно понимать иерархию исследований в разных областях. Нужна своего рода «карта наук» для эффективной навигации. Тут здорово помогает connectedpapers.

Наличие статистически значимых эффектов даже по результатам метаанализа не означает, что эффект обязательно есть, поскольку отрицательные результаты обычно не публикуются (но шанс, что он есть, всё же выше).

Обращайте внимание на размер эффекта, а не только на статистическую значимость

Тут у вас должен возникнуть вопрос — а не дофига ли делов?

В смысле, звучит всё не очень-то просто. Вот какие ответы я для себя нашёл:

Мир ускорился, и надо как-то за ним гнаться
Время очень интересное, и пропускать самое вкусное — значит наказывать самого себя.
Искусственный интеллект ОЧЕНЬ упростил рутину поиска и оставил нам всё самое классное — формулировать вопросы, испытывать инсайты и применять результаты в деятельности.
Моя конкурентность на рынке в будущем будет напрямую связана с глубиной и скоростью исследований с помощью ИИ, поэтому это приоритетный навык для вкачивания.
Ну и учиться этому очень интересно. Как я говорил в начале, это моя любимая игрушка:)

В общем, если сложность работы с научным поиском вас не смутила, то вот краткое summary.

Начинайте с метаанализа и review-статей.
Критически оценивайте источники.
Не полагайтесь только на автоматические инструменты. Давайте одно и то же задание разным нейросетям, чтобы обнаружить противоречия. Проверяйте критические отзывы и альтернативные точки зрения.
Уделяйте особое внимание методологии исследований.
Учитывайте специфику разных научных областей.
Общайтесь с экспертами (лучше из разных подходов и разных научных школ).