По случаю ознакомился с работой, в которой для компьютерного понимания текстов предлагается использовать частоту ответов в поисковиках.
Пример: "Иван поставил новый блокиратор на автомобиль. Теперь его труднее угнать."
Задача: Кого труднее угнать?
Решение: поскольку поиск по словосочетанию "угнать автомобиль" дает в 43 раза больше ответов, чем по "угнать Ивана" и в 124 раза больше, чем "угнать блокиратор", то речь идет об автомобиле.
Идея мне понравилась, но пример поразил. Гугл (как я примерно и ожидал) дает всего 2 результата на "угнать Ивана" (включая автореферат обсуждаемой диссертации!), а на "угнать автомобиль" - 94200. (Если искать без кавычек, то частоты относятся примерно как 3.5:1, что на порядок отличается в другую сторону.) Интересно, в каком поисковике достигнута указанная частота?
Подписаться на:
Комментарии к сообщению (Atom)
Комментариев нет:
Отправить комментарий