История Интернета:
первый поисковик в Сети
История Интернета: первый поисковик в Сети В
конце 80-х еще не было World Wide Web. В те времена информация
передавалась с одного компьютера на другой по FTP, или протоколу
передачи файлов (file transfer protocol). FTP — это текстовый предок
Web. Обмен файлами представлял собой следующую процедуру: вы закачиваете
имеющуюся у вас игрушку (например, в виде game.zip) на ftp-сервер,
сообщаете друзьям по email'у о ftp-адресе, где вы игру оставили; друзья с
помощью ftp-клиента обращаются по указанному адресу к ftp-серверу,
получают с него список файлов в данной директории и, наконец-то,
закачивают game.zip себе на локальный компьютер.
Просто, да? Тут выявляется еще одна проблема: не знающий адреса game.zip игру никак не сможет найти, даже если очень захочет.
В
те древние времена уже существовали конференции, новостные группы, и
ftp-юзеры вывешивали объявления типа "пацаны, помогите плиз найти
monro909.bmp!" или "где взять драйвера к...?".
Но потом появилась ARCHIE. И многое изменилось.
Для
справки. ARCHIE — это база данных содержимого анонимных ftp-серверов.
Программа для этой БД была написана Archie Group в университете McGill
(Монреаль, Канада). ARCHIE хранит пути к файлам большого количества
анонимных ftp-серверов.
Чтобы история ARCHIE попала к вам из первых
рук, я написал три email'а: Алану Имтэджу (Alan Emtage), Питеру Дойчу
(Peter Deutsch) и Биллу Хилану (Bill Heelan). Они — три создателя
ARCHIE, та самая Archie Group.
История первого поискового сервиса Kolm:
Первое, что я бы хотел узнать, так это о том времени, когда Вы, Алан и
Питер создали свою программу. Насколько я знаю, вы все были студентами
университета McGill, что в Монреале.Bill: На самом деле,
Питер и Алан были аспирантами и одновременно работали на факультете
компьютерных исследований. А я только работал на факультете, учась в
Университете Консордии (то же в Монреале).
Peter: "Зерна ARHIE были
засеяны в 1987 году, когда нас попросили изучить возможность подключения
факультета компьютерных исследований к Интернету... Интернет почти
целиком был населен инженерами и учеными-информатиками, и мы были
уверены, что доступ туда окажется для нас очень полезным".
Kolm: Работа над ARHIE началась как какая-то программа университета или ваша личная инициатива?Bill:
В то время, когда она была создана, она не имела ничего общего с
McGill, кроме того, что мы учились и/или работали там. Вскоре после ее
создания, однако, она послужила тезисами диссертации Алана, в этом
смысле ARCHIE имела отношение к университету.
Kolm: Расскажите теперь, пожалуйста, немного о самом процессе создания программы.Bill:
В то время, когда ARCHIE была впервые разработана, я работал сисадмином
и программистом на кафедре компьютерных исследований (я никогда не был
студентом университета McGill). Алан Имтэдж и Питер Дойч, как я уже
говорил, были аспирантами и тоже работали на кафедре, а Питер ко всему
был нашим боссом (т.е. старшим сисадмином).
Питер часто помещал
объявления в группах новостей о помощи в поисках различных программ,
отвечал людям на их запросы, роясь в листингах ftp-серверов, которые
хранились на наших компьютерах. (Я не помню, он или Алан обслуживали
листинги.) Это была целая директория листингов с популярных в то время
ftp-серверов. Люди начали спрашивать, где они сами могут найти эти
списки. Вместо того, чтобы дать людям возможность иметь собственные
копии, Питер решил предоставить сервис на основе telnet.
Peter: "В
1989 году была дюжина архивных мест в Интернете. Один из моих
подчиненных, Алан Имсэдж, изучал расположение и содержание этих мест.
Когда была необходима определенная информация, Алан, наша резидентская
крыса, внедрялся в эти списки...
Информатика определена как
"искусство снижения нажатий клавиш". Имтэдж написал простой сценарий,
чтобы автоматизировать задачу внедрения в листинги на ftp-серверах,
которые затем переносились в локальные файлы. А уже потом в локальных
файлах осуществлялся быстрый поиск необходимой информации, поиск
основывался на стандартной grep-команде Unix (команда поиска в файлах —
kolm).
Сначала я упомянул свои возможности поиска файлов в Usenet и
был завален просьбами людей ищущих информацию... Собранная Аланом
информация была слишком объемной, чтобы распространяться каждому
вопрошавшему, поэтому я решил организовать доступ к нашим данным на
основе telnet. Я доверил это Алану и Биллу Хилану, другому члену моей
группы. В этот момент ARCHIE родилась".
Bill: Я полагаю, я написал
первую версию ARCHIE, которая просто позволяла людям входить в
специальный аккаунт и указать в обычных выражения, что нужно найти. По
существу, запускалась grep-комманда UNIX, которая работала с
необработанными листингами с сайтов. Это стало достаточно популярно для
того, чтобы вылиться во что-то большее.
Мы решили обработать
листинги, привести данные к более эффективному представлению. Мы разбили
данные на отдельные базы, одна из которых содержала только текстовые
названия файлов; а другая — записи со ссылками на иерархические
директории тысячи хостов; и еще одна, соединяющая первые две. Несмотря
на это, поиск все еще производился линейно по именам файлов: от элемента
к элементу. Но эта версия ARCHIE была эффективней предыдущей, так как
поиск производился только по именам файлов, исключая множество
существующих ранее повторов. Я верю, что эта версия послужила основой
тезисов диссертации Алана.
Peter: "Началось с тридцати посещений в
день, потом у нас было тридцать запросов в час, потом — в минуту...
Трафик продолжал расти, в один прекрасный день половина трафика в
сторону Монреаля направлялась уже на университетскую машину с ARCHIE.
Тогда мы поняли: настало время придумать механизм управления ростом".
Bill:
Со временем были сделаны многие доработки, однако, с моей точки зрения,
следующая основная версия ARCHIE была интересна больше с технической
стороны. Упомянутая выше база данных была заменена на другую, основанную
на теории сжатого дерева (compressed tries, структура построения баз
данных с цифровым ключом, предназначенным для организации и поиска
данных — kolm), описанной в черновой версии докторских тезисов Хепинга
Шанга (Heping Shang), в то время студента McGill. Это было осуществлено в
компании Bunyip Information Systems, так называемой Archie Group,
которая состояла из Биби Али (Bibi Ali), Сандро Маццукато (Sandro
Mazzucato) и меня. (Bunyip был создан частично для получения дивидендов с
ARCHIE.) Новая версия по существу создала полнотекстную базу данных
вместо списка имен файлов и была значительно быстрее, чем раньше. В
дополнение, второстепенные изменения позволили системе ARCHIE
индексировать web-страницы. К сожалению, по различным причинам, работа
над ARCHIE вскоре прекратилась, поэтому мы никогда не узнаем, как бы она
соперничала с современными поисковыми web-системами. При дальнейшем
развитии, нам казалось, что ARHIE запросто бы справилась.:)
Kolm: Значит вы работали над ARHIE ни где-нибудь в трейлере за 5 баксов в месяц, а сидя в кабинетах университета?Bill:
Да, вся работа над первой основной версией велась в McGill. Позже Питер
и Алан перешли с кафедры компьютерных исследований в компьютерный
центр, в то время как я остался там, где и был. Работа над ARCHIE в то
время продолжалась. В конце концов Питер и Алан основали Bunyip
Information Systems, с некоторыми инвестициями от McGill. Я
присоединился к Bunyip вскоре после ее создания.
Kolm: С
последовательностью создания и эволюцией идеи разобрались. Но все же, по
Вашему, кто был непосредственным изобретателем, автором этой самой
идеи?Bill: Если нужно выделить одного человека, то я бы
сказал, что это Питер. Я уверен, что это у него появилась идея создания
аккаунта, для того чтобы другие могли осуществлять поиск в наших
списках, т.е. Питер предложил идею предоставить поисковый сервис.
Kolm: Между прочим, интересно было бы услышать, на каких компьютерах Вы работали над ARCHIE?Bill:
Я не помню достаточно точно такие детали. Я думаю, что начальная работа
в Школе информатики в McGill, возможно, была сделана на Sun 4/280 (одна
из первых SPARC машин Sun), может быть даже 3/280 (ранние машины
Motorola). Позже сервер Школы переместился на IBM RS6000 под AIX. После
создания Bunyip, компьютерный центр McGill перешел на
services.bunyip.com, также известный как archie.mcgill.ca. Я думаю, это
были Sun Sparcstation 20, на операционных системах SunOS 4.x и AIX. Нам
не очень нравилось работать с AIX и RS6000, да я и не думаю, что кому-то
вообще нравилось когда-нибудь их поддерживать.
В McGill работа была
сделана независимо от конфигурации доступных нам рабочих станций
(например, Sun 4), в Bunyip мы работали на машинах подобных Sparcstation
1, 2 и 5. Ни McGill, ни Bunyip не могли себе позволить тратить много
денег на дорогие компьютеры.
Чем занимаются в Америке бывшие аспиранты, ставшие серьезными программистами Kolm:
Теперь давайте поговорим о Вас. В целом, ARCHIE сделала Вас достаточно
известным. В связи с этим хотелось бы знать, чем Вы занимаетесь сейчас?
Над какими проектами трудитесь, что программируете?Bill: Я
не согласился бы с тем, что ARCHIE сделала меня известным. Да, услуга
была популярной и известной в свое время, но рост Интернета изменяет
взгляд на некоторые вещи очень быстро. Я могу только догадываться, как
много людей стали пользоваться Интернетом с подачи ARCHIE, с тех времен,
когда ARCHIE была в зените своей славы.
После McGill я пошел в
Bunyip продолжать работу над ARCHIE и проработал там четыре или пять
лет. После ухода из Bunyip я работал на несколько компаний, три с
половиной года назад я устроился в Zero-Knowledge Systems. В ZKS я был в составе первой нанятой группы разработчиков и работал
над серверным компонентом системы "Свободы",
работавшей под Linux и Solaris, также я работал над клиентскими
библиотеками, работавшими в основном под Windows. В основном же я входил
в группу безопасности, которая была ответственной за шифровальные
аспекты программного обеспечения.
Основная сеть "Свободы" анонимных
прокси-серверов (AIP) недавно стала недоступной, но была создана новая
услуга для ее замены, она называется WebSecure. В настоящее время над этой системой я и работаю.
Интересно,
что в тех различных местах, где я работал, мне посчастливилось быть
вместе с моими друзьями из McGill. Например, я начал работать в ZKS
вместе с тремя людьми, с которыми я прежде работал либо в McGill, либо в
Bunyip.
Вот и вся история одной программы, которая, по словам
одного американского журналиста, "перевернула представления о поиске
информации в Интернете". Пообщавшись с Биллом, я посожалел о том, что
времена зарождения и начального развития Интернета прошли мимо нас. Ну,
разве только слегка задели.
Из Интернета.