Semalt забяспечвае вынікі тэставання вэб-інструментаў выскрабання

Кожны карыстальнік сутыкаецца з двума варыянтамі, калі хоча выкарыстоўваць інструменты выскрабання ў Інтэрнэце. Яны альбо выкарыстоўваюць несанкцыянаваны скрабэр, альбо карыстацкі скрабок. У той час як карыстацкі скрабок з'яўляецца лепшым варыянтам, шмат людзей ухіляецца ад яго з-за высокай кошту. Інструмент павінен быць распрацаваны ў адпаведнасці з вашым бізнесам і перавагамі, таму ён патрабуе вялікай працы.

З іншага боку, нестандартныя вэб-скрабкі занадта агульныя, паколькі яны прызначаны для агульных задач выскрабання ў Інтэрнэце. Звычайна яны лепшыя ў некаторых праектах, якія выдзяляюцца ў Інтэрнэце, і ў іншых працуюць з прыцягальнай працай. Каб зрабіць правільны выбар, некаторыя вэб-скрабкі былі падвергнуты дбайнаму тэсту на выскрабанне, і вынікі былі паказаны ніжэй.

Крытэрыі тэсту

Інтэрнэт-скрабкі прайшлі праверку на наступных агульных задачах па выманні дадзеных. Яны прайшлі праверку на здольнасць сакрэтаваць таблічныя справаздачы, тэкставыя спісы і формы ўваходу. Акрамя таго, вэб-скрабкі таксама прайшлі праверку на здольнасць здабываць дадзеныя з дынамічных вэб-старонак, пабудаваных на AJAX. Звычайна гэта адна з самых складаных задач для многіх вэб-скрэпераў. Іх здольнасць кіраваць Captcha была таксама выпрабавана. Нарэшце, яны былі правераны на здольнасць апрацоўваць макет блока.

Вынікі тэсту

Правераныя інструменты для выскрабання Інтэрнэту - гэта Grabber Content, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor і Easy Web Extractor.

Вынікі паказалі, што Content Grabber з'яўляецца лепшым, паколькі ён працуе выдатна ва ўсіх выпрабаваных зонах. Такім чынам, ён атрымаў самы высокі сярэдні рэйтынг. Было таксама заўважана, што ўсе інструменты для выскрабання ў Інтэрнэце змаглі саскрэбіць формы ўваходу ў сістэму, а таксама вычысціць дадзеныя з вэб-старонак, створаных пры дапамозе AJAX. Такім чынам, калі гэта дзве прычыны, якія вам патрэбныя ў вэб-скрабках, вы можаце выбраць любую з іх. Усе яны зрабілі вельмі добра ў абедзвюх галінах.

Наступным па змесце Grabber з'яўляецца Visual Web Ripper. Ён паспяхова працуе ва ўсіх абласцях, але не так, як "Content Grabber", таму атрымаў сярэдні рэйтынг у 4,5. Наступны вэб-інструмент - гелій скрепер. Яго прадукцыйнасць амаль такая ж добрая, як і ў Visual Web Ripper. Адзіная праблема з Helium Scraper заключаецца ў яго дрэннай працы ў размяшчэнні блока.

Згодна з вынікамі выпрабаванняў, інструменты для выскрабання ў Інтэрнэце выконваюцца ў такім парадку: Content Grabber, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor і Easy Web Extractor, якія даюць найгоршыя вынікі .

Выснова

Улічваючы вынікі тэстаў, прааналізаваныя вышэй, Content Grabber атрымаў адзнаку 5 ва ўсіх катэгорыях тэстаў. Такім чынам, гэта, відавочна, самае лепшае. Магчыма, вам трэба паспрабаваць таксама. На жаль, з розных прычынаў двое скрабкоў выцягнулі з тэсту. Распрацоўшчыкі Web Data Extractor і WebHarvy выцягнулі сваю прадукцыю з тэсту.

Нягледзячы на тое, што яны не ўдзельнічалі ў выпрабаванні, пра некалькі з іх даведаліся некалькі. WebHarvy прызначаны для выскрабання дадзеных з добра адфарматаваных спісаў старонак, у той час як вэб-экстрактар дадзеных прызначаны выключна для збору электронных лістоў, URL і г.д.