Na­ce un nue­vo con­cep­to: ‘big da­ta’

Pa­ra el año 2020, el vo­lu­men glo­bal de da­tos al­ma­ce­na­dos se mul­ti­pli­ca­rá por 44

La Vanguardia - Dinero - - TECNOLOGÍA - Nor­ber­to Ga­lle­go

Ha­bía que en­con­trar una ex­pre­sión des­crip­ti­va del enor­me vo­lu­men de da­tos que des­bor­da la ca­pa­ci­dad del par­que mun­dial de sis­te­mas in­for­má­ti­cos; al­guien acu­ñó la fór­mu­la big da­ta, y con fortuna: rá­pi­da­men­te se ha aco­pla­do a otro cli­ché de uso co­rrien­te, cloud com­pu­ting. Se tra­ta de lo si­guien­te: a me­di­da que em­pre­sas y or­ga­nis­mos acu­mu­lan fre­né­ti­ca­men­te in­for­ma­ción di­gi­tal, se en­fren­tan a va­rias ta­reas in­gen­tes: cla­si­fi­car, fil­trar, com­pri­mir, al­ma­ce­nar, op­ti­mi­zar y ana­li­zar una ma­sa de da­tos que en el 2009 se cal­cu­la­ba en 0,8 ze­taby­tes y en el 2020 ha­brá cre­ci­do has­ta 35 ze­taby­tes (35 bi­llo­nes de gi­gaby­tes), una mul­ti­pli­ca­ción por 44 en una dé­ca­da. Pa­ra en­ton­ces, se­gún un es­tu­dio ela­bo­ra­do por IDC, la mi­tad de esos da­tos re­si­di­rá, y se­rá pro­ce­sa­da, en ser-

El re­to es­tá en que los nue­vos sis­te­mas de al­ma­ce­na­mien­to han de ma­ne­jar da­tos no es­truc­tu­ra­dos

vi­do­res re­mo­tos “en la nu­be”.

No bas­ta, pues, con al­ma­ce­nar­los tal co­mo se ha he­cho du­ran­te dé­ca­das, ni el pro­ble­ma es só­lo de mag­ni­tud. Más gra­ve que el vo­lu­men es la na­tu­ra­le­za de esos da­tos que se acu­mu­lan: los nue­vos sis­te­mas de al­ma­ce­na­mien­to han de ma­ne­jar da­tos no es­truc­tu­ra­dos –bús­que­das en internet, co­mu­ni­ca­cio­nes en las re­des so­cia­les, blogs y otros con­te­ni­dos ge­ne­ra­dos por los usua­rios, o pro­ce­den­tes de sen­so­res de trá­fi­co, imá­ge­nes de cá­ma­ras de se­gu­ri­dad, his­to­ria­les mé­di­cos...– que re­quie­ren un tra­ta­mien­to cua­li­ta­ti­va­men­te dis­tin­to al de las ba­ses de da­tos tra­di­cio­na­les.

His­tó­ri­ca­men­te, las ba­ses de da­tos –uni­das al ori­gen de los or­de­na­do­res– fue­ron di­se­ña­das pa­ra fa­ci­li­tar transac­cio­nes, co­mo la ac­tua­li­za­ción de la cuen­ta ban­ca­ria ca­da vez que se ha­ce un mo­vi­mien­to en un ca­je­ro au­to­má­ti­co. Pe­ro tien­den a ser rí­gi­das y es­truc­tu­ra­das se­gún cam­pos de­fi­ni­dos de ma­ne­ra per­ma­nen­te, lo que mar­ca un lí­mi­te a lo que pue­de y no pue­de pre­gun­tar­se a la ba­se de da­tos. En con­tras­te, las nue­vas téc­ni- cas son ca­pa­ces de ma­ne­jar da­tos no es­truc­tu­ra­dos, co­mo los que tí­pi­ca­men­te cir­cu­lan por internet.

To­do su­ma­do, lo an­te­rior jus­ti­fi­ca que se ha­ble ca­da vez más de big da­ta, y el au­ge de internet ha desem­pe­ña­do un pa­pel: Goo­gle, Yahoo, Fa­ce­book, Twit­ter, Ama- zon... han te­ni­do que desa­rro­llar sus pro­pias téc­ni­cas pa­ra aten­der ese pro­ble­ma, téc­ni­cas que van más allá (y más al fon­do) de aque­llo que du­ran­te años han per­mi­ti­do los sis­te­mas in­for­má­ti­cos de la ban­ca y las gran­des cor­po­ra­cio­nes. Un ejem­plo: pa­ra Fa­ce­book es esen­cial com­pren­der có­mo se com­por­tan sus más de 500 mi­llo­nes de usua­rios, por­que de esa com­pren­sión de­pen­de la op­ti­mi­za­ción de su in­fra­es­truc­tu­ra y su ar­gu­men­ta­ción pa­ra ven­der pu­bli­ci­dad a los anun­cian­tes que quie­ran lle­gar a esa ma­sa de con- su­mi­do­res que, sin seg­men­ta­ción, se­ría amor­fa. Con ese fin, la red so­cial se ha do­ta­do de unas 2.000 má­qui­nas de al­ma­ce­na­mien­to con ca­pa­ci­dad de 25 pe­taby­tes (25 mi­llo­nes de gi­gaby­tes). Goo­gle, con una ca­pa­ci­dad muy su­pe­rior, no fa­ci­li­ta da­tos.

Pa­ra el res­to de las em­pre­sas de ca­si cual­quier sec­tor, que con­flu­yen ma­si­va­men­te en la red, es­ta ola de in­for­ma­ción di­gi­tal sig­ni­fi­ca que, por pri­me­ra vez, dis­po­nen de ins­tru­men­tos pa­ra adap­tar sus pro­duc­tos a las pre­fe­ren­cias de los usua­rios y pa­ra pla­ni­fi­car con más pre­ci­sión su pu­bli­ci­dad. Es­to exi­ge pro­ce­sos en tiem­po real: en una de­mos­tra­ción re­cien­te, el ejer­ci­cio de cru­zar 16 bi­llo­nes de lí­neas de pe­di­dos por 56 mi­llo­nes de clien­tes, dio co­mo re­sul­ta­do un ma­pa de­ta­lla­do del com­por­ta­mien­to de es­tos, en ape­nas 33 se­gun­dos.

Hay otros fac­to­res en jue­go: 1) re­du­cir el cos­te de al­ma­ce­na­mien­to pa­ra achi­car el des­fa­se en­tre los da­tos que se crean y los

Pa­ra Fa­ce­book es esen­cial com­pren­der có­mo se com­por­tan sus más de 500 mi­llo­nes de usua­rios

que se pue­den con­ser­var; 2) re­ela­bo­rar los mé­to­dos ana­lí­ti­cos pa­ra ex­traer de ellos el va­lor in­trín­se­co que con­tie­nen, y 3) ha­cer que el in­cre­men­to ex­po­nen­cial no con­lle­ve un au­men­to pa­ra­le­lo del con­su­mo de ener­gía.

Joe Tuc­ci, el pre­si­den­te de EMC, afir­ma que el 90% de los da­tos que se crean ca­da día no son es­truc­tu­ra­dos, y que “al cre­ci­mien­to ver­ti­gi­no­so he­mos de aña­dir la apa­ri­ción de nue­vos ti­pos de da­tos, de dis­tin­tas ma­ne­ras de ges­tio­nar­los, y el nú­me­ro de dis­po­si­ti­vos que usan los em­plea­dos de las em­pre­sas”.

Es­te fe­nó­meno eco­nó­mi­co que ha da­do en lla­mar­se big da­ta, se apo­ya en téc­ni­cas es­ca­la­bles, pa­ra pro­ce­sar y ana­li­zar la in­for­ma­ción dis­po­ni­ble, mu­cha de ella re­dun­dan­te. Por es­to, los gran­des nom­bres de la in­for­má­ti­ca se han afa­na­do en cap­tu­rar em­pre­sas pe­que­ñas y es­pe­cia­li­za­das. EMC, lí­der mun­dial en al­ma­ce­na­mien­to de da­tos, ha des­em­bol­sa­do más de 2.000 mi­llo­nes de eu­ros pa­ra ab­sor­ber Green­plum e Isi­lon, en­tre otras; IBM ha com­pra­do Ne­tez­za y HP ha in­te­gra­do Ver­ti­ca Sys­tems. Só­lo Ora­cle aún no ha mo­vi­do fi­cha.

AR­CHI­VO

Los sis­te­mas big da­ta, di­se­ña­dos pa­ra con­jun­tos de da­tos ex­tre­ma­da­men­te gran­des, ma­ne­jan a me­nu­do te­raby­tes o pe­taby­tes

Newspapers in Spanish

Newspapers from Spain

© PressReader. All rights reserved.